A methodology for soft errors detection and automatic recovery
Handling faults is a growing concern in HPC; higher error rates, larger detection intervals and silent faults are expected in the future. It is projected that, in exascale systems, errors will occur several times a day, and they will propagate to generate errors that will range from process crashes...
Guardado en:
| Autores principales: | Montezanti, Diego Miguel, De Giusti, Armando Eduardo, Naiouf, Marcelo, Villamayor, Jorge, Rexachs del Rosario, Dolores, Luque Fadón, Emilio |
|---|---|
| Formato: | Objeto de conferencia |
| Lenguaje: | Inglés |
| Publicado: |
2017
|
| Materias: | |
| Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/129169 |
| Aporte de: |
Ejemplares similares
-
Soft errors detection and automatic recovery based on replication combined with different levels of checkpointing
por: Montezanti, Diego Miguel, et al.
Publicado: (2020) -
SEDAR: Soft Error Detection and Automatic Recovery in High Performance Computing Systems
por: Montezanti, Diego Miguel
Publicado: (2020) -
Factores que afectan el consumo energético de operaciones de checkpoint y restart en clusters
por: Morán, Marina, et al.
Publicado: (2018) -
Metodología para predecir el consumo energético de checkpoints en sistemas de HPC
por: Balladini, Javier, et al.
Publicado: (2014) -
SEDAR: Detección y recuperación automática de fallos transitorios en sistemas de cómputo de altas prestaciones
por: Montezanti, Diego Miguel
Publicado: (2020)