Factores que afectan el consumo energético de operaciones de checkpoint y restart en clusters

El método de tolerancia a fallos mas usado actualmente en Cómputo de Altas Prestaciones es el de rollback-recovery mediante el uso de checkpoints. Éste, como cualquier otro método de tolerancia a fallos, agrega un consumo energético adicional al propio de la ejecución de la aplicación. El objetivo d...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Morán, Marina, Balladini, Javier, Rexachs del Rosario, Dolores, Luque Fadón, Emilio
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2018
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/73036
Aporte de:
Descripción
Sumario:El método de tolerancia a fallos mas usado actualmente en Cómputo de Altas Prestaciones es el de rollback-recovery mediante el uso de checkpoints. Éste, como cualquier otro método de tolerancia a fallos, agrega un consumo energético adicional al propio de la ejecución de la aplicación. El objetivo de este trabajo es determinar los factores que afectan el consumo energético de los nodos de cómputo de un cluster homogéneo, al ejecutar operaciones de checkpoint y restart, sobre aplicaciones SPMD (Single Program Múltiple Data). Nos hemos enfocado en el estudio energético de nodos de cómputo, contemplando diferentes configuraciones de parámetros de hardware y software. Se estudió el efecto de los estados de rendimiento (estados P) y potencia (estados C) de los procesadores, el tamaño del problema de la aplicación, la configuración del software de checkpoint utilizado (DMTCP), y del sistema de archivos distribuido (NFS). El análisis de los resultados permitió identificar oportunidades que permiten disminuir el consumo energético de las operaciones de checkpoint y restart.