Recuperando prestaciones en clusters tras ocurrencia de fallos utilizando RADIC

Tras la recuperación de un fallo, las aplicaciones pierden prestaciones debido, en gran parte, a que el número planificado de nodos ha disminuido y de la pérdida que provoca la existencia no planificada de procesos compartiendo el mismo nodo. Este trabajo presenta una propuesta para mitigar las pérd...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Santos, Guna A., Duarte, Angelo, Rexachs del Rosario, Dolores, Luque Fadón, Emilio
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2006
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/22688
Aporte de:
Descripción
Sumario:Tras la recuperación de un fallo, las aplicaciones pierden prestaciones debido, en gran parte, a que el número planificado de nodos ha disminuido y de la pérdida que provoca la existencia no planificada de procesos compartiendo el mismo nodo. Este trabajo presenta una propuesta para mitigar las pérdidas de prestaciones en sistemas paralelos con tolerancia a fallos basados en rollback-recovery, después de un fallo, donde la máquina paralela queda reconfigurada con un nodo menos, con la consiguiente repercusión en el tiempo de ejecución de la aplicación. Proponemos para recuperar las prestaciones, una solución que extiende la arquitectura RADIC: la posibilidad de permitir, durante la ejecución de la aplicación, el reemplazo de nodos que han fallado o disponer de nodos extras que pueden ser iniciados con la aplicación, pero sin procesos de la aplicación activos, de forma que cuando falle un nodo pase a ejecutar los procesos en dicho nodo