Propuestas para integrar la arquitectura RADIC de forma transparente

El aumento en tamaño de los clústeres de computadores trae consigo un incremento en la tasa de fallos. En este trabajo se presentan dos propuestas de integración de la arquitectura RADIC, una a nivel de librería de comunicaciones y otra a nivel de protocolo de red, específicamente a nivel de sockets...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Meyer, Hugo, Castro León, Marcela, Rexachs del Rosario, Dolores, Luque Fadón, Emilio
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2011
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/18689
Aporte de:
Descripción
Sumario:El aumento en tamaño de los clústeres de computadores trae consigo un incremento en la tasa de fallos. En este trabajo se presentan dos propuestas de integración de la arquitectura RADIC, una a nivel de librería de comunicaciones y otra a nivel de protocolo de red, específicamente a nivel de sockets. Dado que MPI es un estándar que frente a fallos propone realizar una parada (fail-stop), RADIC se encarga de enmascarar los fallos para que la aplicación termine, para ello utiliza un controlador distribuido que protege el cómputo utilizando estrategias de rollback-recovery. Resultados iniciales demuestran RADIC puede integrarse en diferentes capas del sistema para que actúe de forma transparente, que la arquitectura propuesta escala correctamente con la aplicación y que los overheads dependen de la configuración del sistema y del comportamiento de la aplicación. Además incluyendo nodos spare para recuperar procesos fallados evita la sobrecarga en nodos de cómputo y mantiene las prestaciones similares a las iniciales.