Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores

El aumento en la escala de integración, con el objetivo de mejorar las prestaciones en los procesadores actuales, sumado al crecimiento de los sistemas de cómputo, han producido que la fiabilidad se haya vuelto un aspecto relevante. En particular, la creciente vulnerabilidad a los fallos transitorio...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autor principal:	Montezanti, Diego Miguel
Otros Autores:	De Giusti, Armando Eduardo
Formato:	Tesis Trabajo de especializacion
Lenguaje:	Español
Publicado:	2014
Materias:	Ciencias Informáticas Error-checking Clustering Parallel processing
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/43305
Aporte de:	SEDICI (UNLP) de Universidad Nacional de La Plata

id	I19-R120-10915-43305
record_format	dspace
institution	Universidad Nacional de La Plata
institution_str	I-19
repository_str	R-120
collection	SEDICI (UNLP)
language	Español
topic	Ciencias Informáticas Error-checking Clustering Parallel processing
spellingShingle	Ciencias Informáticas Error-checking Clustering Parallel processing Montezanti, Diego Miguel Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
topic_facet	Ciencias Informáticas Error-checking Clustering Parallel processing
description	El aumento en la escala de integración, con el objetivo de mejorar las prestaciones en los procesadores actuales, sumado al crecimiento de los sistemas de cómputo, han producido que la fiabilidad se haya vuelto un aspecto relevante. En particular, la creciente vulnerabilidad a los fallos transitorios se ha vuelto crítica, a causa de la capacidad de estos fallos de corromper los resultados de las aplicaciones. Históricamente, los fallos transitorios han sido una preocupación en el diseño de sistemas críticos, como sistemas de vuelo o servidores de alta disponibilidad, en los que las consecuencias del fallo pueden resultar desastrosas. Pese a ser fallos temporarios, tienen la capacidad de alterar el comportamiento del sistema de cómputo. A partir del año 2000 se han vuelto más frecuentes los reportes de desperfectos significativos en distintas supercomputadoras, debidos a los fallos transitorios. El impacto de los fallos transitorios se vuelve más relevante en el contexto del Cómputo de Altas Prestaciones (HPC). Aun cuando el tiempo medio entre fallos (MTBF) es del orden de 2 años para un procesador comercial, en el caso de una supercomputadora con cientos o miles de procesadores que cooperan para resolver una tarea, el MTBF disminuye cuanto mayor es la cantidad de procesadores. Esta situación se agrava con el advenimiento de los procesadores multicore y las arquitecturas de cluster de multicores, que incorporan un alto grado de paralelismo a nivel de hardware. La incidencia de los fallos transitorios es aún mayor en el caso de aplicaciones de gran duración, que manejan elevados volúmenes de datos, dado el alto costo (en términos de tiempo y utilización de recursos) que implica volver a lanzar la ejecución desde el comienzo, en caso de obtener resulta-dos incorrectos debido a la ocurrencia del fallo. Estos factores justifican la necesidad de desarrollar estrategias específicas para mejorar la con-fiabilidad en sistemas de HPC; en este sentido, es crucial poder detectar los fallos llamados silenciosos, que alteran los resultados de las aplicaciones pero que no son interceptados por el sistema operativo ni ninguna otra capa de software del sistema, por lo que no causan la finalización abrupta de la ejecución. En este contexto, el trabajo analizará una metodología distribuida basada en software, diseñada para aplicaciones paralelas científicas que utilizan paso de mensajes, capaz de detectar fallos transitorios mediante la validación de contenidos de los mensajes que se van a enviar a otro proceso de la aplicación. Esta metodología, previamente publicada, intenta abordar un problema no cubierto por las propuestas existentes, detectando los fallos transitorios que permiten la continuidad de la ejecución pero que son capaces de corromper los resultados finales, mejorando la confiabilidad del sistema y disminuyendo el tiempo luego del cual se puede relanzar la aplicación, lo cual es especialmente útil en ejecuciones prolongadas.
author2	De Giusti, Armando Eduardo
author_facet	De Giusti, Armando Eduardo Montezanti, Diego Miguel
format	Tesis Trabajo de especializacion
author	Montezanti, Diego Miguel
author_sort	Montezanti, Diego Miguel
title	Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_short	Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_full	Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_fullStr	Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_full_unstemmed	Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_sort	una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
publishDate	2014
url	http://sedici.unlp.edu.ar/handle/10915/43305
work_keys_str_mv	AT montezantidiegomiguel unametodologiadedetecciondefallostransitoriosenaplicacionesparalelassobreclusterdemulticores
bdutipo_str	Repositorios
_version_	1764820473534742531

Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores

Ejemplares similares