Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores

El aumento en la escala de integración, con el objetivo de mejorar las prestaciones en los procesadores actuales, sumado al crecimiento de los sistemas de cómputo, han producido que la fiabilidad se haya vuelto un aspecto relevante. En particular, la creciente vulnerabilidad a los fallos transitorio...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Montezanti, Diego Miguel
Otros Autores: De Giusti, Armando Eduardo
Formato: Tesis Trabajo de especializacion
Lenguaje:Español
Publicado: 2014
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/43305
Aporte de:
id I19-R120-10915-43305
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Error-checking
Clustering
Parallel processing
spellingShingle Ciencias Informáticas
Error-checking
Clustering
Parallel processing
Montezanti, Diego Miguel
Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
topic_facet Ciencias Informáticas
Error-checking
Clustering
Parallel processing
description El aumento en la escala de integración, con el objetivo de mejorar las prestaciones en los procesadores actuales, sumado al crecimiento de los sistemas de cómputo, han producido que la fiabilidad se haya vuelto un aspecto relevante. En particular, la creciente vulnerabilidad a los fallos transitorios se ha vuelto crítica, a causa de la capacidad de estos fallos de corromper los resultados de las aplicaciones. Históricamente, los fallos transitorios han sido una preocupación en el diseño de sistemas críticos, como sistemas de vuelo o servidores de alta disponibilidad, en los que las consecuencias del fallo pueden resultar desastrosas. Pese a ser fallos temporarios, tienen la capacidad de alterar el comportamiento del sistema de cómputo. A partir del año 2000 se han vuelto más frecuentes los reportes de desperfectos significativos en distintas supercomputadoras, debidos a los fallos transitorios. El impacto de los fallos transitorios se vuelve más relevante en el contexto del Cómputo de Altas Prestaciones (HPC). Aun cuando el tiempo medio entre fallos (MTBF) es del orden de 2 años para un procesador comercial, en el caso de una supercomputadora con cientos o miles de procesadores que cooperan para resolver una tarea, el MTBF disminuye cuanto mayor es la cantidad de procesadores. Esta situación se agrava con el advenimiento de los procesadores multicore y las arquitecturas de cluster de multicores, que incorporan un alto grado de paralelismo a nivel de hardware. La incidencia de los fallos transitorios es aún mayor en el caso de aplicaciones de gran duración, que manejan elevados volúmenes de datos, dado el alto costo (en términos de tiempo y utilización de recursos) que implica volver a lanzar la ejecución desde el comienzo, en caso de obtener resulta-dos incorrectos debido a la ocurrencia del fallo. Estos factores justifican la necesidad de desarrollar estrategias específicas para mejorar la con-fiabilidad en sistemas de HPC; en este sentido, es crucial poder detectar los fallos llamados silenciosos, que alteran los resultados de las aplicaciones pero que no son interceptados por el sistema operativo ni ninguna otra capa de software del sistema, por lo que no causan la finalización abrupta de la ejecución. En este contexto, el trabajo analizará una metodología distribuida basada en software, diseñada para aplicaciones paralelas científicas que utilizan paso de mensajes, capaz de detectar fallos transitorios mediante la validación de contenidos de los mensajes que se van a enviar a otro proceso de la aplicación. Esta metodología, previamente publicada, intenta abordar un problema no cubierto por las propuestas existentes, detectando los fallos transitorios que permiten la continuidad de la ejecución pero que son capaces de corromper los resultados finales, mejorando la confiabilidad del sistema y disminuyendo el tiempo luego del cual se puede relanzar la aplicación, lo cual es especialmente útil en ejecuciones prolongadas.
author2 De Giusti, Armando Eduardo
author_facet De Giusti, Armando Eduardo
Montezanti, Diego Miguel
format Tesis
Trabajo de especializacion
author Montezanti, Diego Miguel
author_sort Montezanti, Diego Miguel
title Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_short Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_full Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_fullStr Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_full_unstemmed Una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
title_sort una metodología de detección de fallos transitorios en aplicaciones paralelas sobre cluster de multicores
publishDate 2014
url http://sedici.unlp.edu.ar/handle/10915/43305
work_keys_str_mv AT montezantidiegomiguel unametodologiadedetecciondefallostransitoriosenaplicacionesparalelassobreclusterdemulticores
bdutipo_str Repositorios
_version_ 1764820473534742531