Interpretabilidad de modelos de redes neuronales para visión por computadora

La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de for...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Stanchi, Oscar Agustín
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/173159
Aporte de:
id I19-R120-10915-173159
record_format dspace
spelling I19-R120-10915-1731592024-11-17T20:01:44Z http://sedici.unlp.edu.ar/handle/10915/173159 Interpretabilidad de modelos de redes neuronales para visión por computadora Interpretability of neural network models for computer vision Stanchi, Oscar Agustín 2024-11-20 2024 2024-11-15T21:23:11Z es Cs de la Computación sistemas inteligentes redes neuronales profundas visión por computadora interpretabilidad fondo de ojo intelligent systems deep learning computer vision interpretability fundus image La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado. Carrera: Doctorado en Ciencias Informáticas Lugar de trabajo: Instituto de Investigación en Informática (III-LIDI) Organismo: CONICET Año de inicio de beca: 2023 Año de finalización de beca: 2028 Apellido, Nombre del Director/a/e: Ronchetti, Franco Apellido, Nombre del Codirector/a/e: Hasperué, Waldo Lugar de desarrollo: Instituto de Investigación en Informática (III-LIDI) Áreas de conocimiento: Cs de la Computación Tipo de investigación: Aplicada Facultad de Informática Objeto de conferencia Objeto de conferencia http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Cs de la Computación
sistemas inteligentes
redes neuronales profundas
visión por computadora
interpretabilidad
fondo de ojo
intelligent systems
deep learning
computer vision
interpretability
fundus image
spellingShingle Cs de la Computación
sistemas inteligentes
redes neuronales profundas
visión por computadora
interpretabilidad
fondo de ojo
intelligent systems
deep learning
computer vision
interpretability
fundus image
Stanchi, Oscar Agustín
Interpretabilidad de modelos de redes neuronales para visión por computadora
topic_facet Cs de la Computación
sistemas inteligentes
redes neuronales profundas
visión por computadora
interpretabilidad
fondo de ojo
intelligent systems
deep learning
computer vision
interpretability
fundus image
description La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado.
format Objeto de conferencia
Objeto de conferencia
author Stanchi, Oscar Agustín
author_facet Stanchi, Oscar Agustín
author_sort Stanchi, Oscar Agustín
title Interpretabilidad de modelos de redes neuronales para visión por computadora
title_short Interpretabilidad de modelos de redes neuronales para visión por computadora
title_full Interpretabilidad de modelos de redes neuronales para visión por computadora
title_fullStr Interpretabilidad de modelos de redes neuronales para visión por computadora
title_full_unstemmed Interpretabilidad de modelos de redes neuronales para visión por computadora
title_sort interpretabilidad de modelos de redes neuronales para visión por computadora
publishDate 2024
url http://sedici.unlp.edu.ar/handle/10915/173159
work_keys_str_mv AT stanchioscaragustin interpretabilidaddemodelosderedesneuronalesparavisionporcomputadora
AT stanchioscaragustin interpretabilityofneuralnetworkmodelsforcomputervision
_version_ 1827812762208698368