Desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo Whisper y técnicas de mejora de datos

El idioma guaraní es uno de los lenguajes autóctonos más hablados de América del Sur, y es utilizado por la mayoría de la población del Paraguay. Sin embargo, se encuentra poco representado en conjuntos de datos utilizados para el entrenamiento de modelos multilenguaje, por lo que existen pocas herr...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Acevedo Zarza, Santiago Rubén, Fidabel Gill, Mateo Andrés, von Lücken Martínez, Christian Daniel, Pinto Roa, Diego Pedro
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/177187
Aporte de:
id I19-R120-10915-177187
record_format dspace
spelling I19-R120-10915-1771872025-03-07T20:06:58Z http://sedici.unlp.edu.ar/handle/10915/177187 Desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo Whisper y técnicas de mejora de datos Acevedo Zarza, Santiago Rubén Fidabel Gill, Mateo Andrés von Lücken Martínez, Christian Daniel Pinto Roa, Diego Pedro 2024-08 2024 2025-03-07T17:00:46Z es Ciencias Informáticas idioma guaraní reconocimiento automático del habla aprendizaje semi-super visado low-rank adaptation El idioma guaraní es uno de los lenguajes autóctonos más hablados de América del Sur, y es utilizado por la mayoría de la población del Paraguay. Sin embargo, se encuentra poco representado en conjuntos de datos utilizados para el entrenamiento de modelos multilenguaje, por lo que existen pocas herramientas lingüísticas basadas en deep learning que sean compatibles con el guaraní. Este proyecto tiene como objetivo desarrollar un sistema de reconocimiento capaz de transcribir voz en guaraní y ponerlo a disposición del público. El primer paso es llevar a cabo un análisis preliminar para identificar un criterio óptimo de selección de datos de entrenamiento y comparar el rendimiento de modelos de diferentes tamaños. Este estudio evalúa los siguientes criterios: el uso de una muestra pequeña de datos manualmente verificada, una muestra más grande con exactitud sin verificar, y una combinación de ambos enfoques mediante aprendizaje auto-supervisado. Todos los datos provienen del corpus de Mozilla Common Voice, y los modelos fueron entrenados a partir de diferentes versiones multilenguaje de Whisper. Encontramos que incluir una muestra más grande de datos sin verificar mejora drásticamente la precisión del modelo final, y que el aprendizaje auto-supervisado no mejora la precisión con respecto al modelo inicial. Sociedad Argentina de Informática e Investigación Operativa Objeto de conferencia Objeto de conferencia http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf 158-166
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
idioma guaraní
reconocimiento automático del habla
aprendizaje semi-super visado
low-rank adaptation
spellingShingle Ciencias Informáticas
idioma guaraní
reconocimiento automático del habla
aprendizaje semi-super visado
low-rank adaptation
Acevedo Zarza, Santiago Rubén
Fidabel Gill, Mateo Andrés
von Lücken Martínez, Christian Daniel
Pinto Roa, Diego Pedro
Desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo Whisper y técnicas de mejora de datos
topic_facet Ciencias Informáticas
idioma guaraní
reconocimiento automático del habla
aprendizaje semi-super visado
low-rank adaptation
description El idioma guaraní es uno de los lenguajes autóctonos más hablados de América del Sur, y es utilizado por la mayoría de la población del Paraguay. Sin embargo, se encuentra poco representado en conjuntos de datos utilizados para el entrenamiento de modelos multilenguaje, por lo que existen pocas herramientas lingüísticas basadas en deep learning que sean compatibles con el guaraní. Este proyecto tiene como objetivo desarrollar un sistema de reconocimiento capaz de transcribir voz en guaraní y ponerlo a disposición del público. El primer paso es llevar a cabo un análisis preliminar para identificar un criterio óptimo de selección de datos de entrenamiento y comparar el rendimiento de modelos de diferentes tamaños. Este estudio evalúa los siguientes criterios: el uso de una muestra pequeña de datos manualmente verificada, una muestra más grande con exactitud sin verificar, y una combinación de ambos enfoques mediante aprendizaje auto-supervisado. Todos los datos provienen del corpus de Mozilla Common Voice, y los modelos fueron entrenados a partir de diferentes versiones multilenguaje de Whisper. Encontramos que incluir una muestra más grande de datos sin verificar mejora drásticamente la precisión del modelo final, y que el aprendizaje auto-supervisado no mejora la precisión con respecto al modelo inicial.
format Objeto de conferencia
Objeto de conferencia
author Acevedo Zarza, Santiago Rubén
Fidabel Gill, Mateo Andrés
von Lücken Martínez, Christian Daniel
Pinto Roa, Diego Pedro
author_facet Acevedo Zarza, Santiago Rubén
Fidabel Gill, Mateo Andrés
von Lücken Martínez, Christian Daniel
Pinto Roa, Diego Pedro
author_sort Acevedo Zarza, Santiago Rubén
title Desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo Whisper y técnicas de mejora de datos
title_short Desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo Whisper y técnicas de mejora de datos
title_full Desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo Whisper y técnicas de mejora de datos
title_fullStr Desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo Whisper y técnicas de mejora de datos
title_full_unstemmed Desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo Whisper y técnicas de mejora de datos
title_sort desarrollo de un sistema de reconocimiento del habla en guaraní: evaluación de variantes del modelo whisper y técnicas de mejora de datos
publishDate 2024
url http://sedici.unlp.edu.ar/handle/10915/177187
work_keys_str_mv AT acevedozarzasantiagoruben desarrollodeunsistemadereconocimientodelhablaenguaranievaluaciondevariantesdelmodelowhisperytecnicasdemejoradedatos
AT fidabelgillmateoandres desarrollodeunsistemadereconocimientodelhablaenguaranievaluaciondevariantesdelmodelowhisperytecnicasdemejoradedatos
AT vonluckenmartinezchristiandaniel desarrollodeunsistemadereconocimientodelhablaenguaranievaluaciondevariantesdelmodelowhisperytecnicasdemejoradedatos
AT pintoroadiegopedro desarrollodeunsistemadereconocimientodelhablaenguaranievaluaciondevariantesdelmodelowhisperytecnicasdemejoradedatos
_version_ 1847925350816808960