Generación de resúmenes de texto en español

En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es u...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Córdoba, Leonardo Ignacio
Otros Autores: Lombardi, Leandro Ezequiel
Formato: Tesis de maestría publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2022
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba
http://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7357_Cordoba_oai
Aporte de:
id I28-R145-tesis_n7357_Cordoba_oai
record_format dspace
spelling I28-R145-tesis_n7357_Cordoba_oai2023-08-29 Lombardi, Leandro Ezequiel Córdoba, Leonardo Ignacio 2022-08-17 En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual. In the last few years there has been several advances in text generation tasks. Especially, the development and generalization of pretrained models allows the training of models for specialized tasks -a.k.a. downstream tasks- at low computational cost. On the other hand, abstract text summarization is a task for which relatively few data sets are available in Spanish. For this reason, this work focuses on the training of machine learning models for summarization in Spanish and the construction of appropriate datasets for this task. As part of it, 5 models trained from architectures based on Transformers and 2 data sets obtained from Common Crawl are available. Additionally, automatically calculated metrics are compared to scores obtained through manual tagging. Fil: Córdoba, Leonardo Ignacio. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. application/pdf https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba spa Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar RESUMEN ABSTRACTO PROCESAMIENTO DEL LENGUAJE NATURAL GENERACION DE TEXTO ABSTRACT SUMMARY TEXT GENERATION TRANSFORMERS COMMON CRAWL Generación de resúmenes de texto en español Generation of text summaries in spanish info:eu-repo/semantics/masterThesis info:ar-repo/semantics/tesis de maestría info:eu-repo/semantics/publishedVersion http://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7357_Cordoba_oai
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-145
collection Repositorio Digital de la Universidad de Buenos Aires (UBA)
language Español
orig_language_str_mv spa
topic RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL
spellingShingle RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL
Córdoba, Leonardo Ignacio
Generación de resúmenes de texto en español
topic_facet RESUMEN ABSTRACTO
PROCESAMIENTO DEL LENGUAJE NATURAL
GENERACION DE TEXTO
ABSTRACT SUMMARY
TEXT GENERATION
TRANSFORMERS
COMMON CRAWL
description En los últimos años han habido grandes avances en las tareas de generación de texto. Especialmente, el desarrollo y generalización de los modelos preentrenados permite el entrenamiento de modelos para tareas especializadas a bajo costo computacional. Por otro lado, el resumen abstracto de texto es una tarea para la cual son relativamente pocos los conjuntos de datos disponibles en español. Por este motivo, este trabajo se enfoca en el entrenamiento de modelos de aprendizaje automático para resumen en español y la construcción de conjuntos de datos apropiados para esta tarea. Como parte del mismo se disponibilizan 5 modelos entrenados a partir de arquitecturas basadas en Transformers y 2 conjuntos de datos obtenidos de Common Crawl. Además, se comparan métricas calculadas automáticamente con puntajes obtenidos mediante etiquetado manual.
author2 Lombardi, Leandro Ezequiel
author_facet Lombardi, Leandro Ezequiel
Córdoba, Leonardo Ignacio
format Tesis de maestría
Tesis de maestría
publishedVersion
author Córdoba, Leonardo Ignacio
author_sort Córdoba, Leonardo Ignacio
title Generación de resúmenes de texto en español
title_short Generación de resúmenes de texto en español
title_full Generación de resúmenes de texto en español
title_fullStr Generación de resúmenes de texto en español
title_full_unstemmed Generación de resúmenes de texto en español
title_sort generación de resúmenes de texto en español
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2022
url https://hdl.handle.net/20.500.12110/tesis_n7357_Cordoba
http://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7357_Cordoba_oai
work_keys_str_mv AT cordobaleonardoignacio generacionderesumenesdetextoenespanol
AT cordobaleonardoignacio generationoftextsummariesinspanish
_version_ 1782032440708038656