Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO

Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.

Guardado en:
Detalles Bibliográficos
Autor principal: Garagiola, Nazareno
Otros Autores: Cardellino, Cristian Adrián
Formato: bachelorThesis
Lenguaje:Español
Publicado: 2022
Materias:
PLN
NER
Acceso en línea:http://hdl.handle.net/11086/28964
Aporte de:
id I10-R141-11086-28964
record_format dspace
spelling I10-R141-11086-289642023-08-31T13:19:13Z Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO Garagiola, Nazareno Cardellino, Cristian Adrián Entidades nombradas Procesamiento lenguaje natural PLN Extracción de información Metodologías informáticas Inteligencia artificial BETO NER Computing methodologies Artificial intelligence Natural language processing Information extraction Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022. Fil: Garagiola, Nazareno. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina. En este trabajo se realizarán tareas de especialización sobre BETO, que es un modelo de lenguaje no supervisado, equivalente al modelo del lenguaje BERT, pero entrenado sobre un corpus de gran volumen del español. Intentaremos mejorar los resultados de la tarea de reconocimiento de entidades nombradas en español. El trabajo contará de varias etapas, en la primera etapa se buscará reproducir los resultados de BETO para tener un resultado sobre el cuál desarrollar. En una siguiente etapa se buscará mejorar el desempeño de BETO utilizando grandes corpus anotados del español, que requerirán un pre-proceso para alinearlo a las entidades presentes en el corpus de evaluación. Finalmente, se pasará a un esquema semi-supervisado, donde se utilizarán los mejores modelos encontrados para anotar un conjunto de datos no etiquetado, que se utilizará para afinar BETO en un esquema de bootstrapping. In this work, specialization tasks will be carried out on BETO, which is an unsupervised language model, equivalent to the BERT language model, but trained on a large volume corpus of Spanish. We will try to improve the results of the Recognition of Named Entities in Spanish task. The work will have several stages, in the first stage it will seek to reproduce the results of BETO to have a result on which to develop. In a next stage, the performance of BETO will be improved using large annotated corpus of Spanish, which will require a pre-process to align it with the entities present in the evaluation corpus. Finally, we will move to a semi-supervised scheme, where the best models found will be used to annotate an unlabeled data set, which will be used to tune BETO in a bootstrapping scheme. Fil: Garagiola, Nazareno. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina. 2022-10-17T15:19:14Z 2022-10-17T15:19:14Z 2022 bachelorThesis http://hdl.handle.net/11086/28964 spa Atribución-NoComercial 4.0 Internacional http://creativecommons.org/licenses/by-nc/4.0/
institution Universidad Nacional de Córdoba
institution_str I-10
repository_str R-141
collection Repositorio Digital Universitario (UNC)
language Español
topic Entidades nombradas
Procesamiento lenguaje natural
PLN
Extracción de información
Metodologías informáticas
Inteligencia artificial
BETO
NER
Computing methodologies
Artificial intelligence
Natural language processing
Information extraction
spellingShingle Entidades nombradas
Procesamiento lenguaje natural
PLN
Extracción de información
Metodologías informáticas
Inteligencia artificial
BETO
NER
Computing methodologies
Artificial intelligence
Natural language processing
Information extraction
Garagiola, Nazareno
Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
topic_facet Entidades nombradas
Procesamiento lenguaje natural
PLN
Extracción de información
Metodologías informáticas
Inteligencia artificial
BETO
NER
Computing methodologies
Artificial intelligence
Natural language processing
Information extraction
description Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.
author2 Cardellino, Cristian Adrián
author_facet Cardellino, Cristian Adrián
Garagiola, Nazareno
format bachelorThesis
author Garagiola, Nazareno
author_sort Garagiola, Nazareno
title Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_short Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_full Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_fullStr Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_full_unstemmed Mejorando reconocimiento de entidades nombradas del español mediante la especialización BETO
title_sort mejorando reconocimiento de entidades nombradas del español mediante la especialización beto
publishDate 2022
url http://hdl.handle.net/11086/28964
work_keys_str_mv AT garagiolanazareno mejorandoreconocimientodeentidadesnombradasdelespanolmediantelaespecializacionbeto
_version_ 1782014445831061504