Integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas

Los métodos existentes de extracción de conocimiento para la Web (Open Information Extraction) tienen una precisión y una exhaustividad considerablemente baja, de alrededor del 60% y si bien tienen un gran potencial en cuanto a su aplicabilidad, es necesario mejorar su desempeño. Existen además otro...

Descripción completa

Detalles Bibliográficos
Autor principal: Rodríguez, Juan Manuel
Otros Autores: Bertone, Rodolfo Alfredo
Formato: Tesis Tesis de doctorado
Lenguaje:Español
Publicado: 2023
Materias:
PLN
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/156636
https://doi.org/10.35537/10915/156636
Aporte de:
id I19-R120-10915-156636
record_format dspace
spelling I19-R120-10915-1566362023-08-23T04:07:21Z http://sedici.unlp.edu.ar/handle/10915/156636 https://doi.org/10.35537/10915/156636 Integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas Integration of embedded knowledge discovery methods in unstructured information sources Rodríguez, Juan Manuel 2023-06-26 2023 2023-08-22T13:01:50Z Bertone, Rodolfo Alfredo Pesado, Patricia Mabel es Ciencias Informáticas procesamiento de lenguaje natural PLN Open Information Extraction Open IE relaciones semánticas extracción de información Los métodos existentes de extracción de conocimiento para la Web (Open Information Extraction) tienen una precisión y una exhaustividad considerablemente baja, de alrededor del 60% y si bien tienen un gran potencial en cuanto a su aplicabilidad, es necesario mejorar su desempeño. Existen además otros problemas abiertos que están siendo abordados por varios autores como por ejemplo: la extracción de relaciones semánticas no informativas, la extracción de información subjetiva y el soporte para idiomas distintos del inglés. El principal aporte de esta tesis consiste en la publicación de 3 métodos novedosos de extracción de conocimiento para la Web, uno para idioma inglés: ATP-OIE y dos para idioma español: TP-OIE-ES y ECMes. Así mismo, se propone un marco de referencia único para la evaluación de los métodos, esto es la construcción de un conjunto de pruebas y una definición precisa de las métricas a utilizar y de cómo implementarlas. ATP-OIE es un algoritmo autónomo, capaz de aprender de ejemplos y capaz de aprender nuevos patrones de extracción mientras se está ejecutando de forma productiva. Por su parte, TP-OIE-ES replica el comportamiento de ATP-OIE para idioma español, con la salvedad de que no es capaz de aprender nuevos patrones mientras se ejecuta de forma productiva. Por último, ECMes es una versión reentrenada de TP-OIE-ES con otras mejoras adicionales. ECMes ha obtenido un mejor desempeño en idioma español, en los conjuntos evaluados, que otros métodos similares en el estado del arte. Existing Open Information Extraction methods have considerably low precision and recall, around 60%, and although they have great potential to be used in applications, their performance needs to be improved. There are also other open problems that are being addressed by different authors such as: the extraction of noninformative semantic relationships, the extraction of subjective information and the support for languages other than English. The main contribution of this thesis consists in the publication of 3 new methods of Open Information Extraction, one for the English language: ATP-OIE and two for the Spanish language: TP-OIE-ES and ECMes. Also a reference framework is proposed for the evaluation of the methods, that is, the construction of a test dataset and a precise definition of the metrics to be used and how to implement them. ATP-OIE is an autonomous algorithm, able to learn from examples and able to learn new extraction patterns while running productively. TP-OIE-ES replicates the behavior of ATP-OIE for the Spanish language, with the exception that it is not capable of learning new patterns while it runs productively. Finally ECMes is a retrained version of TP-OIE-ES with additional improvements. ECMes got a better performance in Spanish language, in the evaluated datasets, than other similar methods in the state of the art. Asesor: Hernán Merlino Doctor en Ciencias Informáticas Universidad Nacional de La Plata Facultad de Informática Tesis Tesis de doctorado http://creativecommons.org/licenses/by/4.0/ Creative Commons Attribution 4.0 International (CC BY 4.0) application/pdf
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
procesamiento de lenguaje natural
PLN
Open Information Extraction
Open IE
relaciones semánticas
extracción de información
spellingShingle Ciencias Informáticas
procesamiento de lenguaje natural
PLN
Open Information Extraction
Open IE
relaciones semánticas
extracción de información
Rodríguez, Juan Manuel
Integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas
topic_facet Ciencias Informáticas
procesamiento de lenguaje natural
PLN
Open Information Extraction
Open IE
relaciones semánticas
extracción de información
description Los métodos existentes de extracción de conocimiento para la Web (Open Information Extraction) tienen una precisión y una exhaustividad considerablemente baja, de alrededor del 60% y si bien tienen un gran potencial en cuanto a su aplicabilidad, es necesario mejorar su desempeño. Existen además otros problemas abiertos que están siendo abordados por varios autores como por ejemplo: la extracción de relaciones semánticas no informativas, la extracción de información subjetiva y el soporte para idiomas distintos del inglés. El principal aporte de esta tesis consiste en la publicación de 3 métodos novedosos de extracción de conocimiento para la Web, uno para idioma inglés: ATP-OIE y dos para idioma español: TP-OIE-ES y ECMes. Así mismo, se propone un marco de referencia único para la evaluación de los métodos, esto es la construcción de un conjunto de pruebas y una definición precisa de las métricas a utilizar y de cómo implementarlas. ATP-OIE es un algoritmo autónomo, capaz de aprender de ejemplos y capaz de aprender nuevos patrones de extracción mientras se está ejecutando de forma productiva. Por su parte, TP-OIE-ES replica el comportamiento de ATP-OIE para idioma español, con la salvedad de que no es capaz de aprender nuevos patrones mientras se ejecuta de forma productiva. Por último, ECMes es una versión reentrenada de TP-OIE-ES con otras mejoras adicionales. ECMes ha obtenido un mejor desempeño en idioma español, en los conjuntos evaluados, que otros métodos similares en el estado del arte.
author2 Bertone, Rodolfo Alfredo
author_facet Bertone, Rodolfo Alfredo
Rodríguez, Juan Manuel
format Tesis
Tesis de doctorado
author Rodríguez, Juan Manuel
author_sort Rodríguez, Juan Manuel
title Integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas
title_short Integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas
title_full Integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas
title_fullStr Integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas
title_full_unstemmed Integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas
title_sort integración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas
publishDate 2023
url http://sedici.unlp.edu.ar/handle/10915/156636
https://doi.org/10.35537/10915/156636
work_keys_str_mv AT rodriguezjuanmanuel integraciondemetodosdedescubrimientodeconocimientoembebidoenfuentesdeinformaciondesestructuradas
AT rodriguezjuanmanuel integrationofembeddedknowledgediscoverymethodsinunstructuredinformationsources
_version_ 1807221051565801472