Modelado e implementación de algoritmos inteligentes de análisis de opinión

A la par de la amplia adopción que han tenido las redes sociales, ha crecido también la generación contenidos en ellas, en particular en forma de texto. La proliferación de este tipo de contenido ha creado la materia prima necesaria para aplicar técnicas de minería de textos a esos datos con el obje...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Tessore, Juan Pablo
Otros Autores: Baldassarri, Sandra
Formato: Tesis doctoral publishedVersion
Lenguaje:Español
Publicado: Universidad Nacional de La Plata 2024
Materias:
Acceso en línea:http://repositorio.unnoba.edu.ar/xmlui/handle/23601/872
Aporte de:
id I103-R405-23601-872
record_format dspace
institution Universidad Nacional del Noroeste de la Provincia de Buenos Aires
institution_str I-103
repository_str R-405
collection Re DI Repositorio Digital UNNOBA
language Español
topic Análisis de sentimientos
Procesamiento del Lenguaje Natural
Supervisión Distante
Aprendizaje Automático
Información Contextual
spellingShingle Análisis de sentimientos
Procesamiento del Lenguaje Natural
Supervisión Distante
Aprendizaje Automático
Información Contextual
Tessore, Juan Pablo
Modelado e implementación de algoritmos inteligentes de análisis de opinión
topic_facet Análisis de sentimientos
Procesamiento del Lenguaje Natural
Supervisión Distante
Aprendizaje Automático
Información Contextual
description A la par de la amplia adopción que han tenido las redes sociales, ha crecido también la generación contenidos en ellas, en particular en forma de texto. La proliferación de este tipo de contenido ha creado la materia prima necesaria para aplicar técnicas de minería de textos a esos datos con el objetivo de extraer información valiosa. Numerosos trabajos que intentan categorizar, mediante clasificadores basados en aprendizaje automático, textos provenientes de redes sociales, dependen del etiquetado manual del contenido o de la utilización de datasets públicos previamente etiquetados. Dichos abordajes presentan sus inconvenientes, uno de ellos es el tiempo que demanda la clasificación manual de los datos de entrenamiento. Otro problema es que los clasificadores suelen construirse utilizando datos de distinto origen a los que finalmente analizan, esto plantea un desafío debido a que, si el clasificador no fue expuesto, durante la etapa de entrenamiento, a datos similares a los que finalmente debe categorizar, difícilmente pueda hacerlo de manera adecuada. Por otro lado, la cantidad de recursos disponibles (tales como datasets etiquetados corpus o diccionarios afectivos) no es abundante para idiomas distintos del inglés, limitando las posibilidades de construcción de los mencionados clasificadores de texto para otros idiomas, entre ellos el español. La tarea de recopilación y validación de recursos en el idioma a utilizar se vuelve, en consecuencia, una necesidad para construir clasificadores de texto, basados en aprendizaje automático supervisado. Sin embargo, dichas tareas son extremadamente demandantes en tiempo y recursos humanos. Esta problemática se agrava para los casos en los que el criterio de clasificación no es objetivo, como por ejemplo para la clasificación de emociones en texto. En estas situaciones, se requiere que varios jueces clasifiquen el mismo contenido, de manera de poder validar la veracidad de la etiqueta asignada al mismo. Con el objetivo de agilizar el desarrollo de clasificadores de emociones en texto para el idioma español basados en aprendizaje automático supervisado, resulta necesario reducir o eliminar la necesidad del etiquetado manual de los datasets utilizados para entrenamiento. En esta tesis, a diferencia de otros estudios, las etiquetas que denotan la emoción de cada comentario se obtienen automáticamente de los mismos usuarios que escriben el contenido, en lugar de clasificarlos de manera manual. Posteriormente, se define un procedimiento para realizar la validación de las etiquetas recopiladas, el cual requiere del etiquetado y validación manual de sólo una pequeña muestra de las mismas y posterior cálculo de métricas para establecer el nivel de consenso. A su vez, durante el proceso de captura de los documentos, se obtiene también información contextual relacionada con los mismos, con el objetivo de utilizarla para medir los cambios, ya sean mejoras o no, en el desempeño de distintos clasificadores basados en aprendizaje automático. El proceso que se presenta en esta tesis, permite agilizar la construcción de clasificadores de emociones en texto basados en aprendizaje automático y a su vez mejorar su desempeño mediante el uso de información contextual. Estos clasificadores pueden ser utilizados para ofrecer una amplia variedad de propósitos potenciales, como detectar la emoción que surge de la opinión de grandes grupos de personas sobre ciertos productos, servicios o incluso políticas públicas. También podrían utilizarse para identificar demandas o quejas no satisfechas de ciudadanos; o, en seguridad, para la detección automática de factores de riesgo en redes sociales, como amenazas, hostigamiento o acoso. Los clasificadores construidos a partir del proceso mencionado, alcanzan un desempeño similar al de otros entrenados con datasets etiquetados manualmente. Debe resaltarse que, en el trabajo presentado, la necesidad de etiquetado manual en el proceso de recolección y clasificación se reduce significativamente. El conjunto de datos creado puede ser utilizado en diversas investigaciones que realicen Análisis de Sentimientos en español. Además, el proceso de recopilación y validación presentado en esta tesis puede adaptarse fácilmente para generar nuevos datasets en temas o idiomas específicos.
author2 Baldassarri, Sandra
author_facet Baldassarri, Sandra
Tessore, Juan Pablo
format Tesis doctoral
Tesis doctoral
publishedVersion
Tesis doctoral
Tesis doctoral
publishedVersion
Tesis doctoral
Tesis doctoral
publishedVersion
author Tessore, Juan Pablo
author_sort Tessore, Juan Pablo
title Modelado e implementación de algoritmos inteligentes de análisis de opinión
title_short Modelado e implementación de algoritmos inteligentes de análisis de opinión
title_full Modelado e implementación de algoritmos inteligentes de análisis de opinión
title_fullStr Modelado e implementación de algoritmos inteligentes de análisis de opinión
title_full_unstemmed Modelado e implementación de algoritmos inteligentes de análisis de opinión
title_sort modelado e implementación de algoritmos inteligentes de análisis de opinión
publisher Universidad Nacional de La Plata
publishDate 2024
url http://repositorio.unnoba.edu.ar/xmlui/handle/23601/872
work_keys_str_mv AT tessorejuanpablo modeladoeimplementaciondealgoritmosinteligentesdeanalisisdeopinion
_version_ 1850060710228262912
spelling I103-R405-23601-8722024-10-14T18:00:41Z Modelado e implementación de algoritmos inteligentes de análisis de opinión Tessore, Juan Pablo Baldassarri, Sandra Análisis de sentimientos Procesamiento del Lenguaje Natural Supervisión Distante Aprendizaje Automático Información Contextual A la par de la amplia adopción que han tenido las redes sociales, ha crecido también la generación contenidos en ellas, en particular en forma de texto. La proliferación de este tipo de contenido ha creado la materia prima necesaria para aplicar técnicas de minería de textos a esos datos con el objetivo de extraer información valiosa. Numerosos trabajos que intentan categorizar, mediante clasificadores basados en aprendizaje automático, textos provenientes de redes sociales, dependen del etiquetado manual del contenido o de la utilización de datasets públicos previamente etiquetados. Dichos abordajes presentan sus inconvenientes, uno de ellos es el tiempo que demanda la clasificación manual de los datos de entrenamiento. Otro problema es que los clasificadores suelen construirse utilizando datos de distinto origen a los que finalmente analizan, esto plantea un desafío debido a que, si el clasificador no fue expuesto, durante la etapa de entrenamiento, a datos similares a los que finalmente debe categorizar, difícilmente pueda hacerlo de manera adecuada. Por otro lado, la cantidad de recursos disponibles (tales como datasets etiquetados corpus o diccionarios afectivos) no es abundante para idiomas distintos del inglés, limitando las posibilidades de construcción de los mencionados clasificadores de texto para otros idiomas, entre ellos el español. La tarea de recopilación y validación de recursos en el idioma a utilizar se vuelve, en consecuencia, una necesidad para construir clasificadores de texto, basados en aprendizaje automático supervisado. Sin embargo, dichas tareas son extremadamente demandantes en tiempo y recursos humanos. Esta problemática se agrava para los casos en los que el criterio de clasificación no es objetivo, como por ejemplo para la clasificación de emociones en texto. En estas situaciones, se requiere que varios jueces clasifiquen el mismo contenido, de manera de poder validar la veracidad de la etiqueta asignada al mismo. Con el objetivo de agilizar el desarrollo de clasificadores de emociones en texto para el idioma español basados en aprendizaje automático supervisado, resulta necesario reducir o eliminar la necesidad del etiquetado manual de los datasets utilizados para entrenamiento. En esta tesis, a diferencia de otros estudios, las etiquetas que denotan la emoción de cada comentario se obtienen automáticamente de los mismos usuarios que escriben el contenido, en lugar de clasificarlos de manera manual. Posteriormente, se define un procedimiento para realizar la validación de las etiquetas recopiladas, el cual requiere del etiquetado y validación manual de sólo una pequeña muestra de las mismas y posterior cálculo de métricas para establecer el nivel de consenso. A su vez, durante el proceso de captura de los documentos, se obtiene también información contextual relacionada con los mismos, con el objetivo de utilizarla para medir los cambios, ya sean mejoras o no, en el desempeño de distintos clasificadores basados en aprendizaje automático. El proceso que se presenta en esta tesis, permite agilizar la construcción de clasificadores de emociones en texto basados en aprendizaje automático y a su vez mejorar su desempeño mediante el uso de información contextual. Estos clasificadores pueden ser utilizados para ofrecer una amplia variedad de propósitos potenciales, como detectar la emoción que surge de la opinión de grandes grupos de personas sobre ciertos productos, servicios o incluso políticas públicas. También podrían utilizarse para identificar demandas o quejas no satisfechas de ciudadanos; o, en seguridad, para la detección automática de factores de riesgo en redes sociales, como amenazas, hostigamiento o acoso. Los clasificadores construidos a partir del proceso mencionado, alcanzan un desempeño similar al de otros entrenados con datasets etiquetados manualmente. Debe resaltarse que, en el trabajo presentado, la necesidad de etiquetado manual en el proceso de recolección y clasificación se reduce significativamente. El conjunto de datos creado puede ser utilizado en diversas investigaciones que realicen Análisis de Sentimientos en español. Además, el proceso de recopilación y validación presentado en esta tesis puede adaptarse fácilmente para generar nuevos datasets en temas o idiomas específicos. Fil: Tessore, Juan Pablo. Universidad Nacional del Noroeste de la provincia de Buenos Aires. Instituto de Investigación, Transferencia y Tecnología; Argentina. Ingeniería en Informática 2024-10-14T17:54:58Z 2024-10-14T17:54:58Z 2023-09-27 info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion Tessore, J. P. (2023). Modelado e implementación de algoritmos inteligentes de análisis de opinión. [Tesis Doctoral, Universidad Nacional de La Plata] http://repositorio.unnoba.edu.ar/xmlui/handle/23601/872 spa info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-nd/2.5/ar/ application/pdf 178 p. application/pdf Universidad Nacional de La Plata