Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos

La existencia de relaciones o dependencias estadísticas en los datos (correlaciones) se puede estudiar mediante herramientas estadísticas que se han desarrollado en los últimos dos siglos. Sin embargo, una pregunta tan simple de formular como: “¿Existe un vínculo causal entre estas dos variables co...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Maisonnave, Mariano
Otros Autores: Maguitman, Ana Gabriela
Formato: tesis doctoral
Lenguaje:Español
Publicado: 2021
Materias:
Acceso en línea:https://repositoriodigital.uns.edu.ar/xmlui/handle/123456789/5827
Aporte de:
id I20-R126123456789-5827
record_format dspace
institution Universidad Nacional del Sur
institution_str I-20
repository_str R-126
collection Repositorio Institucional Universidad Nacional del Sur (UNS)
language Español
orig_language_str_mv spa
topic Causalidad
spellingShingle Causalidad
Maisonnave, Mariano
Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos
topic_facet Causalidad
author2 Maguitman, Ana Gabriela
author_facet Maguitman, Ana Gabriela
Maisonnave, Mariano
format tesis doctoral
author Maisonnave, Mariano
author_sort Maisonnave, Mariano
title Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos
title_short Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos
title_full Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos
title_fullStr Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos
title_full_unstemmed Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos
title_sort selección de variables y descubrimiento causal a partir de textos de artículos periodísticos
publishDate 2021
url https://repositoriodigital.uns.edu.ar/xmlui/handle/123456789/5827
work_keys_str_mv AT maisonnavemariano selecciondevariablesydescubrimientocausalapartirdetextosdearticulosperiodisticos
bdutipo_str Repositorios
_version_ 1764820505850806272
description La existencia de relaciones o dependencias estadísticas en los datos (correlaciones) se puede estudiar mediante herramientas estadísticas que se han desarrollado en los últimos dos siglos. Sin embargo, una pregunta tan simple de formular como: “¿Existe un vínculo causal entre estas dos variables correlacionadas?'' presenta un desafío diferente que escapa a las respuestas que pueden brindar herramientas estadísticas clásicas, ya que, como se suele enseñar en todos los cursos de estadística: “correlación no es causalidad''. La necesidad por parte de la comunidad científica de responder preguntas causales (¿El fumar causa cáncer? ¿Este medicamento es efectivo para tratar esta enfermedad?, etc.) generó un esfuerzo para la creación de herramientas formales que permitan descubrir y cuantificar efectos causales. Algunos ejemplos son la técnica basada en la Causalidad de Granger (GC por sus siglas en inglés) y la técnica de descubrimiento de estructuras causales PC (que recibe el nombre por las iniciales de sus autores). Por otro lado, existe un gran interés por parte de la comunidad de procesamiento de lenguaje natural (NLP por sus siglas en inglés) en el descubrimiento de relaciones causales a partir de textos. Sin embargo, la mayoría de los esfuerzos están enfocados en recuperar información causal ya explícita en el texto. Por ejemplo, en la siguiente frase sobre la crisis argentina del 2001: “Sucedió en el marco de una crisis mayor que se extendió entre 1998 y 2002, causada por una larga recesión que disparó una crisis humanitaria'' se tendría por objetivo extraer los dos vínculos causales que relacionan los tres eventos descritos (la recesión, una crisis económica y otra humanitaria). Estos trabajos, si bien tienen por objetivo el descubrimiento causal, utilizan herramientas más cercanas al área de NLP que a las herramientas usuales en la literatura sobre descubrimiento causal (tales como GC o PC). Esta tesis propone un marco de trabajo (framework) en el que, a través de la utilización de herramientas como GC o PC, se plantea como objetivo el descubrimiento causal entre variables extraídas de textos de artículos periodísticos cuya relación causal no necesariamente está explícita en el texto. De este modo se obtiene una red causal, donde cada nodo es una variable relevante y cada arco un vínculo causal. Para alcanzar este objetivo primero se proponen soluciones al desafío de extraer y filtrar variables relevantes a partir de textos. Este problema se resuelve mediante el uso de dos enfoques tomados de NLP: (1) una técnica de pesaje de términos y (2) un modelo de detección de menciones de eventos en curso a partir de textos de artículos periodísticos. Se crea un conjunto de datos utilizando las variables extraídas usando estas herramientas de NLP ((1) y (2)). Este conjunto de datos es usado en el paso posterior de extracción de relaciones causales. Se estudian nueve técnicas de descubrimiento causal, y se lleva a cabo un estudio comparativo de la aplicación de las técnicas en más de sesenta conjuntos de datos sintéticos y en un conjunto de datos real de demanda de energía eléctrica. Finalmente, un caso de uso es presentado donde se aplican las mejores técnicas de descubrimiento causal sobre los conjuntos de datos de variables extraídas de los textos de artículos periodísticos, dando lugar así a una demostración completa de la funcionalidad del framework (extracción de variables de textos y descubrimiento causal a partir de las mismas). Los resultados obtenidos muestran la gran flexibilidad del framework, permitiendo la combinación de variables de diferentes tipos, con diferentes procesos de construcción, posibilitando la extracción causal posterior. Más aún, dando evidencia que información no textual podría ser incorporada al framework (por ejemplo, precios de materias primas, precios de acciones de la bolsa, indicadores socioeconómicos, entre otros). Este framework permitiría a un experto partir de un dominio, que puede ser un conjunto de textos periodísticos sobre algún episodio del mundo real, y obtener de manera automática un conjunto de variables relevantes a ese dominio (de las cuales puede elegir visualizar solo algunas, o todas). Posteriormente, se le mostraría al experto un conjunto de vínculos causales extraídos de manera automática, que vincularía a las diferentes variables relevantes al dominio. El grafo causal resultante (variables y vínculos relevantes a un dominio) puede representar una herramienta de gran interés para permitir a un experto tener una visión procesada y resumida de las interdependencias, permitiéndole un mejor entendimiento del dominio o posibilitando sacar conclusiones o explicaciones sobre eventos que se sucedieron o están sucediendo. Las primeras dos contribuciones de esta tesis están enfocadas en la propuesta de técnicas novedosas de NLP para la etapa de extracción de variables. En esta etapa se propone, primero, una herramienta nueva para pesaje de términos y estimación de puntajes de relevancia de términos asignados por usuarios. Segundo, se propone una tarea de NLP, de detección de eventos en curso (OED por sus siglas en inglés) para ser usados como variables en el framework. Se muestran los resultados de diferentes modelos para la tarea de OED, alcanzando un modelo superador con respecto a modelos existentes para tareas similares. Estas dos contribuciones permitieron la extracción de variables relevantes para ser usadas como nodos del grafo. Finalmente, la tercera contribución principal es la presentación de un análisis comparativo de nueve técnicas de extracción de causalidad y la posterior aplicación de las mejores para un ejemplo de un caso de uso del framework completo.