Identificación de Industrias mediante Modelado de Tópicos y Gradient Boosting

"En procesos de fusiones y adquisiciones (M&A), la identificación de oportunidades requiere analizar grandes volúmenes de información no estructurada, como descripciones comerciales, lo que implica altos costos y tiempos prolongados. Las clasificaciones industriales tradicionales resultan i...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Rojas Lobo, Sanie Soledad
Formato: Tesis de maestría
Lenguaje:Español
Publicado: Instituto Tecnológico de Buenos Aires (ITBA) 2026
Materias:
Acceso en línea:https://hdl.handle.net/20.500.14769/5224
Aporte de:
id I32-R138-20.500.14769-5224
record_format dspace
spelling I32-R138-20.500.14769-52242026-01-07T14:20:43Z Identificación de Industrias mediante Modelado de Tópicos y Gradient Boosting Rojas Lobo, Sanie Soledad ASIGNACIÓN LATENTE DE DIRICHLET (LDA), PROCESO DIRICHET JERÁRQUICO (HPD), MODELADO DE TÓPICOS, CLASIFICACIÓN POR INDUSTRIA, FUSIONES Y ADQUISICIONES (M&A) "En procesos de fusiones y adquisiciones (M&A), la identificación de oportunidades requiere analizar grandes volúmenes de información no estructurada, como descripciones comerciales, lo que implica altos costos y tiempos prolongados. Las clasificaciones industriales tradicionales resultan insuficientes ante mercados dinámicos y empresas que no encajan en categorías predefinidas. Este trabajo aborda esta problemática mediante un sistema automatizado que propone aplicar técnicas de Procesamiento de Lenguaje Natural y Aprendizaje Automático para clasificar empresas por sector a partir de sus descripciones textuales. El objetivo es agilizar el deal sourcing y mejorar la toma de decisiones estratégicas, reduciendo el esfuerzo manual y aumentando la eficiencia en la detección de oportunidades. La metodología se enfoca en la experimentación y comparación de modelos no supervisados de modelado de tópicos para la identificación de industrias asociadas a empresas cotizadas en la Bolsa de Nueva York, utilizando textos obtenidos de Wikipedia a los cuales se han aplicado previamente técnicas de procesamiento de lenguaje natural. Para ello, se comparó el modelo de Asignación Latente de Dirichlet (LDA) con el modelo de Proceso de Dirichlet Jerárquico (HDP) para generar tópicos, que luego informan un modelo de clasificación supervisado Gradient Boosting Machines (GBM), el cual permite separar las empresas en diferentes tópicos industriales, evaluando la exactitud de los resultados, así como la coherencia y la perplejidad de los modelos de Dirichlet". 2026-01-06T13:25:05Z 2026-01-06T13:25:05Z 2025-12-19 Tesis de maestría https://hdl.handle.net/20.500.14769/5224 es application/pdf Instituto Tecnológico de Buenos Aires (ITBA)
institution Instituto Tecnológico de Buenos Aires (ITBA)
institution_str I-32
repository_str R-138
collection Repositorio Institucional Instituto Tecnológico de Buenos Aires (ITBA)
language Español
topic ASIGNACIÓN LATENTE DE DIRICHLET (LDA), PROCESO DIRICHET JERÁRQUICO (HPD), MODELADO DE TÓPICOS, CLASIFICACIÓN POR INDUSTRIA, FUSIONES Y ADQUISICIONES (M&A)
spellingShingle ASIGNACIÓN LATENTE DE DIRICHLET (LDA), PROCESO DIRICHET JERÁRQUICO (HPD), MODELADO DE TÓPICOS, CLASIFICACIÓN POR INDUSTRIA, FUSIONES Y ADQUISICIONES (M&A)
Rojas Lobo, Sanie Soledad
Identificación de Industrias mediante Modelado de Tópicos y Gradient Boosting
topic_facet ASIGNACIÓN LATENTE DE DIRICHLET (LDA), PROCESO DIRICHET JERÁRQUICO (HPD), MODELADO DE TÓPICOS, CLASIFICACIÓN POR INDUSTRIA, FUSIONES Y ADQUISICIONES (M&A)
description "En procesos de fusiones y adquisiciones (M&A), la identificación de oportunidades requiere analizar grandes volúmenes de información no estructurada, como descripciones comerciales, lo que implica altos costos y tiempos prolongados. Las clasificaciones industriales tradicionales resultan insuficientes ante mercados dinámicos y empresas que no encajan en categorías predefinidas. Este trabajo aborda esta problemática mediante un sistema automatizado que propone aplicar técnicas de Procesamiento de Lenguaje Natural y Aprendizaje Automático para clasificar empresas por sector a partir de sus descripciones textuales. El objetivo es agilizar el deal sourcing y mejorar la toma de decisiones estratégicas, reduciendo el esfuerzo manual y aumentando la eficiencia en la detección de oportunidades. La metodología se enfoca en la experimentación y comparación de modelos no supervisados de modelado de tópicos para la identificación de industrias asociadas a empresas cotizadas en la Bolsa de Nueva York, utilizando textos obtenidos de Wikipedia a los cuales se han aplicado previamente técnicas de procesamiento de lenguaje natural. Para ello, se comparó el modelo de Asignación Latente de Dirichlet (LDA) con el modelo de Proceso de Dirichlet Jerárquico (HDP) para generar tópicos, que luego informan un modelo de clasificación supervisado Gradient Boosting Machines (GBM), el cual permite separar las empresas en diferentes tópicos industriales, evaluando la exactitud de los resultados, así como la coherencia y la perplejidad de los modelos de Dirichlet".
format Tesis de maestría
author Rojas Lobo, Sanie Soledad
author_facet Rojas Lobo, Sanie Soledad
author_sort Rojas Lobo, Sanie Soledad
title Identificación de Industrias mediante Modelado de Tópicos y Gradient Boosting
title_short Identificación de Industrias mediante Modelado de Tópicos y Gradient Boosting
title_full Identificación de Industrias mediante Modelado de Tópicos y Gradient Boosting
title_fullStr Identificación de Industrias mediante Modelado de Tópicos y Gradient Boosting
title_full_unstemmed Identificación de Industrias mediante Modelado de Tópicos y Gradient Boosting
title_sort identificación de industrias mediante modelado de tópicos y gradient boosting
publisher Instituto Tecnológico de Buenos Aires (ITBA)
publishDate 2026
url https://hdl.handle.net/20.500.14769/5224
work_keys_str_mv AT rojaslobosaniesoledad identificaciondeindustriasmediantemodeladodetopicosygradientboosting
_version_ 1854267352931106816