Breve Introducción a la Minería de Textos

El presente curso se enfoca en enseñar los fundamentos del procesamiento de lenguaje natural (PLN), minería y análisis automático de textos. A lo largo del curso, los estudiantes aprenderán técnicas básicas y se familiarizarán con herramientas de Python como NLTK y spaCy. Se ejecutan ejemplos prácti...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Nusch, Carlos Javier
Formato: Objeto de aprendizaje Clase
Lenguaje:Español
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/171646
Aporte de:
Descripción
Sumario:El presente curso se enfoca en enseñar los fundamentos del procesamiento de lenguaje natural (PLN), minería y análisis automático de textos. A lo largo del curso, los estudiantes aprenderán técnicas básicas y se familiarizarán con herramientas de Python como NLTK y spaCy. Se ejecutan ejemplos prácticos, nubes de palabras y modelado de tópicos. El curso cubre varios términos clave, incluyendo análisis automático de textos, minería de textos y lingüística de corpus, que estudia grandes colecciones de textos para identificar patrones en el uso del lenguaje. Además, se abordan conceptos relacionados como recuperación de la información, aprendizaje automático y profundo. El curso destaca las aplicaciones prácticas del PLN en la vida cotidiana, como los asistentes virtuales, la traducción automática, el análisis de sentimientos y los sistemas de recomendación, y se presenta una breve historia de los hitos del PLN, desde los primeros sistemas basados en reglas hasta los avances modernos con transformers como BERT y GPT. Los temas dados incluyen el preprocesamiento del texto (tokenización, eliminación de palabras vacías, lematización), técnicas de vectorización como Bag of Words y TF-IDF, y análisis más avanzados como etiquetado de partes del discurso y detección de entidades nombradas. En el módulo de minería de textos, se exploran etapas como el enriquecimiento (añadir metadatos), la extracción de características y la aplicación de modelos estadísticos o de aprendizaje automático. También se introduce el modelado de tópicos mediante Latent Dirichlet Allocation (LDA) y su utilidad para identificar temas ocultos en grandes corpus de documentos.