Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina

El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Talamé, María Lorena, Monge, Agustina, Amor, Matias Nicolas Lisardo, Cardoso, Carolina A.
Formato: acceptedVersion Artículo
Lenguaje:Español
Publicado: Universidad Católica de Salta. Facultad de Ingeniería (Salta) 2021
Materias:
Acceso en línea:https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=71836
Aporte de:
id I49-R155-71836
record_format dspace
spelling I49-R155-718362025-02-21T12:52:21Z https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=71836 71836 20221017u u u0frey0103 ba spa Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina Universidad Católica de Salta. Facultad de Ingeniería (Salta) 2021-12-23 info:eu-repo/semantics/acceptedVersion info:eu-repo/semantics/article info:ar-repo/semantics/artículo application/pdf 1001514 Salta (province) El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space. Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. Fil: Amor, Matias Nicolas Lisardo. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. Fil: Monge, Agustina. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. Fil: Talamé, María Lorena. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. Talamé, María Lorena Monge, Agustina Amor, Matias Nicolas Lisardo Cardoso, Carolina A. Inteligencia artificial Análisis automático de textos Paratexto Redes sociales Cuadernos de Ingeniería Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) https://creativecommons.org/licenses/by-nc-sa/4.0/ info:eu-repo/semantics/openAccess Researchers Students
institution Universidad Católica de Salta
institution_str I-49
repository_str R-155
collection Repositorio Digital - Universidad Católica de Salta (UCASal)
language Español
orig_language_str_mv spa
topic Inteligencia artificial
Análisis automático de textos
Paratexto
Redes sociales
spellingShingle Inteligencia artificial
Análisis automático de textos
Paratexto
Redes sociales
Talamé, María Lorena
Monge, Agustina
Amor, Matias Nicolas Lisardo
Cardoso, Carolina A.
Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
topic_facet Inteligencia artificial
Análisis automático de textos
Paratexto
Redes sociales
description El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde las personas se expresan con frecuencia y libremente es Twitter y, por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial. Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people express themselves frequently and freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent texts in a suitable way so that they can afterwards be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter applying Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space.
format acceptedVersion
Artículo
Artículo
author Talamé, María Lorena
Monge, Agustina
Amor, Matias Nicolas Lisardo
Cardoso, Carolina A.
author_facet Talamé, María Lorena
Monge, Agustina
Amor, Matias Nicolas Lisardo
Cardoso, Carolina A.
author_sort Talamé, María Lorena
title Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_short Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_full Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_fullStr Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_full_unstemmed Creación de corpus de palabras embebidas de tweets generados en Argentina ; Creation of a corpus of embedded words from tweets generated in Argentina
title_sort creación de corpus de palabras embebidas de tweets generados en argentina ; creation of a corpus of embedded words from tweets generated in argentina
publisher Universidad Católica de Salta. Facultad de Ingeniería (Salta)
publishDate 2021
url https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=71836
work_keys_str_mv AT talamemarialorena creaciondecorpusdepalabrasembebidasdetweetsgeneradosenargentinacreationofacorpusofembeddedwordsfromtweetsgeneratedinargentina
AT mongeagustina creaciondecorpusdepalabrasembebidasdetweetsgeneradosenargentinacreationofacorpusofembeddedwordsfromtweetsgeneratedinargentina
AT amormatiasnicolaslisardo creaciondecorpusdepalabrasembebidasdetweetsgeneradosenargentinacreationofacorpusofembeddedwordsfromtweetsgeneratedinargentina
AT cardosocarolinaa creaciondecorpusdepalabrasembebidasdetweetsgeneradosenargentinacreationofacorpusofembeddedwordsfromtweetsgeneratedinargentina
_version_ 1826453831026737152