Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios

Presentamos trabajo en progreso acerca de la normalización de palabras para contenidos generados por usuarios. El enfoque es simple y ayuda a reducir el volumen de anotaciones manuales características de enfoques más clásicos. Primero, agrupamos las variantes ortográficas de una palabra, mayormente...

Descripción completa

Detalles Bibliográficos
Autor principal: Alonso Alemany, Laura
Formato: Artículo
Lenguaje:Español
Publicado: Universidad de Ciencias Empresariales y Sociales (UCES) 2011
Materias:
Acceso en línea:http://dspace.uces.edu.ar:8180/xmlui/handle/123456789/966
Aporte de:
id I30-R136123456789-966
record_format dspace
institution Universidad de Ciencias Empresariales y Sociales (UCES)
institution_str I-30
repository_str R-136
collection Repositorio Institucional (UCES)
language Español
topic Psicología
Subjetividad
Normalización
Palabra
Ortografía
Usuario
spellingShingle Psicología
Subjetividad
Normalización
Palabra
Ortografía
Usuario
Alonso Alemany, Laura
Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios
topic_facet Psicología
Subjetividad
Normalización
Palabra
Ortografía
Usuario
description Presentamos trabajo en progreso acerca de la normalización de palabras para contenidos generados por usuarios. El enfoque es simple y ayuda a reducir el volumen de anotaciones manuales características de enfoques más clásicos. Primero, agrupamos las variantes ortográficas de una palabra, mayormente las abreviaturas. De estos ejemplos agrupados manualmente aprendemos un clasificador automático que, dada una palabra no vista anteriormente, determina si es una variación ortográfica de una palabra conocida o si es una palabra totalmente nueva. Para lograr eso, calculamos la similitud entre la palabra no vista y todas las palabras conocidas, y clasificamos la nueva palabra como una variante ortográfica de su palabra más similar. El clasificador aplica una medida de similitud de secuencia de caracteres basada en la distancia de edición Levenshtein. Para mejorar la exactitud de esta medida, le asignamos a las operaciones de edición un costo basado en el error. Este esquema de asignación de costos apunta a maximizar la distancia entre secuencias similares que son variantes de diferentes palabras. Esta medida establecida de similitud alcanza una exactitud de .68, una importante mejoría si la comparamos con el .54 obtenido por la distancia Levenshtein.
format Article
author Alonso Alemany, Laura
author_facet Alonso Alemany, Laura
author_sort Alonso Alemany, Laura
title Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios
title_short Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios
title_full Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios
title_fullStr Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios
title_full_unstemmed Insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios
title_sort insights lingüísticos relativos a la normalización léxica de contenidos generados por usuarios
publisher Universidad de Ciencias Empresariales y Sociales (UCES)
publishDate 2011
url http://dspace.uces.edu.ar:8180/xmlui/handle/123456789/966
work_keys_str_mv AT alonsoalemanylaura insightslinguisticosrelativosalanormalizacionlexicadecontenidosgeneradosporusuarios
AT alonsoalemanylaura linguisticinsightsonthelexicalnormalizationofusergeneratedcontent
bdutipo_str Repositorios
_version_ 1764820523497291777