Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software
En esta comunicación presentaremos, dentro del proceso de construcción del Corpus de Español en el Discurso Académico de la Universidad Nacional de Cuyo (EspaDA-UNCuyo), el desarrollo de una metodología eficiente para la transcripción orientada a la implementación en sistemas digitales. También exhi...
Guardado en:
| Autores principales: | , |
|---|---|
| Otros Autores: | |
| Formato: | conferenceObject documento de conferencia acceptedVersion |
| Lenguaje: | Español |
| Publicado: |
Universidad Nacional de Rosario. Facultad de Humanidades y Artes
2018
|
| Materias: | |
| Acceso en línea: | http://hdl.handle.net/2133/13834 http://hdl.handle.net/2133/13834 |
| Aporte de: |
| id |
I15-R121-2133-13834 |
|---|---|
| record_format |
dspace |
| institution |
Universidad Nacional de Rosario |
| institution_str |
I-15 |
| repository_str |
R-121 |
| collection |
Repositorio Hipermedial de la Universidad Nacional de Rosario (UNR) |
| language |
Español |
| orig_language_str_mv |
spa |
| topic |
Corpus de Español EspaDA-UNCuyo Universidad Nacional de Cuyo |
| spellingShingle |
Corpus de Español EspaDA-UNCuyo Universidad Nacional de Cuyo Acosta, Nicolás Espeche, Paula Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software |
| topic_facet |
Corpus de Español EspaDA-UNCuyo Universidad Nacional de Cuyo |
| description |
En esta comunicación presentaremos, dentro del proceso de construcción del Corpus de Español en el Discurso Académico de la Universidad Nacional de Cuyo (EspaDA-UNCuyo), el desarrollo de una metodología eficiente para la transcripción orientada a la implementación en sistemas digitales. También exhibiremos la primera versión de una interfaz de software que indexa este corpus en un entorno de procesamiento de lenguaje natural (PLN), programada en Perl y CGI, con acceso web. El corpus EspaDA-UNCuyo se desarrolla en el marco del proyecto 06/G718, de la Secretaría de Ciencia, Técnica y Posgrado, de la Universidad Nacional de Cuyo. Su propósito es otorgar al investigador acceso a un corpus especializado en el español académico, compuesto por textos tanto orales como escritos que se producen en la Universidad Nacional de Cuyo. Para esto, se implementan metodologías automatizadas de PLN como el etiquetado morfosintáctico y la indexación de los textos para búsquedas de contextos de formas, lemas o expresiones. Al centrarnos en el trabajo con el discurso académico oral, haremos foco en los principales problemas al momento de transformar dicho discurso a un formato escrito a través del trabajo de transcripción, el cual siempre está influenciado por la subjetividad propia del transcriptor. En cuanto a las metodologías de transcripción orientadas al procesamiento digital, se han buscado convenciones amigables para que el transcriptor pueda componer su transcripción desde un procesador de textos, y luego puedan ser convertidas al formato de texto plano. Estas convenciones se han basado en las que se utilizaron para la construcción de otro corpus especializado de discurso académico oral: MICASE, de la Universidad de Michigan. A estas convenciones les hemos hecho algunas modificaciones en la notación de los fenómenos orales como los solapamientos o interrupciones. Para finalizar, haremos hincapié en la importancia del diálogo entre el transcriptor y el lingüista computacional para generar una metodología eficiente para la transcripción, orientada a la implementación en sistemas digitales, que concluya en la creación de un corpus exhaustivo, completo, de fácil acceso y útil para el investigador lingüístico. Palabras clave: corpus especializado; procesamiento de lenguaje natural; transcripción; géneros académicos; español académico. |
| author2 |
Asociación Argentina de Humanidades Digitales (AAHD). Facultad de Humanidades de la Universidad Nacional de Rosario (UNR) |
| author_facet |
Asociación Argentina de Humanidades Digitales (AAHD). Facultad de Humanidades de la Universidad Nacional de Rosario (UNR) Acosta, Nicolás Espeche, Paula |
| format |
conferenceObject documento de conferencia acceptedVersion |
| author |
Acosta, Nicolás Espeche, Paula |
| author_sort |
Acosta, Nicolás |
| title |
Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software |
| title_short |
Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software |
| title_full |
Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software |
| title_fullStr |
Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software |
| title_full_unstemmed |
Implementación digital del corpus EspaDA-UNCuyo: desde la transcripción al desarrollo de software |
| title_sort |
implementación digital del corpus espada-uncuyo: desde la transcripción al desarrollo de software |
| publisher |
Universidad Nacional de Rosario. Facultad de Humanidades y Artes |
| publishDate |
2018 |
| url |
http://hdl.handle.net/2133/13834 http://hdl.handle.net/2133/13834 |
| work_keys_str_mv |
AT acostanicolas implementaciondigitaldelcorpusespadauncuyodesdelatranscripcionaldesarrollodesoftware AT espechepaula implementaciondigitaldelcorpusespadauncuyodesdelatranscripcionaldesarrollodesoftware |
| bdutipo_str |
Repositorios |
| _version_ |
1764820407837261824 |