Segmentación y reconocimiento de textos manuscritos utilizando redes profundas

El reconocimiento de caracteres es un campo de investigación y desarrollo aplicado que ha tenido numerosos avances en los últimos años. Las técnicas tradicionales de reconocimiento óptico de caracteres, con una alta carga de trabajo manual para lograr su correcto funcionamiento, han comenzado a ser...

Descripción completa

Detalles Bibliográficos
Autor principal: Pilorget, Juan Pablo
Otros Autores: Buemi, María Elena
Formato: Tesis de maestría publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2023
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n7456_Pilorget
https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7456_Pilorget_oai
Aporte de:
id I28-R145-tesis_n7456_Pilorget_oai
record_format dspace
spelling I28-R145-tesis_n7456_Pilorget_oai2024-12-06 Buemi, María Elena Pilorget, Juan Pablo 2023-05-31 El reconocimiento de caracteres es un campo de investigación y desarrollo aplicado que ha tenido numerosos avances en los últimos años. Las técnicas tradicionales de reconocimiento óptico de caracteres, con una alta carga de trabajo manual para lograr su correcto funcionamiento, han comenzado a ser reemplazadas por abordajes inteligentes utilizando redes neuronales profundas. Los nuevos modelos permiten no sólo automatizar los procesos de reconocimiento sino mejorar la calidad de un tipo específico: el texto escrito a mano. La cantidad creciente de documentos manuscritos digitalizados presentan a la vez un desafío, por la imposibilidad de los métodos tradicionales para reconocer adecuadamente ese tipo de texto, y una oportunidad, por el impacto que podrían generar para el acervo público el desarrollo de modelos que detecten y reconozcan correctamente caracteres escritos a mano. El presente trabajo profundiza en las arquitecturas de redes neuronales que pueden utilizarse para detectar texto y reconocer caracteres de forma inteligente, analizando cuantitativamente el desempeño de modelos de segmentación y reconocimiento. Asimismo, evalúa cualitativamente los modelos en el acervo de la Biblioteca Digital de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires, aplicando las técnicas a la correspondencia digitalizada de Mario Bunge. La información obtenida es sistematizada y puesta a disposición para futuros trabajos y líneas de investigación. Character recognition is an applied research field that has gone through numerous advances in recent years. Traditional optical character recognition techniques, requiring several manual steps in order to work properly, are being gradually replaced by new intelligent approaches leveraging deep neural networks. These new models allow not only to automate the processes but also enable improving the quality of a specific type of document: handwritten text. The increasing volume of handwritten documents that are being digitized pose both a challenge, given the struggle of traditional methods on correctly identifying text, and an opportunity, for the impact the development of detection and recognition models might have in the public archive. The present work dives deep in the neural network architectures that can be used for detecting text and intelligently recognizing characters, performing a quantitative analysis of performance on the segmentation and recognition models. It also evaluates qualitatively the models by applying them to the digital assets of the Library of the Faculty of Exact and Natural Sciences of the University of Buenos Aires, using the techniques on the correspondence of Mario Bunge. The resulting information is thus systematized and made available for future works and researches. Fil: Pilorget, Juan Pablo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. application/pdf https://hdl.handle.net/20.500.12110/tesis_n7456_Pilorget spa Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar RECONOCIMIENTO DE CARACTERES REDES NEURONALES SEGMENTACIÓN SEMANTICA TEXTO MANUSCRITO APRENDIZAJE PROFUNDO CHARACTER RECOGNITION NEURAL NETWORKS SEMANTIC SEGMENTATION HANDWRITTEN TEXT DEEP LEARNING Segmentación y reconocimiento de textos manuscritos utilizando redes profundas Handwritten text segmentation and recognition with deep learning info:eu-repo/semantics/masterThesis info:ar-repo/semantics/tesis de maestría info:eu-repo/semantics/publishedVersion https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7456_Pilorget_oai
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-145
collection Repositorio Digital de la Universidad de Buenos Aires (UBA)
language Español
orig_language_str_mv spa
topic RECONOCIMIENTO DE CARACTERES
REDES NEURONALES
SEGMENTACIÓN SEMANTICA
TEXTO MANUSCRITO
APRENDIZAJE PROFUNDO
CHARACTER RECOGNITION
NEURAL NETWORKS
SEMANTIC SEGMENTATION
HANDWRITTEN TEXT
DEEP LEARNING
spellingShingle RECONOCIMIENTO DE CARACTERES
REDES NEURONALES
SEGMENTACIÓN SEMANTICA
TEXTO MANUSCRITO
APRENDIZAJE PROFUNDO
CHARACTER RECOGNITION
NEURAL NETWORKS
SEMANTIC SEGMENTATION
HANDWRITTEN TEXT
DEEP LEARNING
Pilorget, Juan Pablo
Segmentación y reconocimiento de textos manuscritos utilizando redes profundas
topic_facet RECONOCIMIENTO DE CARACTERES
REDES NEURONALES
SEGMENTACIÓN SEMANTICA
TEXTO MANUSCRITO
APRENDIZAJE PROFUNDO
CHARACTER RECOGNITION
NEURAL NETWORKS
SEMANTIC SEGMENTATION
HANDWRITTEN TEXT
DEEP LEARNING
description El reconocimiento de caracteres es un campo de investigación y desarrollo aplicado que ha tenido numerosos avances en los últimos años. Las técnicas tradicionales de reconocimiento óptico de caracteres, con una alta carga de trabajo manual para lograr su correcto funcionamiento, han comenzado a ser reemplazadas por abordajes inteligentes utilizando redes neuronales profundas. Los nuevos modelos permiten no sólo automatizar los procesos de reconocimiento sino mejorar la calidad de un tipo específico: el texto escrito a mano. La cantidad creciente de documentos manuscritos digitalizados presentan a la vez un desafío, por la imposibilidad de los métodos tradicionales para reconocer adecuadamente ese tipo de texto, y una oportunidad, por el impacto que podrían generar para el acervo público el desarrollo de modelos que detecten y reconozcan correctamente caracteres escritos a mano. El presente trabajo profundiza en las arquitecturas de redes neuronales que pueden utilizarse para detectar texto y reconocer caracteres de forma inteligente, analizando cuantitativamente el desempeño de modelos de segmentación y reconocimiento. Asimismo, evalúa cualitativamente los modelos en el acervo de la Biblioteca Digital de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires, aplicando las técnicas a la correspondencia digitalizada de Mario Bunge. La información obtenida es sistematizada y puesta a disposición para futuros trabajos y líneas de investigación.
author2 Buemi, María Elena
author_facet Buemi, María Elena
Pilorget, Juan Pablo
format Tesis de maestría
Tesis de maestría
publishedVersion
author Pilorget, Juan Pablo
author_sort Pilorget, Juan Pablo
title Segmentación y reconocimiento de textos manuscritos utilizando redes profundas
title_short Segmentación y reconocimiento de textos manuscritos utilizando redes profundas
title_full Segmentación y reconocimiento de textos manuscritos utilizando redes profundas
title_fullStr Segmentación y reconocimiento de textos manuscritos utilizando redes profundas
title_full_unstemmed Segmentación y reconocimiento de textos manuscritos utilizando redes profundas
title_sort segmentación y reconocimiento de textos manuscritos utilizando redes profundas
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2023
url https://hdl.handle.net/20.500.12110/tesis_n7456_Pilorget
https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7456_Pilorget_oai
work_keys_str_mv AT pilorgetjuanpablo segmentacionyreconocimientodetextosmanuscritosutilizandoredesprofundas
AT pilorgetjuanpablo handwrittentextsegmentationandrecognitionwithdeeplearning
_version_ 1824354467637624832