Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos

El Reconocimiento de Patrones es el estudio de cómo las máquinas pueden observar el ambiente o entorno, aprender a distinguir patrones de interés a partir de la experiencia, y tomar decisiones razonables con respecto a las categorías a las que pertenecen dichos patrones. El mejor reconocedor de patr...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Seijas, Leticia María
Otros Autores: Segura, Enrique Carlos
Formato: Tesis doctoral publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2011
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n4997_Seijas
Aporte de:
id tesis:tesis_n4997_Seijas
record_format dspace
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-134
collection Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language Español
orig_language_str_mv spa
topic RECONOCIMIENTO DE PATRONES
CLASIFICACION DE DIGITOS MANUSCRITOS
PATRONES AMBIGUOS
REDES NEURONALES
MAQUINAS DE SOPORTE VECTORIAL
ESTADISTICA BAYESIANA
PATTERN RECOGNITION
HANDWRITTEN DIGIT CLASSIFICATION
AMBIGUOUS PATTERN
NEURAL NETWORKS
SUPPORT VECTOR MACHINES
BAYESIAN STATISTICS
spellingShingle RECONOCIMIENTO DE PATRONES
CLASIFICACION DE DIGITOS MANUSCRITOS
PATRONES AMBIGUOS
REDES NEURONALES
MAQUINAS DE SOPORTE VECTORIAL
ESTADISTICA BAYESIANA
PATTERN RECOGNITION
HANDWRITTEN DIGIT CLASSIFICATION
AMBIGUOUS PATTERN
NEURAL NETWORKS
SUPPORT VECTOR MACHINES
BAYESIAN STATISTICS
Seijas, Leticia María
Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos
topic_facet RECONOCIMIENTO DE PATRONES
CLASIFICACION DE DIGITOS MANUSCRITOS
PATRONES AMBIGUOS
REDES NEURONALES
MAQUINAS DE SOPORTE VECTORIAL
ESTADISTICA BAYESIANA
PATTERN RECOGNITION
HANDWRITTEN DIGIT CLASSIFICATION
AMBIGUOUS PATTERN
NEURAL NETWORKS
SUPPORT VECTOR MACHINES
BAYESIAN STATISTICS
description El Reconocimiento de Patrones es el estudio de cómo las máquinas pueden observar el ambiente o entorno, aprender a distinguir patrones de interés a partir de la experiencia, y tomar decisiones razonables con respecto a las categorías a las que pertenecen dichos patrones. El mejor reconocedor de patrones conocido hasta ahora es el ser humano, no sabiéndose a ciencia cierta cuál es el proceso mediante el cual los humanos realizamos esta tarea. El Reconocimiento Optico de Caracteres (OCR) es uno de los tópicos más antiguos dentro del Reconocimiento de Patrones y una de las areas de investigación más importante y activa, que en la actualidad presenta desafío: la precisión en el reconocimiento asociada tanto a caracteres impresos en una imagen degradada o a caracteres manuscritos es aún insuficiente, existiendo errores en el reconocimiento. El Reconocimiento de Dígitos Manuscritos es un tema destacado dentro de OCR, por las aplicaciones relacionadas, como el procesamiento automático de cheques bancarios, la clasificación de correo en base a la lectura de códigos postales, la lectura automática de formularios y documentos con escritura manuscrita, dispositivos de lectura para ciegos, reconocimiento de escritura en computadoras manuales PDA, y porque constituye un problema modelo que incluye desafíos comunes con otros tópicos. Por esta razón, es tomado como referencia para la aplicación y testeo de nuevas teorías y algoritmos del area de Reconocimiento de Patrones en general. En este trabajo de tesis de doctorado se propone una nueva estrategia Bayesiana de combinación de clasificadores que permite detectar ambigüedades y resolverlas, lo que constituye la novedad y principal contribución de la tesis. Se propone, a su vez, un sistema completo de reconocimiento de patrones en dos niveles, con una arquitectura modular y paralelizable, que utiliza distintas características extraídas de los patrones de entrada según el problema a resolver junto con la estrategia Bayesiana ya mencionada que decide la respuesta del sistema. Como elementos componentes del reconocedor, en una primera capa o nivel, se utilizan clasificadores relativamente sencillos y bien posicionados para el problema a tratar. Los elementos pertenecientes a la segunda capa se utilizan para estimar cuán confiable es la respuesta de cada clasificador individual frente a un patrón de entrada, permitiendo decidir cuándo un patrón debe ser considerado bien definido o ambiguo, y en este ultimo caso con qué clases podrá confundirse. Adicionalmente, se proponen y aplican estrategias de selección de clasificadores en la etapa de construcción del reconocedor. El sistema reconocedor de patrones presentado fue aplicado al problema del reconocimiento de dígitos manuscritos off-line, como forma de testear su desempeño. En función de esto, se proponen descriptores basados en características de multirresolución a través del uso de la Transformada Wavelet CDF 9/7 y de Análisis de Componentes Principales, que permiten disminuir considerablemente el tamaño del patrón de entrada y aumentar la calidad de la representación. La experimentación se realizó sobre las bases de datos CENPARMI y MNIST, ampliamente referenciadas para este problema. Se obtuvieron altos porcentajes en el reconocimiento que alcanzaron un 97,40 y 99,32 % para las bases CENPARMI y MNIST respectivamente. Dichos valores son comparables a los resultados publicados considerados representativos.
author2 Segura, Enrique Carlos
author_facet Segura, Enrique Carlos
Seijas, Leticia María
format Tesis doctoral
Tesis doctoral
publishedVersion
author Seijas, Leticia María
author_sort Seijas, Leticia María
title Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos
title_short Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos
title_full Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos
title_fullStr Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos
title_full_unstemmed Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos
title_sort reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2011
url https://hdl.handle.net/20.500.12110/tesis_n4997_Seijas
work_keys_str_mv AT seijasleticiamaria reconocimientodepatronesutilizandotecnicasestadisticasyconexionistasaplicadasalaclasificaciondedigitosmanuscritos
AT seijasleticiamaria patternrecognitionusingstatisticaltechniquesandneuralnetworksapplicationtohandwrittendigitclassification
_version_ 1782023361643151360
spelling tesis:tesis_n4997_Seijas2023-10-02T20:03:15Z Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos Pattern recognition using statistical techniques and neural networks: application to handwritten digit classification Seijas, Leticia María Segura, Enrique Carlos RECONOCIMIENTO DE PATRONES CLASIFICACION DE DIGITOS MANUSCRITOS PATRONES AMBIGUOS REDES NEURONALES MAQUINAS DE SOPORTE VECTORIAL ESTADISTICA BAYESIANA PATTERN RECOGNITION HANDWRITTEN DIGIT CLASSIFICATION AMBIGUOUS PATTERN NEURAL NETWORKS SUPPORT VECTOR MACHINES BAYESIAN STATISTICS El Reconocimiento de Patrones es el estudio de cómo las máquinas pueden observar el ambiente o entorno, aprender a distinguir patrones de interés a partir de la experiencia, y tomar decisiones razonables con respecto a las categorías a las que pertenecen dichos patrones. El mejor reconocedor de patrones conocido hasta ahora es el ser humano, no sabiéndose a ciencia cierta cuál es el proceso mediante el cual los humanos realizamos esta tarea. El Reconocimiento Optico de Caracteres (OCR) es uno de los tópicos más antiguos dentro del Reconocimiento de Patrones y una de las areas de investigación más importante y activa, que en la actualidad presenta desafío: la precisión en el reconocimiento asociada tanto a caracteres impresos en una imagen degradada o a caracteres manuscritos es aún insuficiente, existiendo errores en el reconocimiento. El Reconocimiento de Dígitos Manuscritos es un tema destacado dentro de OCR, por las aplicaciones relacionadas, como el procesamiento automático de cheques bancarios, la clasificación de correo en base a la lectura de códigos postales, la lectura automática de formularios y documentos con escritura manuscrita, dispositivos de lectura para ciegos, reconocimiento de escritura en computadoras manuales PDA, y porque constituye un problema modelo que incluye desafíos comunes con otros tópicos. Por esta razón, es tomado como referencia para la aplicación y testeo de nuevas teorías y algoritmos del area de Reconocimiento de Patrones en general. En este trabajo de tesis de doctorado se propone una nueva estrategia Bayesiana de combinación de clasificadores que permite detectar ambigüedades y resolverlas, lo que constituye la novedad y principal contribución de la tesis. Se propone, a su vez, un sistema completo de reconocimiento de patrones en dos niveles, con una arquitectura modular y paralelizable, que utiliza distintas características extraídas de los patrones de entrada según el problema a resolver junto con la estrategia Bayesiana ya mencionada que decide la respuesta del sistema. Como elementos componentes del reconocedor, en una primera capa o nivel, se utilizan clasificadores relativamente sencillos y bien posicionados para el problema a tratar. Los elementos pertenecientes a la segunda capa se utilizan para estimar cuán confiable es la respuesta de cada clasificador individual frente a un patrón de entrada, permitiendo decidir cuándo un patrón debe ser considerado bien definido o ambiguo, y en este ultimo caso con qué clases podrá confundirse. Adicionalmente, se proponen y aplican estrategias de selección de clasificadores en la etapa de construcción del reconocedor. El sistema reconocedor de patrones presentado fue aplicado al problema del reconocimiento de dígitos manuscritos off-line, como forma de testear su desempeño. En función de esto, se proponen descriptores basados en características de multirresolución a través del uso de la Transformada Wavelet CDF 9/7 y de Análisis de Componentes Principales, que permiten disminuir considerablemente el tamaño del patrón de entrada y aumentar la calidad de la representación. La experimentación se realizó sobre las bases de datos CENPARMI y MNIST, ampliamente referenciadas para este problema. Se obtuvieron altos porcentajes en el reconocimiento que alcanzaron un 97,40 y 99,32 % para las bases CENPARMI y MNIST respectivamente. Dichos valores son comparables a los resultados publicados considerados representativos. Pattern Recognition is the study of how machines can observe the environment, learn to distinguish patterns of interest from their background, and make sound and reasonable decisions about the categories of the patterns. The best pattern recognizers in most instances are humans, yet we do not understand how humans recognize patterns. Optical character recognition (OCR) is one of the most traditional topics in the context of Pattern Recognition that includes as a key issue the automatic recognition of handwritten characters. The subject has many interesting applications, such as automatic recognition of postal codes, recognition of amounts in banking checks and automatic processing of application forms. Handwritten numeral classification is a difficult task because of the wide variety of styles, strokes and orientations of digit samples. One of the main difficulties lies in the fact that the intra-class variance is high, due to the different forms associated with the same pattern, because of the particular writing style of each individual. Many models have been proposed to deal with this problem, but none of them has succeeded in obtaining levels of response comparable to human ones. This thesis presents a pattern recognition system that is able to detect ambiguous patterns and ex- plain its answers using a Bayesian strategy which is the main contribution of this work. The recogniser is composed of two levels. The first one is formed by a collection of independent classifiers, each one spe- cialised in a different feature extracted from the input pattern. The second level consists of an analyzing module in charge of defining and explaining the output of the system. This module is integrated by the following elements: the table of reliability and two parameters adjustable while running the system. The system has been applied to the off-line recognition of handwritten digits. Descriptors based on the CDF 9/7 wavelet transform and Principal Component Analysis are proposed in order to reduce the size of the input pattern while increasing the quality of its representation. Strategies for selecting classifiers for the system are also proposed. The experiments were carried out on the MNIST and CENPARMI handwritten digit databases, which are generally accepted as standards in most of the literature in the field. Recognition rates obtained are comparable with results from representative work, reaching 97.40 and 99.32 % for CENPARMI and MNIST databases respectively. Fil: Seijas, Leticia María. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2011 info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion application/pdf spa info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/tesis_n4997_Seijas