ConvAtt Network: a low parameter approach for sign language recognition

Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and g...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Ríos, Gastón Gustavo, Dal Bianco, Pedro Alejandro, Ronchetti, Franco, Ponte Ahón, Santiago Andrés, Stanchi, Oscar Agustín, Hasperué, Waldo
Formato: Articulo
Lenguaje:Inglés
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/173739
Aporte de:
id I19-R120-10915-173739
record_format dspace
spelling I19-R120-10915-1737392024-11-27T20:05:52Z http://sedici.unlp.edu.ar/handle/10915/173739 ConvAtt Network: a low parameter approach for sign language recognition Ríos, Gastón Gustavo Dal Bianco, Pedro Alejandro Ronchetti, Franco Ponte Ahón, Santiago Andrés Stanchi, Oscar Agustín Hasperué, Waldo 2024-10 2024-11-27T13:59:15Z en Ciencias Informáticas deep learning sequence classification sign language recognition unbalanced data aprendizaje profundo clasificación de sequencias reconocimiento de lenguas de señas datos desbalanceados Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters. A pesar de los avances recientes en grandes modelos de lenguaje para el procesamiento de texto, el Reconocimiento de Lenguas de Señas (SLR por sus siglas en inglés) aún es una tarea sin resolver. Esto es, en parte, debido a las limitaciones en los datos disponibles. En este artículo, investigamos cómo combinar convoluciones Id con capas transformer para capturar las características locales y las interacciones globales utilizando un modelo de SLR de pocos parámetros. Experimentamos usando múltiples técnicas de aumento de datos y regularización para categorizar señas de la lengua de señas belga-francesa. Como resultado, obtuvimos una exactitud top-1 de 42.7% y top-10 de 81.9% en 600 señas diferentes. Este modelo es competitivo con el estado del arte actual, utilizando una cantidad significativamente menor de parámetros. Facultad de Informática Articulo Articulo http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf 104-110
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Inglés
topic Ciencias Informáticas
deep learning
sequence classification
sign language recognition
unbalanced data
aprendizaje profundo
clasificación de sequencias
reconocimiento de lenguas de señas
datos desbalanceados
spellingShingle Ciencias Informáticas
deep learning
sequence classification
sign language recognition
unbalanced data
aprendizaje profundo
clasificación de sequencias
reconocimiento de lenguas de señas
datos desbalanceados
Ríos, Gastón Gustavo
Dal Bianco, Pedro Alejandro
Ronchetti, Franco
Ponte Ahón, Santiago Andrés
Stanchi, Oscar Agustín
Hasperué, Waldo
ConvAtt Network: a low parameter approach for sign language recognition
topic_facet Ciencias Informáticas
deep learning
sequence classification
sign language recognition
unbalanced data
aprendizaje profundo
clasificación de sequencias
reconocimiento de lenguas de señas
datos desbalanceados
description Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters.
format Articulo
Articulo
author Ríos, Gastón Gustavo
Dal Bianco, Pedro Alejandro
Ronchetti, Franco
Ponte Ahón, Santiago Andrés
Stanchi, Oscar Agustín
Hasperué, Waldo
author_facet Ríos, Gastón Gustavo
Dal Bianco, Pedro Alejandro
Ronchetti, Franco
Ponte Ahón, Santiago Andrés
Stanchi, Oscar Agustín
Hasperué, Waldo
author_sort Ríos, Gastón Gustavo
title ConvAtt Network: a low parameter approach for sign language recognition
title_short ConvAtt Network: a low parameter approach for sign language recognition
title_full ConvAtt Network: a low parameter approach for sign language recognition
title_fullStr ConvAtt Network: a low parameter approach for sign language recognition
title_full_unstemmed ConvAtt Network: a low parameter approach for sign language recognition
title_sort convatt network: a low parameter approach for sign language recognition
publishDate 2024
url http://sedici.unlp.edu.ar/handle/10915/173739
work_keys_str_mv AT riosgastongustavo convattnetworkalowparameterapproachforsignlanguagerecognition
AT dalbiancopedroalejandro convattnetworkalowparameterapproachforsignlanguagerecognition
AT ronchettifranco convattnetworkalowparameterapproachforsignlanguagerecognition
AT ponteahonsantiagoandres convattnetworkalowparameterapproachforsignlanguagerecognition
AT stanchioscaragustin convattnetworkalowparameterapproachforsignlanguagerecognition
AT hasperuewaldo convattnetworkalowparameterapproachforsignlanguagerecognition
_version_ 1833158003790970880