A novel distance that reduces information loss in continuous characters with few observations

Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.

Guardado en:
Detalles Bibliográficos
Autores principales: Lo Valvo, Gerardo A., Lehmann, Oscar E. R., Balseiro, Diego
Otros Autores: https://orcid.org/0000-0003-2705-8985
Formato: dataSet
Lenguaje:Inglés
Publicado: 2023
Materias:
Acceso en línea:http://hdl.handle.net/11086/546977
Aporte de:
id I10-R141-11086-546977
record_format dspace
institution Universidad Nacional de Córdoba
institution_str I-10
repository_str R-141
collection Repositorio Digital Universitario (UNC)
language Inglés
topic Distance coefficient
Distance matrix
Continuous characters
Intervals
Overlap
Coeficiente de distancia
Matriz de distancia
Caracteres continuos
Intervalos
Superposición
https://purl.org/becyt/ford/1.5
spellingShingle Distance coefficient
Distance matrix
Continuous characters
Intervals
Overlap
Coeficiente de distancia
Matriz de distancia
Caracteres continuos
Intervalos
Superposición
https://purl.org/becyt/ford/1.5
Lo Valvo, Gerardo A.
Lehmann, Oscar E. R.
Balseiro, Diego
A novel distance that reduces information loss in continuous characters with few observations
topic_facet Distance coefficient
Distance matrix
Continuous characters
Intervals
Overlap
Coeficiente de distancia
Matriz de distancia
Caracteres continuos
Intervalos
Superposición
https://purl.org/becyt/ford/1.5
description Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.
author2 https://orcid.org/0000-0003-2705-8985
author_facet https://orcid.org/0000-0003-2705-8985
Lo Valvo, Gerardo A.
Lehmann, Oscar E. R.
Balseiro, Diego
format dataSet
author Lo Valvo, Gerardo A.
Lehmann, Oscar E. R.
Balseiro, Diego
author_sort Lo Valvo, Gerardo A.
title A novel distance that reduces information loss in continuous characters with few observations
title_short A novel distance that reduces information loss in continuous characters with few observations
title_full A novel distance that reduces information loss in continuous characters with few observations
title_fullStr A novel distance that reduces information loss in continuous characters with few observations
title_full_unstemmed A novel distance that reduces information loss in continuous characters with few observations
title_sort novel distance that reduces information loss in continuous characters with few observations
publishDate 2023
url http://hdl.handle.net/11086/546977
work_keys_str_mv AT lovalvogerardoa anoveldistancethatreducesinformationlossincontinuouscharacterswithfewobservations
AT lehmannoscarer anoveldistancethatreducesinformationlossincontinuouscharacterswithfewobservations
AT balseirodiego anoveldistancethatreducesinformationlossincontinuouscharacterswithfewobservations
AT lovalvogerardoa nuevadistanciaquereducelaperdidadeinformacionparacaracterescontinuosconpocasobservaciones
AT lehmannoscarer nuevadistanciaquereducelaperdidadeinformacionparacaracterescontinuosconpocasobservaciones
AT balseirodiego nuevadistanciaquereducelaperdidadeinformacionparacaracterescontinuosconpocasobservaciones
AT lovalvogerardoa noveldistancethatreducesinformationlossincontinuouscharacterswithfewobservations
AT lehmannoscarer noveldistancethatreducesinformationlossincontinuouscharacterswithfewobservations
AT balseirodiego noveldistancethatreducesinformationlossincontinuouscharacterswithfewobservations
_version_ 1782014714206748672
spelling I10-R141-11086-5469772023-08-30T12:10:21Z A novel distance that reduces information loss in continuous characters with few observations Nueva distancia que reduce la pérdida de información para caracteres continuos con pocas observaciones Lo Valvo, Gerardo A. Lehmann, Oscar E. R. Balseiro, Diego https://orcid.org/0000-0003-2705-8985 https://orcid.org/0000-0002-2582-372X https://orcid.org/0000-0003-3015-9066 Distance coefficient Distance matrix Continuous characters Intervals Overlap Coeficiente de distancia Matriz de distancia Caracteres continuos Intervalos Superposición https://purl.org/becyt/ford/1.5 Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina. Fil: Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina. Fil: Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina. Fil: Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina. Fil: Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina. The calculation of pairwise distances is a fundamental step in many statistical analyses in biology and paleontology. The most commonly used distances work with a single observation per object and character, but there are scenarios where multiple observations are available per object. In these situations, the information for the character spans an interval, and pairs of objects can have overlapping intervals, which further complicates the distance calculation. Some coefficients can deal with this wealth of information but are either too coarse to provide detailed results or too computationally demanding for even moderately large data sets. Here, we present the Distance Between Intervals (DBI) as a novel semi-metric distance that can accommodate both singular and multiple observations per object by analyzing them as intervals. The DBI ranges from 0 to 1 when there is an overlap between the objects and from 1 to infinity when there is no overlap between them. It is easy to calculate and can be applied to a wide variety of data types. Both simulated and empirical test cases show that the DBI correctly ranks pairs of objects by their level of overlap and non-overlap, while other distances struggle to do it. Therefore the DBI can provide a finer level of definition than other available distances for empirical data sets, while generally agreeing with the broad results they provide. An implementation of DBI is provided for the R programming language. En biología y paleontología, el cálculo de distancias pareadas es un paso fundamental en muchos análisis estadísticos. Los coeficientes de distancia más comunes utilizan un único valor por objeto y carácter, pero hay escenarios donde hay múltiples observaciones por objeto. En estas situaciones, la información para el carácter abarca un intervalo y los intervalos de un par de objetos pueden superponerse, complicando aún más el cálculo de la distancia. Existen coeficientes que pueden manejar una gran cantidad de información por objeto, pero por la baja resolución de sus resultados son poco detallados o bien tienen un costo computacional demasiado elevado, incluso para conjuntos de datos moderadamente grandes. Aquí presentamos la Distancia Entre Intervalos (DBI por sus siglas en inglés) como una nueva distancia semimétrica que puede trabajar con objetos con una o más observaciones al analizarlos como intervalos. La DBI varía entre 0 y 1 cuando los intervalos de los objetos se superponen y de 1 a infinito cuando no hay superposición entre ellos. El coeficiente es fácil de calcular y se puede aplicar a una amplia variedad de tipos de datos. Simulaciones computacionales y bases de datos empíricas muestran que DBI es mejor para reconocer las diferencias entre objetos según su variabilidad. Por lo tanto, la DBI puede proporcionar un mayor nivel de definición que otras distancias disponibles en sus resultados, mientras que está de acuerdo con la tendencia general de los resultados que brindan. Se proporciona una implementación de DBI para el lenguaje de programación R. Fil: Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina. Fil: Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina. Fil: Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina. Fil: Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina. Fil: Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina. 2023-04-10T20:03:01Z 2023-04-10T20:03:01Z 2023 dataSet http://hdl.handle.net/11086/546977 eng Attribution-NonCommercial-NoDerivatives 4.0 Internacional http://creativecommons.org/licenses/by-nc-nd/4.0/