Data Mining en evaluaciones de biodiversidad

Las modernas técnicas de secuenciación de ADN transforman su estructura química en secuencias informáticas de símbolos cada una de las cuales puede ser vista como una instancia de una base de datos. Es posible entonces aplicar técnicas para clasificar casos y predecir patrones de comportamiento de f...

Descripción completa

Detalles Bibliográficos
Autores principales: López, Luis, Martínez, Pablo, Cacho Mendoza, Ariel Alejandro, Soria, Marcelo A., Santa María, Cristóbal
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2014
Materias:
ADN
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/41971
Aporte de:
id I19-R120-10915-41971
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Data mining
ADN
técnicas de secuenciación
PATTERN RECOGNITION
bases de datos
instancias
patrones de comportamiento
spellingShingle Ciencias Informáticas
Data mining
ADN
técnicas de secuenciación
PATTERN RECOGNITION
bases de datos
instancias
patrones de comportamiento
López, Luis
Martínez, Pablo
Cacho Mendoza, Ariel Alejandro
Soria, Marcelo A.
Santa María, Cristóbal
Data Mining en evaluaciones de biodiversidad
topic_facet Ciencias Informáticas
Data mining
ADN
técnicas de secuenciación
PATTERN RECOGNITION
bases de datos
instancias
patrones de comportamiento
description Las modernas técnicas de secuenciación de ADN transforman su estructura química en secuencias informáticas de símbolos cada una de las cuales puede ser vista como una instancia de una base de datos. Es posible entonces aplicar técnicas para clasificar casos y predecir patrones de comportamiento de forma similar a como se lo hace sobre otros dominios como las finanzas, el marketing o el texto, aunque la complejidad del dominio microbiológico pueda llevar a una tarea un poco más ardua. En tal sentido la aplicación de data mining en los estudios genómicos es un hecho consolidado en la investigación biológica pues en ella también se trata de clasificar y descubrir patrones sobre grandes bases de datos con el auxilio de técnicas combinadas de aprendizaje automático, estadística y visualización lo que en suma no es más que la definición ontológica de la minería de datos. El trabajo aquí presentado se refiere a secuencias de ADN correspondientes a distintos microorganismos extraídas de muestras de suelo con el objetivo de evaluar los patrones de riqueza y diversidad de la comunidad microbiológica que lo integra. En particular cada secuencia de ADN correspondiente al gen 16S rRNA que integra la muestra se identificará con un organismo distinto. La tecnología de secuenciación actual es capaz de obtener miles de estas cadenas de símbolos correspondientes a los cuatro componentes básicos del ADN: Aadenina, T-timina, C-citocina y Gguanina. Cada parte de un gen será entonces una secuencia de unos cientos de estos símbolos colocados en algún orden. Tal como se hace por ejemplo en text mining, se puede definir una distancia conveniente entre secuencias y con ella producir un clustering que agrupe las secuencias según su similitud. Así, eligiendo un umbral de disimilaridad adecuado, cada agrupamiento estará integrado por secuencias correspondientes a individuos de la misma especie, Estos clusters se denominan Unidades Taxonómicas Operacionales y a partir de su distribución de abundancia en la muestra, se pretende establecer el patrón de riqueza de la comunidad, lo que significa establecer el número de especies que hay en la misma. Esta tarea se topa con un serio problema estadístico pues en microbiología más del 70% de las especies pueden ser estadísticamente raras a la vez que un 10% es muy abundante. De tal forma las muestras no contienen individuos de muchas especies presentes y a su vez presentan muchos individuos de las especies dominantes. Es decir; toda muestra resulta pequeña para una inferencia estadística simple de la riqueza poblacional. El algoritmo de recuento de especies ARE, ya presentado en otros trabajos (1) y (2), mejora las estimaciones no paramétricas habituales y las hace compatibles con las apreciaciones ecológicas. En términos más generales el algoritmo resuelve en forma eficiente el problema de inferir desde una muestra de casos el número de clases de casos que hay en una población que contiene una alta proporción de clases raras. Este problema se reconoce también, por ejemplo, en el análisis de texto donde cada palabra distinta es una clase y hay palabras muy poco frecuentes (3). Hay que remarcar que el número inferido para la riqueza como cantidad de especies distintas, o si se quiere palabras distintas, constituye una guía imprescindible para afinar el clustering que se realice sobre nuevas muestras de la población para determinar una clasificación estable y aplicable luego para predicción. En este trabajo se planteó el objetivo de desarrollar un programa escrito en Lenguaje C o C++ que permitiera reemplazar al programa del algoritmo ARE escrito en lenguaje R con el fin de mejorar los tiempos de ejecución Se estudian además las posibilidades de paralelización en la ejecución de los algoritmos.
format Objeto de conferencia
Objeto de conferencia
author López, Luis
Martínez, Pablo
Cacho Mendoza, Ariel Alejandro
Soria, Marcelo A.
Santa María, Cristóbal
author_facet López, Luis
Martínez, Pablo
Cacho Mendoza, Ariel Alejandro
Soria, Marcelo A.
Santa María, Cristóbal
author_sort López, Luis
title Data Mining en evaluaciones de biodiversidad
title_short Data Mining en evaluaciones de biodiversidad
title_full Data Mining en evaluaciones de biodiversidad
title_fullStr Data Mining en evaluaciones de biodiversidad
title_full_unstemmed Data Mining en evaluaciones de biodiversidad
title_sort data mining en evaluaciones de biodiversidad
publishDate 2014
url http://sedici.unlp.edu.ar/handle/10915/41971
work_keys_str_mv AT lopezluis dataminingenevaluacionesdebiodiversidad
AT martinezpablo dataminingenevaluacionesdebiodiversidad
AT cachomendozaarielalejandro dataminingenevaluacionesdebiodiversidad
AT soriamarceloa dataminingenevaluacionesdebiodiversidad
AT santamariacristobal dataminingenevaluacionesdebiodiversidad
bdutipo_str Repositorios
_version_ 1764820473053446144