Data Mining en evaluaciones de biodiversidad

Las modernas técnicas de secuenciación de ADN transforman su estructura química en secuencias informáticas de símbolos cada una de las cuales puede ser vista como una instancia de una base de datos. Es posible entonces aplicar técnicas para clasificar casos y predecir patrones de comportamiento de f...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autores principales:	López, Luis, Martínez, Pablo, Cacho Mendoza, Ariel Alejandro, Soria, Marcelo A., Santa María, Cristóbal
Formato:	Objeto de conferencia
Lenguaje:	Español
Publicado:	2014
Materias:	Ciencias Informáticas Data mining ADN técnicas de secuenciación PATTERN RECOGNITION bases de datos instancias patrones de comportamiento
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/41971
Aporte de:	SEDICI (UNLP) de Universidad Nacional de La Plata

id	I19-R120-10915-41971
record_format	dspace
institution	Universidad Nacional de La Plata
institution_str	I-19
repository_str	R-120
collection	SEDICI (UNLP)
language	Español
topic	Ciencias Informáticas Data mining ADN técnicas de secuenciación PATTERN RECOGNITION bases de datos instancias patrones de comportamiento
spellingShingle	Ciencias Informáticas Data mining ADN técnicas de secuenciación PATTERN RECOGNITION bases de datos instancias patrones de comportamiento López, Luis Martínez, Pablo Cacho Mendoza, Ariel Alejandro Soria, Marcelo A. Santa María, Cristóbal Data Mining en evaluaciones de biodiversidad
topic_facet	Ciencias Informáticas Data mining ADN técnicas de secuenciación PATTERN RECOGNITION bases de datos instancias patrones de comportamiento
description	Las modernas técnicas de secuenciación de ADN transforman su estructura química en secuencias informáticas de símbolos cada una de las cuales puede ser vista como una instancia de una base de datos. Es posible entonces aplicar técnicas para clasificar casos y predecir patrones de comportamiento de forma similar a como se lo hace sobre otros dominios como las finanzas, el marketing o el texto, aunque la complejidad del dominio microbiológico pueda llevar a una tarea un poco más ardua. En tal sentido la aplicación de data mining en los estudios genómicos es un hecho consolidado en la investigación biológica pues en ella también se trata de clasificar y descubrir patrones sobre grandes bases de datos con el auxilio de técnicas combinadas de aprendizaje automático, estadística y visualización lo que en suma no es más que la definición ontológica de la minería de datos. El trabajo aquí presentado se refiere a secuencias de ADN correspondientes a distintos microorganismos extraídas de muestras de suelo con el objetivo de evaluar los patrones de riqueza y diversidad de la comunidad microbiológica que lo integra. En particular cada secuencia de ADN correspondiente al gen 16S rRNA que integra la muestra se identificará con un organismo distinto. La tecnología de secuenciación actual es capaz de obtener miles de estas cadenas de símbolos correspondientes a los cuatro componentes básicos del ADN: Aadenina, T-timina, C-citocina y Gguanina. Cada parte de un gen será entonces una secuencia de unos cientos de estos símbolos colocados en algún orden. Tal como se hace por ejemplo en text mining, se puede definir una distancia conveniente entre secuencias y con ella producir un clustering que agrupe las secuencias según su similitud. Así, eligiendo un umbral de disimilaridad adecuado, cada agrupamiento estará integrado por secuencias correspondientes a individuos de la misma especie, Estos clusters se denominan Unidades Taxonómicas Operacionales y a partir de su distribución de abundancia en la muestra, se pretende establecer el patrón de riqueza de la comunidad, lo que significa establecer el número de especies que hay en la misma. Esta tarea se topa con un serio problema estadístico pues en microbiología más del 70% de las especies pueden ser estadísticamente raras a la vez que un 10% es muy abundante. De tal forma las muestras no contienen individuos de muchas especies presentes y a su vez presentan muchos individuos de las especies dominantes. Es decir; toda muestra resulta pequeña para una inferencia estadística simple de la riqueza poblacional. El algoritmo de recuento de especies ARE, ya presentado en otros trabajos (1) y (2), mejora las estimaciones no paramétricas habituales y las hace compatibles con las apreciaciones ecológicas. En términos más generales el algoritmo resuelve en forma eficiente el problema de inferir desde una muestra de casos el número de clases de casos que hay en una población que contiene una alta proporción de clases raras. Este problema se reconoce también, por ejemplo, en el análisis de texto donde cada palabra distinta es una clase y hay palabras muy poco frecuentes (3). Hay que remarcar que el número inferido para la riqueza como cantidad de especies distintas, o si se quiere palabras distintas, constituye una guía imprescindible para afinar el clustering que se realice sobre nuevas muestras de la población para determinar una clasificación estable y aplicable luego para predicción. En este trabajo se planteó el objetivo de desarrollar un programa escrito en Lenguaje C o C++ que permitiera reemplazar al programa del algoritmo ARE escrito en lenguaje R con el fin de mejorar los tiempos de ejecución Se estudian además las posibilidades de paralelización en la ejecución de los algoritmos.
format	Objeto de conferencia Objeto de conferencia
author	López, Luis Martínez, Pablo Cacho Mendoza, Ariel Alejandro Soria, Marcelo A. Santa María, Cristóbal
author_facet	López, Luis Martínez, Pablo Cacho Mendoza, Ariel Alejandro Soria, Marcelo A. Santa María, Cristóbal
author_sort	López, Luis
title	Data Mining en evaluaciones de biodiversidad
title_short	Data Mining en evaluaciones de biodiversidad
title_full	Data Mining en evaluaciones de biodiversidad
title_fullStr	Data Mining en evaluaciones de biodiversidad
title_full_unstemmed	Data Mining en evaluaciones de biodiversidad
title_sort	data mining en evaluaciones de biodiversidad
publishDate	2014
url	http://sedici.unlp.edu.ar/handle/10915/41971
work_keys_str_mv	AT lopezluis dataminingenevaluacionesdebiodiversidad AT martinezpablo dataminingenevaluacionesdebiodiversidad AT cachomendozaarielalejandro dataminingenevaluacionesdebiodiversidad AT soriamarceloa dataminingenevaluacionesdebiodiversidad AT santamariacristobal dataminingenevaluacionesdebiodiversidad
bdutipo_str	Repositorios
_version_	1764820473053446144

Data Mining en evaluaciones de biodiversidad

Ejemplares similares