Datos abiertos: gestión de datos de investigación

Las bases de datos (BD) son el «oro» de la investigación científica, por lo que es importante hacerlas accesibles a la comunidad; sin embargo, en algunos campos, como la medicina, es díficil encontrar bases de datos abiertas. No obstante, es posible «pre-procesar» estas BD para hacerlas accesibles y...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Sucar Succar, Enrique
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2021
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/136673
Aporte de:
id I19-R120-10915-136673
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Bibliotecología
Informática
Bases de datos
Datos abiertos
COVID-19
Modelos causales
Descubrimiento causal
spellingShingle Bibliotecología
Informática
Bases de datos
Datos abiertos
COVID-19
Modelos causales
Descubrimiento causal
Sucar Succar, Enrique
Datos abiertos: gestión de datos de investigación
topic_facet Bibliotecología
Informática
Bases de datos
Datos abiertos
COVID-19
Modelos causales
Descubrimiento causal
format Objeto de conferencia
Objeto de conferencia
author Sucar Succar, Enrique
author_facet Sucar Succar, Enrique
author_sort Sucar Succar, Enrique
title Datos abiertos: gestión de datos de investigación
title_short Datos abiertos: gestión de datos de investigación
title_full Datos abiertos: gestión de datos de investigación
title_fullStr Datos abiertos: gestión de datos de investigación
title_full_unstemmed Datos abiertos: gestión de datos de investigación
title_sort datos abiertos: gestión de datos de investigación
publishDate 2021
url http://sedici.unlp.edu.ar/handle/10915/136673
work_keys_str_mv AT sucarsuccarenrique datosabiertosgestiondedatosdeinvestigacion
bdutipo_str Repositorios
_version_ 1764820457129771011
description Las bases de datos (BD) son el «oro» de la investigación científica, por lo que es importante hacerlas accesibles a la comunidad; sin embargo, en algunos campos, como la medicina, es díficil encontrar bases de datos abiertas. No obstante, es posible «pre-procesar» estas BD para hacerlas accesibles y a su vez proteger los datos sensibles. Un buen ejemplo de esto es la Base de Datos Mexicana de COVID-19, resultado de la colaboración de la Secretaría de Salud y la Universidad Nacional Autonóma de México. Cuenta con 6,5 millones de individuos con 97 variables y se actualiza diariamente. Dicha BD está accesible para fines de investigación y presenta información de carácter público recopilada a través de la Dirección General de Epidemiología de la Secretaría de Salud, que es curada y divulgada por la UNAM. LA BD incluye información de pruebas, hospitalización y decesos de 5.186 unidades públicas y privadas distribuidas en los tres niveles del sistema de salud mexicano. El proceso de curación de esta BD consistió, en primer lugar, en la eliminación de toda la información sensible (especialmente datos de identidad de los individuos), por parte de un equipo de expertos de la UNAM. Luego, se realizaron distintas tareas de estandarización de los datos, que facilitaron los procesos de minería de datos y otros que la vuelven accesible con fines de investigación. La BD accesible contiene 97 campos que pueden agruparse en Información general del paciente, Síntomas, Comorbilidades, Diagnóstico y tratamiento y Resultados. Para el análisis se seleccionaron 47 variables, a partir de las cuales se pueden obtener estadísticas (se muestran ejemplos con distintos gráficos): evolución de la pandemia; número de casos por ocupación; número de casos por síntomas; recuperados y defunciones por comorbilidades; riesgo de fallecimiento por edad y comorbilidades. Modelos causales: en las técnicas tradicionales de minería de datos se obtienen asociaciones o correlaciones entre las variables que pueden ser engañosas; para evitar esto e ir más allá, es necesario aprender sobre relaciones causales, lo que se conoce como «descubrimiento causal». Se trata del co-factor (o causa común) que puede haber entre dos variables y que explicaría la correlación encontrada. En general, los humanos pensamos en términos causales (tal cosa causa tal otra), por lo que la ciencia de la causalidad procura entender este mecanismo de razonamiento causal formalmente, para emularlo luego en las computadoras. En los últimos años ha habido importantes avances en este sentido, especialmente en los modelos gráficos causales: representación del conocimiento causal e inferencia causal (poder predecir el efecto de determinadas intervenciones o imaginar escenarios alternativos). Hay tres niveles de causalidad: asociación (regularidad); intervención (predicción de efectos) y contrafactuales (imaginación, introspección). Los modelos estadísticos tradicionales sólo permiten hacer asociaciones, mientras que los modelos causales permiten la intervención y los escenarios contrafactuales. En este sentido, se destacan las redes bayesianas causales, que son modelos gráficos que representan variables causales (arcos) entre variables (nodos) e implican suposiciones más fuertes que las redes bayesianas y permiten hacer razonamientos causales. Para aprender entonces relaciones causales es preciso hacer experimentos; por ejemplo, lo que se ha hecho con las vacunas contra el COVID; pero no siempre es posible hacer estos experimentos. En cambio, es posible obtener modelos causales a partir de datos observacionales, que abundan en muchos dominios. Para ello, se debe incluir una serie de suposiciones (suficiencia causal, por ejemplo), asumir cierto tipo de distribuciones de los datos (modelos lineales gaussianos), tener un gran conocimiento previo de los datos y realizar algunas intervenciones para distinguir entre modelos equivalentes, estadísticamente hablando. Para esto último, se utiliza el cálculo de efectos causales, en el que se interviene una variable y se estima el efecto en otras. Actualmente, se está tratando de encontrar información causal en la Base de Datos Mexicana de COVID-19, de modo que pueda servir para ayudar a los investigadores. Para ello, se aplicaron diversos algoritmos de aprendizaje causal en la BD, se enfocó en la relación de ciertas variables con la mortalidad y se analizaron los datos de las tres principales olas de la pandemia en México para tratar en entender mejor el fenómeno y las diferencias entre las etapas. Se muestran algunos resultados para las ciudades de Yucatán y CDMX. Esta investigación, todavía en curso, demuestra que la BD es un buen ejemplo de lo que puede obtenerse con estas técnicas, que permitirán desarrollar sistemas inteligentes más robustos y explicables, así como generar conocimiento útil para la toma de decisiones. Para el trabajo a futuro, se continuará analizando la BD, se incluirá información sobre la genética del virus y se realizarán nuevos modelos de sujetos y de grupos específicos para poder hacer una mejor transferencia de conocimiento.