%0 Objeto de conferencia %0 Objeto de conferencia %A Sucar Succar, Enrique %D 2021 %G Español %T Descubrimiento Causal en la Base de Datos Mexicana de COVID-19 %U http://sedici.unlp.edu.ar/handle/10915/136441 %X Las bases de datos (BD) son el «oro» de la investigación científica, por lo que es importante hacerlas accesibles a la comunidad; sin embargo, en algunos campos, como la medicina, es díficil encontrar bases de datos abiertas. No obstante, es posible «pre-procesar» estas BD para hacerlas accesibles y a su vez proteger los datos sensibles. Un buen ejemplo de esto es la Base de Datos Mexicana de COVID-19, resultado de la colaboración de la Secretaría de Salud y la Universidad Nacional Autonóma de México. Cuenta con 6,5 millones de individuos con 97 variables y se actualiza diariamente. Dicha BD está accesible para fines de investigación y presenta información de carácter público recopilada a través de la Dirección General de Epidemiología de la Secretaría de Salud, que es curada y divulgada por la UNAM. LA BD incluye información de pruebas, hospitalización y decesos de 5.186 unidades públicas y privadas distribuidas en los tres niveles del sistema de salud mexicano. El proceso de curación de esta BD consistió, en primer lugar, en la eliminación de toda la información sensible (especialmente datos de identidad de los individuos), por parte de un equipo de expertos de la UNAM. Luego, se realizaron distintas tareas de estandarización de los datos, que facilitaron los procesos de minería de datos y otros que la vuelven accesible con fines de investigación. La BD accesible contiene 97 campos que pueden agruparse en Información general del paciente, Síntomas, Comorbilidades, Diagnóstico y tratamiento y Resultados. Para el análisis se seleccionaron 47 variables, a partir de las cuales se pueden obtener estadísticas (se muestran ejemplos con distintos gráficos): evolución de la pandemia; número de casos por ocupación; número de casos por síntomas; recuperados y defunciones por comorbilidades; riesgo de fallecimiento por edad y comorbilidades. Modelos causales: en las técnicas tradicionales de minería de datos se obtienen asociaciones o correlaciones entre las variables que pueden ser engañosas; para evitar esto e ir más allá, es necesario aprender sobre relaciones causales, lo que se conoce como «descubrimiento causal». Se trata del co-factor (o causa común) que puede haber entre dos variables y que explicaría la correlación encontrada. En general, los humanos pensamos en términos causales (tal cosa causa tal otra), por lo que la ciencia de la causalidad procura entender este mecanismo de razonamiento causal formalmente, para emularlo luego en las computadoras. En los últimos años ha habido importantes avances en este sentido, especialmente en los modelos gráficos causales: representación del conocimiento causal e inferencia causal (poder predecir el efecto de determinadas intervenciones o imaginar escenarios alternativos). Hay tres niveles de causalidad: asociación (regularidad); intervención (predicción de efectos) y contrafactuales (imaginación, introspección). Los modelos estadísticos tradicionales sólo permiten hacer asociaciones, mientras que los modelos causales permiten la intervención y los escenarios contrafactuales. En este sentido, se destacan las redes bayesianas causales, que son modelos gráficos que representan variables causales (arcos) entre variables (nodos) e implican suposiciones más fuertes que las redes bayesianas y permiten hacer razonamientos causales. Para aprender entonces relaciones causales es preciso hacer experimentos; por ejemplo, lo que se ha hecho con las vacunas contra el COVID; pero no siempre es posible hacer estos experimentos. En cambio, es posible obtener modelos causales a partir de datos observacionales, que abundan en muchos dominios. Para ello, se debe incluir una serie de suposiciones (suficiencia causal, por ejemplo), asumir cierto tipo de distribuciones de los datos (modelos lineales gaussianos), tener un gran conocimiento previo de los datos y realizar algunas intervenciones para distinguir entre modelos equivalentes, estadísticamente hablando. Para esto último, se utiliza el cálculo de efectos causales, en el que se interviene una variable y se estima el efecto en otras. Actualmente, se está tratando de encontrar información causal en la Base de Datos Mexicana de COVID-19, de modo que pueda servir para ayudar a los investigadores. Para ello, se aplicaron diversos algoritmos de aprendizaje causal en la BD, se enfocó en la relación de ciertas variables con la mortalidad y se analizaron los datos de las tres principales olas de la pandemia en México para tratar en entender mejor el fenómeno y las diferencias entre las etapas. Se muestran algunos resultados para las ciudades de Yucatán y CDMX. Esta investigación, todavía en curso, demuestra que la BD es un buen ejemplo de lo que puede obtenerse con estas técnicas, que permitirán desarrollar sistemas inteligentes más robustos y explicables, así como generar conocimiento útil para la toma de decisiones. Para el trabajo a futuro, se continuará analizando la BD, se incluirá información sobre la genética del virus y se realizarán nuevos modelos de sujetos y de grupos específicos para poder hacer una mejor transferencia de conocimiento.