Datos epidemiológicos de Guatemala

Esta entrada fue publicada originalmente en steemit

El ministerio de salud de Guatemala es un desastre. Eso incluye su manejo de datos. Hay algo llamado Epivigila que es algo como un resumen de las notificaciones de enfermedades vigiladas por el ministerio de salud. Por accidente me topé con el directorio de los archivos descargables del sitio web del ministerio y entre estos encontré una serie de actualizaciones para el Epivigila. Me pareció muy raro que estas actualizaciones estuvieran en formato .exe. Tras googlear encontré este archivo que describe la instalación de esas actualizaciones. Al descargarlos, si se tiene el winrar, puede verse que se trata de archivos comprimidos. Al intentar descomprimir uno de estos archivos me pidió contraseña, lo que se me hace muy raro. Tras ver el documento antes mencionado hallé la contraseña y pude descomprimirlos. Encontré archivos de Microsoft Access. Partiendo de allí, se trata de archivos que sólo pueden ser ejecutados en sistemas microsoft que requieren licencias de pago para ser usados. Luego me di cuenta que cada una de estas actualizaciones semanales contiene los datos desde el año 2001. Esto es una gran tontería dado que cada semana se sube al sitio del MSPAS los mismos datos desde el 2001 hasta la semana anterior, más unos cuantos datos de la semana que acaba de pasar. Cada actualización contiene 3 archivos de Access:

  • DataConfig.mdb, que contiene varias tablas que parecen ser de Dimensiones (ver el esquema de estrella para data warehousing).
  • DataPob.mdb, contiene proyecciones de población en distintos rangos de edad. Esto ha de ser para calcular las tasas de incidencia.
  • Datavigila.mdb, contiene algunas tablas extrañas que parecen ser de Dimensiones, también. Además contiene una tabla llamada “C2” que parece contener los conteos de casos para cada enfermedad vigilada, para cada rango de edad en cada sitio (centro de salud, hospital u otros) para cada semana y por hombres y mujeres.

En resumen:

  • Los datos son manejados de manera redundante de modo que cada semana se vuelve a subir los mismos datos desde el 2001 más los nuevos datos. Ojo que no es redundancia por seguridad o para evitar pérdida de datos, si no por llana estupidez.
  • Los datos están en un formato cerrado (MS Access) y privativo que requiere de software de pago para ser utilizados.
  • Los datos crudos no están documentados. Dependen de una interfaz gráfica desarrollada, seguramente en MSAccess, que requiere de un sistema operativo privativo de pago de Microsoft. Nada está documentado. Lo único que se tiene es un manual for dummies sin mayores detalles técnicos esenciales para utilizar apropiadamente los datos fuera de su sistema en Access.

En resumen: un desastre desvergonzado que raya en la deshonestidad. Estos datos son importantes para el país, y se les tiene en malísimas condiciones. Me pregunto por qué razón el MSPAS no contrata un ingeniero en sistemas que sepa algo de software moderno que pueda hacer que su sistema importe CSV’s. Aún si quieren conservar su sistema basado en Access podrían manejar un formato tan sencillo y de uso general como un CSV. En lugar de subir los mismos datos una y otra vez, cada actualización semanal podría contener sólo los datos de esa semana y no todo desde el 2001, e importarlos sería algo realmente sencillo de hacer con visual basic en MS Access. Es todo esto un misterio y es muestra de la ubicua corrupción en el gobierno guatemalteco que queda delatada incluso en sus sistemas informáticos. Nada de lo que propongo en este párrafo es una genialidad que no se le puede ocurrir a cualquier otro informático. Son soluciones más que obvias. En lo único que han acertado, afortunadamente, es en tener los archivos disponibles en línea, cosa que incluso parece no intencional ya que si le ponen contraseña a sus archivos quizás hasta pretendan que estos datos no puedan ser consultados por personas externas a su institución.

En fin, tras exportar varias de estas tablas extrañas a CSVs, por fin pude explorar estos datos:

image.png

Explorando los casos de malaria, aquí agrupo por cada municipio de Guatemala y por cada año:

image.png

Es curioso que el SIDA haya dejado de monitorearse desde el 2007.

image.png

Por otro lado, el Zika, tuvo su máximo en el 2016:

image.png

Ya con esto pueden generarse muchos análisis y visualizaciones muy interesantes fuera del infame MS Access (infame por ser software privativo, ya que ese software es bastante poderoso), como en R o Python, por ejemplo. Lo peor de todo esto es la inaccesibilidad de los datos tanto en el formato en que se presentan como también en la falta de documentación técnica. Uno esperaría que el ministerio de salud del gobierno de Guatemala tuviera una mejor manera de mantener estos datos, pero está claro que no les interesa.

He subido los CSVs de las tablas que me han parecido relevantes a la bodegona por si alguien quiere utilizar estos datos. Logré obtener hasta la última semana del 2017. Los archivos del 2018 parecen tener otra contraseña y por lo tanto no son usables (aún).

 

También he generado el siguiente mapa con estos datos: