Diferencia de diferencias para estimar el impacto de la CICIG en la tasa de homicidios en Guatemala

En este notebook de python, junto a un poco de R, he reproducido un análisis hecho por Crisis Group sobre la CICIG en Guatemala en donde estiman su impacto sobre la tasa de homicidios en el país. El pequeño análisis me llamó la atención por usar un método que estoy aprendiendo llamado “controles sintéticos” y “diferencia de diferencias”. Un control sintético es un contrafactual (es decir, una situación hipotética de lo que hubiera pasado si no se interviene algo) estimado a partir de varios individuos que no recibieron la intervención, pero que no fueron elegidos aleatoriamente para un estudio controlado. Es un método que pretende hacer posible la estimación del impacto de intervenciones en estudios observacionales, es decir en escenarios en donde no hubo un diseño predefinido (es usualmente un análisis retrospectivo), una elección aleatoria (posible sesgo en la asignación de la intervención), ni condiciones de control que aseguren una estimación del impacto de la intervención sin sesgos.

Por ejemplo, la CICIG (una comisión contra la impunidad hecha por la ONU para intervenir Guatemala y combatir la corrupción en el gobierno) fue implementada en Guatemala debido a sus altos índices de corrupción. De modo que hay un sesgo de elección. No es que la ONU haya elegido países al azar para intervenirlos y luego ver el impacto de esa intervención. Así que a partir de eso, es imposible afirmar que la CICIG tiene un impacto medible estadísticamente (se puede estimar su impacto de manera cualitativa y basándonos en hechos concretos como los casos de alto impacto, o usando comparaciones directas de un antes y despues de indicadores de proceso).

Aunque es imposible determinar con certeza algo como esto, con la estadística tenemos la tradición de implementar modelos reduccionistas sostenidos sobre suposiciones y requisitos que casi nunca se cumplen y muy pocos entienden, para aproximar un poco nuestro entendimiento de la realidad y encontrar asociaciones. Aunque no deberíamos tener una fe ciega en la estadística, esta es una herramienta fundamental para tomar decisiones basadas en hechos, y no en creencias personales.

Así que antes de que venga un fachonazi a decir todo tipo de falacias adfachum para desacreditar este análisis, como lo han hecho con todo tipo de análisis y contenidos para desacreditar a la CICIG, aclaro todo esto.  El resultado de este análisis no es estadísticamente significativo y , por supuesto, eso le quita certeza. Sin embargo, hay una relación innegable, que no requiere de saber estadística para notarla. También pasa que se está analizando algo extremadamente complejo, y aunque puede ser que la CICIG tenga algún impacto, hay muchos otros factores que influyen en la tasa de homicidios, desde cambios en la PNC, en el MP, cambios de gobierno, cambios culturales, etc, etc y es muy (muy) difícil determinar ese impacto numéricamente.

Dicho esto, paso a describir el análisis.

El código fuente provehído por CG (Crisis Group) se encuentra aquí. El análisis fue hecho en Stata usando el paquete ebalance, por Hainmueller. Yo lo he querido reproducir usando software libre, ya que no todos pueden adquirir una licencia del infame Stata, además de que es un software bastante feo en cuanto a sintaxis, no es libre y por lo tanto no deberían usarlo para estadística reproducible ;). Yo he utilizado R para usar el paquete ebal, por el mismo autor, que implementa el mismo método. El paquete para stata permite hacer más cosas (a saber, definir que momentos usar para el analisis) que el de R, pero afortunadamente en este caso, se esta usando las mismas capacidades (sólo se usa el primer momento de las covariables). Para manipular los datos, generar gráficas y hacer la regresión para estimar el impacto, he usado Python, porque es mucho más cómodo para mí.  Este método asigna pesos a individuos que no recibieron una intervención de acuerdo a las covariables que se le den con el fin de hacer un contrafactual que sea comparable a los individuos que recibieron la intervención. Como esto no es un estudio controlado y aleatorio, entonces este método intenta compensar el posible sesgo asignando pesos mayores a aquellos individuos que sean más similares a los intervenidos, y pesos menores a los que son diferentes. Es un concepto similar al score matching.

Si ven el código verán que la mayor parte de este es para limpiar y manipular datos. El control sintético que obtuve con R es similar al obtenido con Stata, aunque no es exactamente el mismo. Ya es bien sabido que los optimizadores de Stata y R son distintos y usualmente dan resultados diferentes, en especial si se tiene una muestra muy pequeña como pasa con este caso. De hecho tuve problemas de convergencia y tuve que re-escalar las covariables para darle una ayuda al optimizador de R. Sería genial implementar el método en Python, pero será en otra ocasión.

Para comparar muestro las gráficas generadas en 3 casos: sin usar el entropy balancing, usando los pesos obtenidos con Stata y usando los pesos obtenidos con R.

 

 

Desde 2009, la tasa de homicidios en Guatemala ha ido en descenso. Sería ingenuo y falso asegurar que esto se deba a la CICIG. Sin embargo, usando los controles sintéticos se tiene un argumento más fuerte para sugerir que este cambio podría estar relacionado con la CICIG. Mayor persecución penal a personas corruptas y que procuran impunidad puede tener un efecto en fortalecer la institucionalidad.

El método de entropy balancing sugiere que los países que más se parecen a Guatemala son El Salvador, República Dominicana y Nicaragua.

País Ebalance Weight
COL 0.00
CRI 0.03
DOM 0.24     **
HND 0.03
MEX 0.00
NIC 0.21     *
PAN 0.00
SLV 0.48     ***
VEN 0.00

Estos tres países son los que conforman nuestro contrafactual sintético y sugieren que los homicidios pudieron haber seguido en aumento en los últimos 8 años. Luego CG ha hecho una regresión para estimar el impacto numéricamente usando un modelo lineal de efectos fijos y obtienen que CICIG pudo prevenir 4 658 homicidios entre 2007 y 2014. Yo he obtenido  5 068 (C.I. 95%  Entre 12 285 prevenidos por la CICIG y  2 149 homicidios provocados por la CICIG) con los resultados de R  y python. El intervalo de confianza sugiere que la CICIG pudo haber aumentado los homicidios, como también pudo haber tenido un efecto nulo sobre los homicidios (0) o bien pudo haber prevenido hasta 12 mil homicidios. Lo que esto significa es que no tenemos un resultado con mucha certeza. En el notebook de python también pruebo otro modelo de regresión que me parece más apropiado y sugiere un mayor impacto (7mil homicidios prevenidos) pero sin significancia estadística. También hago un DID totalmente simple basado en restas de medias y allí obtengo hasta  ~11 mil homicidios prevenidos.

Sería ingenuo y sesgado afirmar que estos resultados son absolutamente verdaderos. Personalmente pienso que la CICIG sí tuvo un efecto en fortalecer la institucionalidad de Guatemalapero no me baso sólo en este análisis con grandes limitaciones sino a otros hechos como los casos de alto impacto que desarrolló y hasta el mismo hecho de que el presidente actual, Jimmy Morales con el apoyo de empresarios corruptos que han admitido cometer delitos de financiamiento electoral ilícito y el apoyo de militares y políticos coruptos, ha expulsado a la comisión de manera desesperada y abrupta, claramente  para huir de la justicia él y otros actores con mucho poder en el país.

La ausencia de la CICIG ya no será un escenario contrafactual desde Enero de 2019. Veremos en carne propia si la ausencia de la CICIG, que deja a medias varios casos, tendrá un efecto en la pérdida de vidas humanas por hechos de violencia.