La semana pasada estuve en un seminario sobre el PREP en el IFE. En una de las mesas en las que participé surgió la pregunta: "¿Cómo sabemos si la demora de las casillas rurales en verdad tuvo un impacto significativo en el flujo de datos del PREP?"
En el análisis de estadística descriptiva que hice meses antes era obvio que las casillas urbanas llegaron antes, en promedio, que las rurales... y que este sesgo ayudaba a explicar la ventaja inicial (y decreciente) de Calderón sobre AMLO durante la duración del PREP.
¿Cómo podemos verificar esto estadísticamente, más allá de las gráficas? Comparemos el tiempo promedio de cada tipo de casillas en ingresar al PREP:
. by casilla: summ horasdec (# horas que tardó cada casilla en ingresar al PREP)
----------------------------------------------------------------------
-> casilla_rural = 0 (casillas urbanas)
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
horasdec | 85221 5.115121 2.764698 0 24.87
-> casilla_rural = 1 (casillas rurales)
horasdec | 32066 7.436029 3.501121 0 24.9
Como vemos las casillas urbanas llegaron 7.43 - 5.11 = 2.32 horas antes que las rurales. La varianza de las casillas rurales es mayor, además. ¿Será una diferencia significativa? Podemos hacer un t-test de medias o bien una regresión:
Dep Var: num. de horas que tarda casilla en aparecer en el PREP...
IndepVar: Dummy casilla_rural/urbana
. regress horasdec casilla_rural
Source | SS df MS Number of obs = 117287
-------------+------------------------------ F( 1,117285) =14093.54
Model | 125504.017 1 125504.017 Prob > F = 0.0000
Residual | 1044431.6117285 8.90507397 R-squared = 0.1073
-------------+------------------------------ Adj R-squared = 0.1073
Total | 1169935.62117286 9.97506622 Root MSE = 2.9841
------------------------------------------------------------------------------
horasdec | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
casilla_ru~l | 2.320909 .0195501 118.72 0.000 2.282591 2.359226
_cons | 5.115121 .0102222 500.39 0.000 5.095085 5.135156
------------------------------------------------------------------------------
Como se aprecia, las casillas rurales "nada más" están a 118 errores estándar de distancia de las urbanas... Pero seamos más rigurosos: Veamos si la dummy rural sobrevive al controlar por 32 dummies estatales--a la mejor la heterogeneidad estatal elimina la dicotomía rural/urbano:
. areg horasdec casilla, abs(edo)
Number of obs = 117287
F( 1,117254) =12373.15
Prob > F = 0.0000
R-squared = 0.1945
Adj R-squared = 0.1942
Root MSE = 2.835
------------------------------------------------------------------------------
horasdec | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
casilla_ru~l | 2.228325 .0200327 111.23 0.000 2.189061 2.267589
_cons | 5.140433 .009926 517.88 0.000 5.120978 5.159888
-------------+----------------------------------------------------------------
edo | F(31, 117254) = 409.380 0.000 (32 categories)
El coeficiente de diferencia entre casillas rurales y urbanas baja de 2.3 a 2.2 horas. Pero si esto aún no nos convence, podemos controlar por 300 dummies distritales--quizá la heterogeneidad distrital elimina o absorbe la dicotomía rural/urbano:
. areg horasdec casilla, abs(edodist)
Number of obs = 117287
F( 1,116986) = 4269.59
Prob > F = 0.0000
R-squared = 0.3432
Adj R-squared = 0.3415
Root MSE = 2.5629
------------------------------------------------------------------------------
horasdec | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
casilla_ru~l | 1.373901 .0210263 65.34 0.000 1.33269 1.415112
_cons | 5.37403 .0094366 569.49 0.000 5.355535 5.392526
-------------+----------------------------------------------------------------
edodist | F(299, 116986) = 140.532 0.000 (300 categories)
Como vemos, resulta que aún controlando por heterogeneidad distrital, el factor rural añade 1.37 horas de demora promedio frente a las casillas urbanas. Es decir, al interior de cada distrito, las casillas rurales demoraron 1.37 horas más en ser procesadas que las urbanas. En los tres casos analizados arriba, este impacto es estadísticamente significativo a niveles (muy) inferiores al 1%.
Sobra decir que este no es el análisis más exahustivo posible, pero sí es el análisis más básico y sencillo que podemos hacer con los datos del IFE disponibles a la fecha. Con más datos, podría estimarse un modelo mucho mejor especificado.