Wednesday, November 22, 2006

Casillas rurales vs. urbanas en el PREP

La semana pasada estuve en un seminario sobre el PREP en el IFE.  En una de las mesas en las que participé surgió la pregunta: "¿Cómo sabemos si la demora de las casillas rurales en verdad tuvo un impacto significativo en el flujo de datos del PREP?"

 

En el análisis de estadística descriptiva que hice meses antes era obvio que las casillas urbanas llegaron antes, en promedio, que las rurales... y que este sesgo ayudaba a explicar la ventaja inicial (y decreciente) de Calderón sobre AMLO durante la duración del PREP. 

 

¿Cómo podemos verificar esto estadísticamente, más allá de las gráficas?  Comparemos el tiempo promedio de cada tipo de casillas en ingresar al PREP:

 

. by casilla: summ horasdec  (# horas que tardó cada casilla en ingresar al PREP)

----------------------------------------------------------------------

-> casilla_rural = 0   (casillas urbanas)

    Variable |       Obs        Mean    Std. Dev.       Min        Max

-------------+--------------------------------------------------------

    horasdec |     85221    5.115121    2.764698          0      24.87

-> casilla_rural = 1   (casillas rurales)

    horasdec |     32066    7.436029    3.501121          0       24.9

 

Como vemos las casillas urbanas llegaron 7.43 - 5.11 = 2.32 horas antes que las rurales.   La varianza de las casillas rurales es mayor, además. ¿Será una diferencia significativa? Podemos hacer un t-test de medias o bien una regresión: 

 

Dep Var: num. de horas que tarda casilla en aparecer en el PREP...

IndepVar: Dummy  casilla_rural/urbana  

 

. regress  horasdec casilla_rural  

      Source |       SS       df       MS              Number of obs =  117287

-------------+------------------------------           F(  1,117285) =14093.54

       Model |  125504.017     1  125504.017           Prob > F      =  0.0000

    Residual |   1044431.6117285  8.90507397           R-squared     =  0.1073

-------------+------------------------------           Adj R-squared =  0.1073

       Total |  1169935.62117286  9.97506622           Root MSE      =  2.9841

------------------------------------------------------------------------------

    horasdec |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]

-------------+----------------------------------------------------------------

casilla_ru~l |   2.320909   .0195501   118.72   0.000     2.282591    2.359226

       _cons |   5.115121   .0102222   500.39   0.000     5.095085    5.135156

------------------------------------------------------------------------------

 

 

Como se aprecia, las casillas rurales "nada más" están a 118 errores estándar de distancia de las urbanas...  Pero seamos más rigurosos: Veamos si la dummy rural sobrevive al controlar por 32 dummies estatales--a la mejor la heterogeneidad estatal elimina la dicotomía rural/urbano:

 

. areg horasdec casilla, abs(edo)

                                                       Number of obs =  117287

                                                       F(  1,117254) =12373.15

                                                       Prob > F      =  0.0000

                                                       R-squared     =  0.1945

                                                       Adj R-squared =  0.1942

                                                       Root MSE      =   2.835

 

------------------------------------------------------------------------------

    horasdec |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]

-------------+----------------------------------------------------------------

casilla_ru~l |   2.228325   .0200327   111.23   0.000     2.189061    2.267589

       _cons |   5.140433    .009926   517.88   0.000     5.120978    5.159888

-------------+----------------------------------------------------------------

         edo |     F(31, 117254) =    409.380   0.000          (32 categories)

 

El coeficiente de diferencia entre casillas rurales y urbanas baja de 2.3 a 2.2 horas.   Pero si esto aún no nos convence, podemos controlar por 300 dummies distritales--quizá la heterogeneidad distrital elimina o absorbe la dicotomía rural/urbano:

 

. areg horasdec casilla, abs(edodist)

                                                       Number of obs =  117287

                                                       F(  1,116986) = 4269.59

                                                       Prob > F      =  0.0000

                                                       R-squared     =  0.3432

                                                       Adj R-squared =  0.3415

                                                       Root MSE      =  2.5629

------------------------------------------------------------------------------

    horasdec |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]

-------------+----------------------------------------------------------------

casilla_ru~l |   1.373901   .0210263    65.34   0.000      1.33269    1.415112

       _cons |    5.37403   .0094366   569.49   0.000     5.355535    5.392526

-------------+----------------------------------------------------------------

     edodist |    F(299, 116986) =    140.532   0.000         (300 categories)

 

 

Como vemos, resulta que aún controlando por heterogeneidad distrital, el factor rural añade 1.37 horas de demora promedio frente a las casillas urbanas. Es decir, al interior de cada distrito, las casillas rurales demoraron 1.37 horas más en ser procesadas que las urbanas.  En los tres casos analizados arriba, este impacto es estadísticamente significativo a niveles (muy) inferiores al 1%.

 

Sobra decir que este no es el análisis más exahustivo posible, pero sí es el análisis más básico y sencillo que podemos hacer con los datos del IFE disponibles a la fecha.  Con más datos, podría estimarse un modelo mucho mejor especificado.

No comments: