Monday, August 21, 2006

El error de medición (no muestral) de una elección

En esta elección presidencial la ventaja de FC sobre AMLO es de 1.8 votos por casilla y tiene un error estándar de 0.20--este es el error muestral, por asi decirlo, y nos dice que FC está a casi diez errores estándar de distancia de AMLO: estadísticamente AMLO está lejísimos de su rival.

En su columna de hoy, José Antonio Crespo se refiere a lo que también se conoce como "error de medición" o "error no muestral": una encuesta puede tener una muestra suficiente pero aún así está el error de no respuesta, respuesta  malinterpretada o mal capturada, etc.  Para el caso de una elección escrutada por ciudadanos elegidos al azar lo que preocupa no es el error muestral (130 mil casillas son una muestra igual al universo) sino el error de medición.

Estadísticamente, si el error muestral es mínimo y el margen FC-AMLO es pequeño tenemos que fijarnos en el error de medición que proviene de errores de escrutinio o llenado de actas.  Este error fluctúa entre 1 y 1.5% de las votos de cada casilla (aunque es una medición muy tentativa con datos limitados, ojo).  ¿Es mucho o poco?  Todo depende de cómo está distribuido: si está distribuido de manera aleatoria a lo largo del país, aún si el error de medicion fuese de 5% o 10%, no tendemos mucho problema: todo mundo perdió o ganó un poquito en cada casilla y los errores se cancelan mutuamente.  Pero si el error de medición está sesgado hacia algún lado, tenemos un problema serio.

El TEPJF, a petición de parte, ordenó recontar una muestra muy sesgada de casillas (90% panistas).  Independientemente de lo allí encontrado, de esa muestra sólo podemos inferir el error de medición en cierto tipo de casillas panistas, y no más. Por su parte, la coalición hace cuentas entre alegres con estos errores aduciendo que evidencian irregularidades insoslayables. El problema aquí es que la única forma de saber si este error de medición es alto, bajo o insesgado es comparándolo con una muestra equivalente de casillas perredistas (ie, un grupo de control). Es decir, de un recuento sesgado, como fue el ordenado por el TEPJF, sólo pueden salir inferencias sesgadas.

Algunos juristas  dicen que el TEPJF no extrapolará nada más allá de la evidencia del recuento de casi 12 mil casillas por las mismas razones que no extrapoló los alegatos de AMLO hacia un recuento total--y por tanto no abrirá niguna casilla más... De ser así, un nuevo problema es que en la práctica el TEPJF le estaría dando argumentos al PRD para hacer extrapolaciones sesgadas, que pueden ser falsas, pero sin darle a un observador imparcial elementos para confirmar o desmentir tales extrapolaciones.  Noten que si el PRD lográ anular 4,000 casillas bien seleccionadas (3% del total nacional), la elección se voltearía en favor de AMLO.

Viendo los datos parciales disponibles a la fecha, parece que los errores de medición son tan aleatorios como los errores aritméticos de las actas: pero sin evidencias claras difícilmente el público lo creerá. Curiosamente, las cosas se perfilan hacia que el PAN sea ahora el interesado en un recuento muestral y representativo.  Una vía sencilla de resolver estas dudas sería que el TEPJF recontará una muestra representativa de casillas--como la del conteo rápido del IFE--para verificar si los errores humanos de medición de la elección tuvieron algún sesgo o no.  De no encontrarlo, la coalición difícilmente podría seguir alegando un fraude sistemático en su contra.

Thursday, August 10, 2006

El margen de error de la elección presidencial

Como sabemos, las últimas encuestas presidenciales, las encuestas de salida y los conteos rápidos del 2 de julio nos daban un "empate técnico" porque los intervalos de confianza de cada candidato se traslapaban.  Esto sucede cuando el error estándar de una medición es relativamente alto, como es el caso de muestras menores a 1500 observaciones (tipicas de encuestas), o incluso 7636 observaciones (como las del conteo rápido del IFE).

Un ejercicio interesante es ver a la elección presidencial como una "gran encuesta" levantada sobre una muestra de 130,777 casillas donde 40 millones de ciudadanos decidieron manifestar sus preferencias. Bajo esta perspectiva, usando los cómputos distritales del IFE, tenemos:

·         El pan tuvo 114.7 votos promedio por casilla, con error de 0.20 y un intervalo de confianza al 95% de 114.30 a 115.099.

·         El pbt tuvo 112.8 votos promedio por casilla, con error de 0.19 y un intervalo de confianza de 112.44 a 113.22.

·         El margen PAN-PBT promedio por casilla fue 1.86, con error de 0.31 y un IC de 1.26 a 2.47 votos.

·         Estas diferencias se mantienen significativas incluso al 99% de confianza.

 

. ttest pan=pbt

Paired t test

------------------------------------------------------------------------------
Variable |     Obs        Mean    Std. Err.  
Std. Dev.   [95% Conf. Interval]
---------+--------------------------------------------------------------------
     pan |  130777    114.7012    .2029188    73.38175    114.3035     115.099
     pbt |  130777     112.836    .1997381    72.23151    112.4445    113.2275
---------+--------------------------------------------------------------------
    diff |  130777    1.865267    .3098232    112.0417    1.258019    2.472515
------------------------------------------------------------------------------

. gen marginv = pan - pbt

. ttest marginv ==0

One-sample t test

------------------------------------------------------------------------------
Variable |     Obs        Mean    Std. Err.  
Std. Dev.   [95% Conf. Interval]
---------+--------------------------------------------------------------------
 marginv |  130777    1.865267    .3098232    112.0417    1.258019    2.472515
------------------------------------------------------------------------------
Degrees of freedom: 130776

 

Saturday, August 05, 2006

¿Qué impacto puede tener un recuento parcial de votos?

Durante el cómputo distrital se abrieron y recontaron 2,864 paquetes electorales, produciendo un ajuste en la votación de todos los rubros y una ligera mejoría en el margen entre PAN y PBT (de 0.58 a 0.583%).

El resultado de este recuento no es representativo de tendencias a nivel nacional, pero sí ofrece indicios del tipo de ajustes que pueden darse en un recuento adicional. Sin ser representativas de diferencias a nivel nacional, los paquetes recontados ofrecen evidencia indirecta sobre el ajuste de votos que puede obtenerse al recontar casillas en zonas panistas o perredistas.

Se trató de una muestra sesgada y no representativa de casillas pues fueron factores políticos y las inconsistencias de las actas los que produjeron su apertura y recuento: 62 y 66% de los 2,864 paquetes recontados fueron de estados y distritos panistas, respectivamente, y en ellos FC tuvo un margen de 5.17% sobre AMLO.

Sin embargo, al clasificar los paquetes por la filiación partidista de sus distritos surgen asimetrías significativas. En casillas de distritos perredistas, el ajuste promedio fue de 13.3 votos menos para AMLO, y de 1.9 votos menos en distritos panistas. Por otro lado, en casillas de distritos panistas, el ajuste promedio fue de 4.7 votos menos para FC, y de 5.8 votos menos en distritos perredistas. Esto resultó en que el margen de votos FC-AMLO disminuyó en 2.9 votos promedio en distritos panistas, pero aumentó en 7.5 votos en distritos perredistas.

De nuevo, al no ser una muestra representativa, NO se puede afirmar que estas tendencias se reproducirían en un recuento a nivel nacional. Pero SI se puede decir que dentro de la muestra de casillas recontadas, las casillas “azules” tuvieron un ajuste distinto al de las “amarillas”.

La moraleja es que si se hace un recuento sesgado, el ajuste obtenido también será sesgado. El sesgo puede provenir de recontar casillas de cierta región, urbanidad o filiación política particulares. Un recuento de una muestra aleatoria y representativa de casillas ayudaría a dilucidar tales sesgos y descubrir si hubo erroreres o diferencias sistemáticas durante la elección.

Si el recuento muestral es legalmente injustificable (poco construible, dicen) entonces los resultados de un recuento parcial deben tomarse con cautela. Si se encuentra un ajuste de +/- 2 votos en una muestra sesgada de casillas, no podemos generalizarlo y decir que si abrimos más casillas seguiremos encontrando el mismo ajuste. De hecho, la evidencia de las 2864 casillas apunta a que, dependiendo del tipo de distrito recontado, será el ajuste hallado.

Es muy probable que existan errores de conteo en múltiples casillas. Siempre los ha habido pero es hasta ahora que se ponen bajo la lupa. También es probable que el error sea aleatorio y se cancele entre unas y otras casillas a nivel nacional. Pero puede ocurrir que el error no sea aleatorio y no se cancele mutuamente a nivel regional.

Los resultados de este análsis preliminar están aqui:
http://www.cide.edu/investigadores/aparicio/elecciones/recuento.ppt

Representantes de casilla y voto presidencial

En los últimos días se ha dicho que una evidencia adicional de irregularidades durante la elección es el hecho de que en zonas donde AMLO no tuvo representantes de casilla, sus votos fueron inusualmente bajos.

Hice un análisis preliminar con datos a nivel estatal y distrital y resulta que lo dicho por la Coalición es parcialmente cierto... pero no sólo para AMLO sino también para Felipe Calderón y Roberto Madrazo: El voto de AMLO, FC y RM es menor en zonas donde tuvieron menos representantes de casilla. Y si esto sucedió a los tres principales candidatos deja de ser una anomalía y se vuelve una regularidad empírica.

¿De donde proviene la relación entre representantes de casilla y niveles de voto presidencial?

Resulta que tanto los representantes de casilla como los votos obtenidos por un partido son proxies de un mismo fenómeno: la fuerza electoral de un partido a nivel local. Si un partido tiene presencia importante en un estado o distrito, seguramente tendrá no sólo votos sino también simpatizantes suficientes para fungir como representates de casilla. Y viceversa, si un partido no tiene presencia en un estado o distrito, seguramente tendrá pocos votos y le será aún más difícil conseguir representantes de casilla.

Así, RC y votos son variables endógenas. En estudios empíricos, decimos que dos variables son endógenas cuando una causa a la otra y viceversa, o bien cuando ambas variables están determinadas simultáneamente por un tercer factor. Matemáticamente estaríamos hablando de un sistema de ecuaciones.

También se dijo que donde había pocos RC había más votos nulos de lo normal. De nuevo, usando datos a nivel estatal y distrital vemos que la relación entre RC y porcentaje de votos nulos es, valga la redundancia, nula (estadísticamente indistinguible de cero, decimos). Un muy buen predictor de votos nulos, en cambio, es el porcentaje de casillas rurales en un distrito: el 60% de los votos nulos provienen de casillas rurales. Por qué ocurre esto es una pregunta importante a futuro.

Pueden ver estos resultados aqui:
http://www.cide.edu/investigadores/aparicio/elecciones/repcasillas.ppt