Wednesday, July 19, 2006

Especulaciones sobre PREP y Conteo Distrital

Circulan en internet diversos análisis sobre las supuestas anomalías del PREP y del conteo distrital. Sin hacer un juicio sumario sobre la calidad de estos estudios, la mayoría de ellos han sido usados como argumentos para sustentar la hipótesis del fraude cibernético. Celebro estos análisis que explotan la transparencia (a veces tardía, pero transparencia al fin) y los datos divulgados por el IFE. Lo malo del asunto es que ni los medios ni los ciudadanos comunes saben mucho de estadística y entonces es fácil que unos y otros se vayan con la finta... Otro problema no menor es que aún los expertos pueden ver moros con tranchete si parten de supuestos equivocados. Veamos.

¿Anomalías o sesgo urbano y partidista?
Dos hipótesis sugeridas por muchos pero que casi nadie ha puesto a prueba, o de plano la descartan prima facie, es 1) el sesgo urbano en el flujo de datos del PREP y 2) el sesgo partidista en el conteo distrital.

Los datos planos del PREP, hechos disponibles recientemente por el IFE, incluyen una variable donde distinguen entre casillas rurales y urbanas. El PAN aventajó en zonas urbanas y no tanto en las rurales. Ex-post, tambien sabemos en qué estados o distritos ganó FC y en cuáles AMLO. Con tales datos se pueden hacer fácilmente las siguientes pruebas:
  1. Comparar medias de votos PAN/PRD/PRI en casillas rurales y urbanas
  2. Ritmo y velocidad de captura en PREP en casillas rurales y urbanas
  3. Velocidad de captura en CDA en estados donde gano AMLO vs. FC.
Mi pronostico es que los flujos iniciales del PREP provinieron de casillas urbanas, donde se favoreció a FC. El margen sobre AMLO disminuyó paulatinamente conforme llegaron datos mas típicos del resto del país... pero luego volvió a aumentar un poco al llegar las boletas del noroeste y el tardío pero seguro voto rural pro-PRI. Si la ventaja incial de FC era suficientemente amplia, no tendría por qué haber habido cruce... tal como ocurrió.

En cuanto al conteo distrital, pronostico que los computos avanzaron mas rápido en los distritos o estados pro-AMLO, que en los estados pro-Calderón. Esto no es aleatorio, sino fruto de que los comités distritales donde ganó Calderón sostuvieron mayores debates casilla por casilla que los de su rival--lo cual retardó su captura. Al final, si el PREP y el conteo rápido no mintieron, tenia que haber cruce en favor de FC... tal como ocurrió.

(a ver si tengo tiempo de probar estas hipótesis)

Expertos y supuestos equivocados
De manera más general hay que aclarar otras cosas. Muchos expertos han analizado el flujo de datos del PREP y el CDA como si ambos fueran producto de procesos 1) aleatorios, 2) independientes o 3) muestrales. Los tres supuestos son falsos.

NO ALEATORIEDAD. Es obvio que el flujo de datos depende de factores no aleatorios como el huso horario de los estados y la urbanizacion de los distritos y casillas. Además, la capacidad de escrutinio, cómputo y llenado de actas de los funcionarios de casilla tampoco está distribuida aleatoriamente en nuestro país--por las mismas tristes razones que la escolaridad tampoco es uniforme a lo largo del país. Otras cosas si son mas o menos aleatorias: la tasa de participación, si la casilla abrió y cerró a tiempo, si había cola a las 6pm, o si llovía esa noche.

DEPENDENCIA. No se deben analizar los votos o porcentajes de un candidato de manera independiente al de otros. Existen muy claros sesgos partidistas y de participacion que varían entre regiones, estados y distritos. Esto es evidente cuando se comparan los histogramas de frecuencias de FC y AMLO: cuando el voto de un candidato es más disperso el del otro es más concentrado. Por ejemplo, en algunos estados el voto priísta afectó más al PRD que al PAN y viceversa. Incluso el voto por partidos chicos como NA y ASDC a veces afectó o benefició a PAN y PRD.

NO MUESTRAL. Algunos expertos insisten en que debió haber habido múltiples cruces en el PREP y en el CDA, dada la aleatoriedad del proceso. Pero aún en una eleccion reñida como esta, si las condiciones inciales del flujo de datos favorecían suficientemente a un candidato no tiene por qué haber cruces o bien, dado el caso, sólo un cruce (es decir, más que random walks, hubo path dependence en el flujo de datos). Como explique más arriba es posible que el PREP haya comenzado con tal ventaja para Calderón que esta solo se redujera sin revertirse; por otro lado el CDA favoreció inicialmente a AMLO... hasta que hubo uno y sólo un cruce.

Finalmente, poco se ha dicho del conteo rápido--instrumento muestral que, a diferencia del PREP, en efecto estaba diseñado para pronosticar el resultado. El conteo rápido SI fue una muestra aleatoria y representativa de las casillas y, en efecto, mostró muchos cruces conforme las casillas reportaban sus datos--tal y como era obvio esperar.

El conteo rápido hubiera podido detectar un "vencedor probable" el mismo domingo si el margen de diferencia era mayor a 0.6%. Pero los ciudadanos decidieron dar una ventaja ligeramente menor: 0.58%... que dejó mudo al conteo. De nuevo, algunos verán en este hecho una prueba más de la maquinación fraudulenta. Yo lo que veo es una elección apretadísima como las que ocurren de vez en vez a lo largo del planeta.

1 comment:

David Sánchez said...

Apreciado Javier,

He leído la argumentación donde explicas que la llegada no aleatoria de datos. Es una crítica razonable que todos nos hemos planteado, pero parte del argumento de cruces "águila o sol" se aplica igual a los bloques de votos entre actualizaciones sucesivas. Si tenemos N actualizaciones, y los porcentajes urbanos de voto para Calderón y AMLO fueron P_c y P_a la probabilidad de que n actualizaciones sean favorables a AMLO viene dada por la binomial:

(N n) * P1^(n) * (1-P1)^(N-n)

Donde P1 = P_a/(P_a+P_c), pero de las 27 actualizaciones intermedias que yo calculé 26 favorecieron a Calderón, lo cual es incompatible aún con las diferencias mayores estimadas para voto urbano.

Algunos medios han calificado tu explicación, que de otro lado es verosímil y aclaratoria, como "estudio" cosa que no considero correcta porque:

1) La argumentación ocupa 3 páginas
2) Apunta posibilidades pero no contiene un cálculo de magnitud probatorio
3) No dice nada sobre el argumento de porqué la distribución de votos por casilla pra Madrazo parace ser una distribución de Poisson prácticamente perfecta, pero no sucede así con las de AMLO y calderón (este argumento es indpendiente de la llegada de datos, y está claramente explicado en el estudio de Luis Mochán).

Creo que honestamente tu trabajo es interesante pero demasiado parcial, como para anular los argumentos de dificultades estadísticas de varios tipos en los conteos del PREP y las actas (y por eso me parece exagerada la nota de milenio).

Atentamente,

David Sánchez Molina
Universitat Politècnica de Catalunya
Campus EXTERN - Edif. ADS
08036 BARCELONA, SPAIN
Tel. 93 4137335
david.sanchez-molinaupc.edu