predicciÓn de las elecciones del 26j - seio.es · sin embargo, pensamos que esto resultaría un...
TRANSCRIPT
PREDICCIÓN DE LAS ELECCIONES DEL 26J
Junio 2016
Alicia Agulló Pérez
Vicente Coves Beneyto
David Ortiz Sempere
Tingting Zhou Chen
Tutor: Ángel Barrajón Belén
Centro: Laude Newton College
I Certamen del Mediterráneo “Incubadora de sondeos y experimentos”
Categoría: Bachillerato y Ciclos Formativos
Índice
1. Resumen …………………………………………………………...…..…… pág. 2
2. Objetivo ……………………………………………………………....…..… pág. 2
3. Recogida de datos ………………………………………………………..… pág. 2
4. Descripción y análisis de datos ………………………………………..…… pág. 2
5. Resultados obtenidos ………………………………………………….…… pág. 6
6. Conclusión …………………………………………………………………. pág. 13
7. Posibles mejoras y extensiones del estudio ……………………….…….. pág. 14
8. Bibliografía ………………………………………………………………… pág. 15
9. Anexo ………………………………………………………………..…….. pág. 16
1
1. Resumen
El siguiente trabajo describe el proceso que se ha llevado a cabo con el fin de predecir los
resultados de las elecciones generales del próximo 26 de junio de 2016: el diseño de la
encuesta, la recogida de datos, la selección de métodos estadísticos, el análisis de los
resultados y las comparativas con estudios similares, las conclusiones que se han extraído,
las dificultades con las que nos hemos encontrado y las posibles mejoras y extensiones del
trabajo. Este tema surgió a raíz de la situación política del momento, y la proximidad de las
elecciones venideras, que nos inspiró a realizar una investigación acerca de la intención de
voto de los habitantes alicantinos.
2. Objetivo
Nuestro objetivo en esta investigación es predecir los resultados electorales de las próximas
elecciones generales del 26 de junio de 2016, es decir, los escaños que ganará cada partido
político. Hemos decidido que intentaremos predecir tanto el resultado a nivel provincial,
como nacional. Para ello, decidimos hacer encuestas, a población al azar de la provincia de
Alicante, que cubrieran todos los aspectos que pudieran ayudarnos a realizar predicciones
relacionadas con estas elecciones. Teniendo en cuenta la edad y el número de encuestados,
extrapolamos la información al resto de España.
3. Recogida de datos
Con el fin de cumplir nuestro objetivo, primero discutimos qué preguntas deberíamos incluir
en la encuesta para conseguir los datos necesarios, dónde y cómo las haríamos, y a quién
preguntaríamos. Además, habríamos decidido comparar nuestros resultados con sondeos
similares para evaluar la fiabilidad de nuestras estimaciones, y también utilizar otros datos
estadísticos demográficos para el procesamiento de los resultados.
4. Descripción y análisis de datos
4.1. Diseño de la encuesta
Para que la muestra fuese lo más representativa posible, decidimos hacer un muestreo
estratificado, es decir, dividir la población según diversos factores y mantener esa
proporción en la recogida de datos. Por ejemplo, si x% de la población que tiene derecho a
votar tiene entre 28 y 32 años, x% de los encuestados tienen que estar en ese rango de
2
edad. Sin embargo, pensamos que esto resultaría un tanto complicado porque sería difícil
adivinar la edad de la gente encuestada o sus ingresos mensuales, por lo que decidimos
preguntar esas variables en la encuesta, y después tratar los datos sobre el partido político
al que votarán para que la proporción fuera la correcta. En nuestro caso elegimos la edad, el
sexo y los ingresos mensuales, ya que pensamos que serían factores que podrían influir en el
voto. No obstante, al final no estratificamos todos los datos según las tres variables que
elegimos, ya que hubiera sido demasiada información, además de que observamos ciertas
dificultades para su clasificación en algunos casos. Además, sabiendo el partido al que
votaron en diciembre de 2015 y los resultados reales de estas elecciones pasadas,
calculamos el error que cometimos en la extrapolación de los resultados de diciembre de
2015, y así pronosticar el error existente en la predicción de las próximas elecciones. La
encuesta constaba de preguntas con múltiples opciones para agilizar el proceso.
4.2. Diseño del experimento
4.2.1 ¿Dónde preguntar y a quién?
En cuanto al lugar en el que repartimos las encuestas, pensamos que los centros de las
ciudades y los centros comerciales serían buenos lugares, ya que pasa mucha gente y de
distintos perfiles. Además, no elegimos a los encuestados sino que preguntamos a todos los
que pasasen con el fin de que fueran seleccionados al azar, sin que se manipularan los
resultados. Sin embargo, no fue posible tomar datos de todos los transeúntes porque
muchos no estaban dispuestos a rellenar la encuesta, lo que dificultó la recogida de datos.
No obstante, para conseguir la confianza del encuestado, informábamos antes de nada de
que se trataba de un trabajo para el colegio. Para no hacerle sentir que se estaba violando
su intimidad, siempre dejábamos un espacio y luego introducíamos la encuesta rellenada en
una carpeta, intercalándola de manera aleatoria con el resto de encuestas, por lo que se
mezclaría con ellas. Además, las encuestas eran totalmente anónimas, ya que no se pedía
ningún dato identificador del individuo.
4.2.2. ¿Qué cantidad de encuestados?
En un principio, no limitamos el número de encuestas que desearíamos obtener; cuantas
más encuestas pudiéramos hacer en el periodo de tiempo del que disponíamosmejor para
3
minimizar el error. No obstante, para poder obtener unas predicciones lo más precisas
posible, pensamos que se debía sobrepasar las 385 encuestas. Y, ¿por qué este número?
Calculamos, antes de comenzar a obtener resultados de las encuestas, cuál sería el número
mínimo que debíamos conseguir para garantizar un error aceptable (el 5%), basándonos en
una distribución normal, de la siguiente manera:
n = d 2Z p qα 2 * *
n = tamaño muestral necesario
Za 2 = 1,962, para un nivel de confianza del 95%
p = 0’5, ya que desconocemos la proporción esperada y asignándole esta cifra nos permite
conocer el error máximo que cometeremos
q = 0’5 = 1 – p
d2 = 0’05, error aceptado
84, 6 85 encuestas 0,0521,96 0,5 0,52 * * = 3 1 ≃3
Sin embargo, a la hora de recoger encuestas, pudimos conseguir 426, a pesar de que nos
costase mucho tiempo. Aumentando el tamaño de la muestra, logramos disminuir el posible
error de la estimación:
, 475 , 5% d =√ nZ p qα 2 * * =√ 426
1,96 0,5 0,52 * * = 0 0 = 4 7
4.3. Las dificultades en la recogida de datos
Lo cierto es que, aunque en un principio parecía la parte más sencilla de nuestro trabajo, al
final no fue así. Para empezar, el hecho de que una gran proporción de la gente no quisiera
rellenar nuestra encuesta supuso un gasto de tiempo adicional.
Otro gran factor que dificultó nuestra investigación fue el hecho de que nos encontrábamos
ante unos partidos con cambios continuos e impredecibles. Así fue la coalición de Podemos
e Izquierda Unida, en Unidos Podemos, que se realizó a mitad de nuestra investigación (el
4
13 de mayo de 2016). Tampoco supuso un problema mayor, pero sí nos obligó a realizar
ciertos cambios en nuestra encuesta, creando cierta confusión en aquellos individuos que
no se habían informado aún de estos nuevos cambios en la política del país.
A la hora de hacer las encuestas nos dimos cuenta de que cerca de un tercio de los
encuestados no tenían claro a qué partido votarán o si votarán siquiera en las elecciones del
26J. Esto hace que la información proporcionada no sea del todo fiable, pues, además,
cuando realizamos las encuestas todavía faltaba unmes para las elecciones; en este tiempo
el votante (sobre todo aquel que dudaba sobre su voto y los que tenían en mente varios
partidos pero solo podían elegir uno en la encuesta) puede cambiar de idea, lo cual
aumenta la imprecisión de nuestras predicciones.
Otra dificultad que tuvimos fue que en el momento en que hicimos las primeras encuestas,
Podemos todavía no se había unido con Izquierda Unida. Sin embargo, también realizamos
encuestas después de la unión de Podemos con Izquierda Unida. Por tanto, sin quererlo,
estamos generando resultados sesgados, ya que asumimos que todos los que votaron a
Podemos en la primera encuesta también votarían Unidos Podemos, lo cual no tiene por
qué ser cierto; puede haber simpatizantes de Podemos que por motivos cualesquiera no
comparten la ideología de Izquierda Unida.
Además, no fue posible estratificar la muestra según los ingresos de la gente, no porque la
gente renunciase a responder a esa sección encuesta, pues lo cierto es que pudimos recoger
esos datos, sino porque a la hora de buscar datos estadísticos sobre la distribución de la
población según el nivel de ingresos, no encontramos datos recientes y actualizados.
Además, los que encontramos dividían los rangos de ingresos por hogar, y en la encuesta
pedimos los ingresos individuales, por lo que podríamos cometer muchos errores al
estratificar, ya que en un hogar podría haber más de un individuo que aportase ingresos.
Asimismo, en la pregunta de nuestra encuesta sobre los ingresos individuales, pusimos la
opción de “dependiente” para el caso de la población inactiva, como estudiantes, por lo que
no sabíamos sus ingresos familiares o los ingresos de las personas de las que dependen.
5
4.4. Fuentes secundarias y el uso que les hemos dado
Cuando hubimos recopilado y ordenado todos los datos obtenidos, utilizando los
formularios de Google para su clasificación y posterior plasmación en un documento Excel,
ya era el momento de analizar los datos. Este análisis será mostrado en las próximas
páginas. Para poder llevarlo a cabo, fue necesaria una profunda investigación, dónde
debíamos aprender cómo realizar distintas operaciones estadísticas para nuestra predicción,
y además informarnos y luego mostrar los resultados obtenidos para distintos aspectos de
nuestra investigación por entidades profesionales tales como la empresa “Electrograph”,
con el fin de realizar una comparativa con nuestros resultados. También utilizamos otras
fuentes, como el Instituto Nacional de Estadística, para obtener los datos demográficos
necesarios para poder realizar las correspondientes predicciones, y con ello, las
estratificaciones.
5. Descripción y análisis de datos
5.1. Procesamiento de los datos brutos
Cuando ya hubimos obtenido todos los datos, los clasificamos de forma ordenada, para
posteriormente poder procesarlos y utilizarlos de diferentes formas. Es en este momento
cuando decidimos que no utilizaríamos ni los ingresos ni el género, debido a que haciendo
uso solo de los datos de edad y partido al que votaron y votarán, la comparativa que
realizaríamos sería muy interesante y completa.
Utilizamos las edades para estratificar en este factor los diferentes votos (tanto de las
elecciones generales del 20D como las del 26J), y luego poder predecir cuántos escaños de
cada partido habrá tras las próximas elecciones, y observar cuántos nos saldría que hubo en
las últimas.
5.1.1. La estratificación en edades
La estratificación en edades nos permitiría mejorar la calidad de nuestros resultados ya que,
si no, estaríamos condicionando los resultados a un determinado rango de votantes de
determinada edad, y no obtendríamos resultados acorde con las distribución de la
población por edades real, dando lugar a resultados imprecisos y probablemente equívocos
(quizá un grupo de edadmayor no vote al mismo partido que aquel de un grupomás joven).
Estratificando, extrapolamos los datos obtenidos de manera justa, prediciendo el número
6
de votos (a partir del número de votos realmente obtenidos) que cada rango de edad habrá
realizado a cada partido, en la provincia de Alicante y a nivel nacional.
Expliquemos pues como hemos realizado nuestra estratificación. En primer lugar, decidimos
extrapolar los votos de las próximas elecciones a la provincia de Alicante, que es de donde
provienen los individuos que rellenaron nuestras encuestas, y estos fueron nuestros
resultados:
PSOE PP C's PodemosIU Voto en blanco PACMA
1819 3,32 2,95 0,37 2,22 0 0
2024 2,52 8,81 3,77 7,55 0 0
2529 2,42 9,69 0,81 7,27 4,85 1,62
3034 5,03 2,52 7,55 2,52 10,07 0
3539 1,08 11,84 9,68 6,46 6,46 0
4044 5,1 11,89 8,49 8,49 1,7 1,7
4549 8,35 11,14 8,35 8,35 0 0
5054 6,48 21,58 2,16 2,16 2,16 0
5559 6,18 12,35 6,18 3,09 3,09 0
6064 12,91 4,3 4,3 4,3 0 0
6569 5,8 5,8 1,93 9,66 0 0
70< 10,35 20,7 10,35 20,7 0 0
69,54 123,57 63,94 82,77 28,33 3,32
Para la obtención de los datos estratificados, realizamos esta serie de pasos:
1. En primer lugar, investigamos acerca del número de habitantes residentes en
nuestra provincia, de los distintos rangos de edad. En la página web del Instituto
Nacional de Estadística encontramos estos datos bien precisados, actualizados en el
2016. En el caso de la extrapolación de votos de las elecciones de diciembre de 2015,
evidentemente empleamos los datos del censo electoral de ese año.
7
2. A continuación, obtuvimos el porcentaje de cada rango correspondiente al número
de habitantes que nos indicaba el censo en la provincia de Alicante. Entonces,
sacamos el porcentaje de encuestados que teníamos de cada rango de edad,
respecto al total (sin tener en cuenta aquellos que se abstendrían a votar ya que
estos no influirían en la distribución de escaños).
3. A continuación, mediante una regla de tres, conseguimos el número de votos
estratificados de cada partido en cada rango: multiplicamos los votos obtenidos de
cada partido y rango de edad por el porcentaje real de la población que representa
ese rango de edad, y lo dividíamos después entre el porcentaje que representaba en
el total de nuestros datos recogidos.
4. Finalmente, sumamos el número de votos de cada partido de todos los rango de
edad.
Pongamos un ejemplo:
1. En la provincia de Alicante, el número de electores entre 18 y 19 años en el 2016 es
29.253 (información obtenida de la web del INE).
2. El porcentaje de electores en este rango de edad, respecto al total de la provincia, es
(29.253/1.220.231)*100 = 2,40%.
El porcentaje de encuestados en este rango de edad, respecto al total de los
encuestados (sin incluir las abstenciones), es (24/369)*100 = 6,50%.
3. Si hemos encuestado a 6 votantes que votarán a Unidos Podemos del rango de edad
de 18 a 19 años, de un porcentaje de votantes encuestados de este rango del 6,50%,
¿cuántos votantes habría de un porcentaje del 2,40%?
, 0 , 0 , 2 votantes6 * 2 4 = 6 5 * v⇒ v = 2 2
Más tarde, obtuvimos también los votos estratificados a nivel nacional de estas elecciones, y
también calculamos los votos estratificados de las elecciones del 20D, tanto de los votos a
nivel nacional como provincial.
Durante la estratificación, nos encontramos ante una serie de dificultades que será preciso
destacar. Es el caso del número grande de datos, debido a una división en rangos
8
relativamente pequeños, y un número de partidos elevado. Ello hizo que la tarea de cálculo
se nos dificultara, ya que requería de mucho tiempo, además de una constante revisión de
los datos que íbamos obteniendo, ya que hubiera sido fácil cometer un error de cálculo.
Además, también nos gustaría hacer énfasis en el hecho de que tanto cálculo significaba un
constante arrastre de error, por culpa del redondeo. No obstante, los resultados tampoco
variarían excesivamente, sino solo en un número de decimales.
A pesar de que hemos usado las herramientas correctas para el cálculo de escaños, es
probable que los resultados reales difieran de nuestras estimaciones, ya que los votos a
escala nacional se han estratificado teniendo en cuenta tan solo la provincia de Alicante. Por
tanto, al calcular los escaños en base a los votos estimados estamos suponiendo que el
resto de provincias tenga preferencias políticas similares a la alicantina, lo cual no es cierto,
pues por motivos culturales, sociales y económicos, en cada provincia la gente tendrá
distintos motivos para votar a partidos diferentes.
5.1.2. La obtención de los escaños
Ya conseguidos los votos estratificados, llegó la hora de calcular los escaños. Este era
nuestro principal objetivo, ya que es principalmente con estos escaños con lo que
realizaríamos posteriormente las comparativas con otros resultados ya obtenidos o
predichos por entidades de prestigio.
Para la asignación de los escaños, seguimos el sistema d’Hondt, que es el utilizado por
España y otros muchos países. Este consiste en el cálculo de cocientes sucesivos, para cada
una de las listas electorales. Por lo tanto, la fórmula sería la siguiente, siendo V el número
total de votos de cada partido, ys el número de escaños que cada lista se ha llevado hasta el
momento, siendo siempre 0 inicialmente para cada una.
1
Para asignar los escaños, se ordenan los cocientes de mayor a menor. A continuación, se
asignan en orden, hasta que se acaben.
1 https://es.wikipedia.org/wiki/Sistema_d%27Hondt
9
Aquí tenemos nuestra tabla, utilizada para la asignación de escaños para las elecciones
generales del 26J en Alicante. Tenemos en cuenta que son 12 los escaños a repartir.
/1 /2 /3 /4 /5 Escaños
PP 124 62 41,33 31 24,8 5(4+1)
PSOE 70 35 23,33 17,5 13,2 2
C's 64 32 21,33 16 12,8 2
Unidos Podemos 83 41,5 27,67 20,75 16,6 3
Voto en blanco 28 14 9,33 7 5,6 (1)
PACMA 3 1,5 1 0,75 0,6
Observamos que, en el caso de que la lista del voto en blanco tenga un cociente al que le
pertenezca un escaño, este es asignado al partido mayoritario, en este caso el Partido
Popular.
También calculamos los escaños a nivel nacional, lo que causó una serie de dificultades. En
primer lugar, el mero cálculo incluía 350 escaños que debíamos asignar. Este número
resultaba imposible de calcular a mano, por lo que decidimos buscar un programa fiable que
pudiera hacerlo por nosotros. Es el caso de la calculadora online situada en el siguiente
enlace: http://www.calculoescanos.com/ Así, obtuvimos los siguiente resultados de las
predicciones de las elecciones venideras:
Partido PP PSOE C’s Unidos Podemos
Escaños 126 72 66 86
También calculamos los escaños en base a nuestras encuestas para las elecciones del 20D,
tanto a nivel nacional como provincial, para después observar el error cometido en nuestras
encuestas.
10
5.2. Comparativa y análisis de las predicciones realizadas
Con los resultados ya tratados, mejorando así su calidad, ahora podemos realizar las
predicciones, mostrándolas de manera visual y comparándolas con otras predicciones y
resultados obtenidos por diferentes entidades profesionales.
En primer lugar, analicemos los resultados obtenidos acerca de a qué partido votaron los
encuestados en las elecciones del 20D, para así poder predecir el error que posiblemente
hayamos cometido con las predicciones de los votos para las elecciones del 26J. En las
siguientes gráficas, observamos la comparativa entre los resultados, estratificados, que
nosotros conseguimos, y los resultados que salieron realmente (en escaños).
11
Aquí se observa una alta relación entre los datos que nosotros extrajimos y tratamos, y
aquellos reales. En la gráfica, relacionada con la provincia de Alicante, los escaños son casi
iguales en ambos casos, habiendo solo un error, correspondiente a un escaño de más en
Ciudadanos, y uno de menos en Podemos.
No obstante, sí que se observa un mayor error en la segunda gráfica, dónde se extrapola a
nivel nacional. Esto se debe a las dificultades mencionadas anteriormente, dónde hemos
dicho que no podemos usar los datos recogidos en la provincia de Alicante como datos a
nivel nacional, ya que no todos los habitantes de diferentes provincias votarán a los mismos
partidos, y además, el error (calculado al comienzo) aumenta a más del 5%.
Aun así, los partidos con una mayor cantidad de votos sí tuvieron resultados muy parecidos
a los que nosotros hemos conseguido, por lo que tampoco hubo un error excesivo.
Por lo tanto, lo cierto es que, al ser los resultados ya obtenidos bastante fiables, los que
hemos predicho para siguientes els elecciones es probable que también lo sean. No
obstante, hemos decidido recurrir a fuentes secundarias fiables para comparar nuestros
resultados. Estas fuentes han sido el CIS y SigmaDos, y nuestros resultados junto a las
comparativas son los siguientes:
12
Aquí podemos observar que nuestras predicciones para la provincia de Alicante son muy
próximas a las realizadas por ambas entidades externas, habiendo errado solo en el escaño
de más asignado al PP, habiendo uno de menos en el PSOE.
En el caso de la comparativa con nuestros datos extrapolados, lo cierto es que también se
aproximan bastante a las predicciones de SigmaDos y el CIS. No obstante, no hemos
obtenido ningún escaño de otras fuerzas políticas debido a que solo encuestamos a gente
de nuestra provincia, de los cuales todos votarían a los grandes partidos, exceptuando a una
minoría, que correspondía amenos del 5% de la población (mínimo de votos establecido por
el sistema d’Hondt para que a un partido se le pueda asignar escaños). También
encontramos otra incoherencia con respecto al resultado de Ciudadanos, probablemente
debido a que la extrapolación era compleja.
6. Conclusión
Los resultados obtenidos son bastante fiables ya que se acercanmucho a las predicciones de
las grandes entidades, y el error de nuestros datos con respecto a los resultados de las
pasadas elecciones es bastante bajo, por lo que podemos deducir que en las próximas, el
error será similar. Por lo tanto, nuestra predicción para las siguientes elecciones generales
13
de Alicante es que el Partido Popular recibirá más escaños. En el caso de la predicción de
España, no lo tenemos muy claro, porque a pesar de que los resultados se asemejanmucho
a los obtenidos en la provincia de Alicante, para la predicción de los votos a escala nacional
hemos utilizado tan solo información de una provincia (Alicante).
7. Posibles mejoras y extensiones del estudio
Con el fin de obtener resultados más fiables y precisos, proponemos las siguientes mejoras:
podríamos realizar más encuestas para minimizar el error, ya que la muestra será más
representativa. Además, si hiciésemos más encuestas significaría que sería más probable
que diésemos con alguien que votará a un partido minoritario, como Unión, Progreso y
Democracia, y como la mayoría de los encuestados votaban a los principales partidos
políticos, en los resultados apenas nos aparecían los minoritarios, y la gran mayoría ni
siquiera aparecía. También podríamos haber hecho las encuestas más tarde, ya quemucha
gente puede cambiar de opinión sobre el partido al que votará en los últimos días, o aún no
ha decido a quién votará, que es el caso de muchos encuestados, ya que se les veía
indecisos a veces. Otra sugerencia sería hacer encuestas por todas las provincias de España
en caso de que quisiésemos extrapolar a España demanera correcta, ya que en realidad, los
escaños a nivel nacional se calculan sumando los escaños de cada provincia, y no a partir de
los votos a escala nacional. Esto modificaría y haría más precisos los datos, ya que si un
partido tiene bastantes votos pero están distribuidos por todo el país, no acumulará muchos
escaños. En cambio, si otro partido tiene la misma cantidad de votos pero concentrados
unas pocas provincias, obtendrá muchos más escaños.
14
8. Bibliografía
❖ del Blas Giral, Nacho. Working in Epidemiology. (2006)
http://www.winepi.net/f102.php
❖ Electrograph. ESPAÑA, Mayo 2016. Sondeo CIS. (9/06/2016)
http://www.electograph.com/2016/06/espanamayo2016sondeocis.html
❖ Electrograph. ESPAÑA, Mayo 2016. Sondeo SigmaDos. (4/06/2016)
http://www.electograph.com/2016/06/espanamayo2016sondeosigmados.html
❖ Electrograph. 10 PROVINCIAS (Generales), Marzo 2016. Sondeo Metroscopia.
(20/03/2016)
http://www.electograph.com/2016/03/10provinciasgeneralesmarzo 2016.html
❖ El País. Elecciones Generales 2015: Alicante.
http://resultados.elpais.com/elecciones/2015/generales/congreso/17/03.html
❖ Gómez Rubio, Virgilio. Una de Encuestas Electorales. (1/12/15)
http://www.uclm.es/profesorado/vgomez/posts/elecciones/rstats/2015/12/01/enc
uestaselectorales/
❖ Instituto Nacional de Estadística. Censo electoral: elecciones a Cortes Generales del
26 de junio de 2016. (2016)
http://www.ine.es/ss/Satellite?L=es_ES&c=Page&cid=1259948772141
&p=1259948772141&pagename=CensoElectoral%2FINELayout
❖ Pita Fernández, S. Determinación del tamaño muestral. (1/12/10)
https://www.fisterra.com/mbe/investiga/9muestras/9muestras2.asp
15