fiabilidad de los datos de migraciones en el censo de 2011 ...€¦ · economía cuantitativa y c...
Post on 13-Jul-2020
0 Views
Preview:
TRANSCRIPT
1
Fiabilidad de los datos de migraciones en el Censo de 2011 y su explotación para el estudio de la movilidad regional del
capital humano Autores: Manuel César Vilaa (manuel.cesar@rai.usc.es), Xesús Pereira Lópeza b y Rosa María Verdugo Matésc a Instituto Universitario de Estudos e Desenvolvemento de Galicia, b Departamento de Economía Cuantitativa y c Departamento de Economía Aplicada Universidade de Santiago de Compostela
Área Temática: Población y movimientos migratorios
Resumen:
En este trabajo se analiza la fiabilidad de los datos sobre flujos migratorios –proporcionados por el último censo de población elaborado por el INE. Primeramente, se estudian los datos globales sin diferenciar ninguna característica de los migrantes, para a continuación centrarse en los flujos migratorios por grados de estudio.
Los censos y la EPA constituyen las únicas fuentes de información de las migraciones en función de características personales. Tanto la Estadística de Migraciones como la Estadística de Variaciones Residenciales, a pesar de ser las bases de datos oficiales sobre la materia, no facilitan información sobre el nivel formativo de los migrantes, de tal modo que es necesaria la utilización de otras fuentes. Sin embargo, estas presentan problemas de coherencia y de falta de respuesta sobre los flujos migratorios. A partir de los stocks poblacionales de los censos de 2001 y 2011, y del movimiento natural del período, es posible calcular saldos migratorios superiores a los ofrecidos por el propio censo de 2011 para los mismos años. Además, se constata que estos saldos resultan congruentes con los resultados de las Encuestas sobre Variaciones Residenciales y Migraciones.
Con todo, la información sobre las características personales de los migrantes facilitada por los censos resulta imprescindible para el estudio de la movilidad del capital humano y pese a las diferencias absolutas encontradas, conviene testar si la estructura de los flujos para cada grado de formación está sesgada debido al método de imputación utilizado, no reflejando la verdadera distribución de esta variable. Para ello, se hace preciso comparar esta estructura con la información de otras fuentes y comprobar la desigualdad entre ellas. Por lo que la robustez de datos absolutos y las estructuras educativas de las migraciones permitirán un mejor conocimiento de la movilidad regional del capital humano en el presente siglo.
Palabras Clave: censo, ecuación compensadora, saldo migratorio, movilidad regional, capital humano.
Clasificación JEL: J61.
2
Introducción
La formación de capital humano supone un esfuerzo económico considerable, incluso
en un Estado como el español, que sin alcanzar los niveles de países de su ámbito,
registra cifras próximas al 5 por ciento del PIB. Estos recursos se gestionan
territorialmente por las diecisiete administraciones autonómicas, por el Ministerio de
Educación en las ciudades autónomas de Ceuta y Melilla, y por las delegaciones
exteriores, constituyendo una porción importante de sus presupuestos, sobre todo en el
caso de las primeras. La actual crisis económica aceleró el debate sobre la
corresponsabilidad fiscal de las diferentes administraciones públicas, catalizado con la
publicación, por parte del Estado, de las balanzas fiscales. Más allá de los criterios
contables utilizados en la confección de las mismas, lo que resulta evidente es su
limitada transcendencia económica al olvidar cualquier otro aspecto que no sean los
propios flujos monetarios entre las diferentes administraciones. Esto supone ignorar
cualquier otro tipo de transferencia, entre las que conviene destacar las relativas al
capital humano. Desde la década de los años sesenta del pasado siglo, en la que es
expuesta la teoría económica del capital humano, la literatura sobre su formación y
distribución como factor productivo fundamental no ha dejado de crecer. Surge así en
los años inmediatamente siguientes, la teoría de la fuga de cerebros (brain drain) que
constata la pérdida de las personas con mayor formación en los países económicamente
más atrasados, poniendo de relieve la paradoja de que los países pobres estarían
financiando parte del capital humano de los países ricos (Grubel y Scott, 1966 y Berry y
Soligo, 1969). Treinta años después, otros autores formularían la hipótesis de la fuga de
cerebros benéfica, o ganancia de cerebros, (brain gain) que defendería la emigración de
las personas con mayor formación, al suponer un incentivo para el resto de la población
del país de origen, estimulando la adquisición de educación y aumentando la proporción
de habitantes con estudios superiores (Mountford, 1997 y Vidal, 1998).
Analizar estas transferencias de capital humano no es tarea sencilla, básicamente
por la falta de datos sobre los movimientos migratorios clasificados por niveles
educativos. El Estado español no es una excepción en este desierto estadístico, si bien
su Instituto Nacional de Estadística (INE) elabora dos fuentes que proporcionan datos al
respecto:la Estadística de Variaciones Residenciales (EVR) y la Estadística de
Migraciones (EM). Ninguna de estas fuentes ofrece datos sobre las características de los
migrantes con la excepción de su origen, destino, sexo y grupo de edad. Con esta
información, resulta imposible emprender cualquiera investigación seria sobre la
3
movilidad del capital humano.
Sin embargo, trabajos recientes intentan eludir esta insuficiencia de datos
recurriendo a otras fuentes estadísticas, todo ello para poder estudiar el fenómeno
migratorio por niveles de formación. Los censos de población y la Encuesta de
Población Activa (EPA) constituyen el origen de la información necesaria para este fin.
Las diferencias entre ambas y también con respecto a la EVR y a la EM resultan
enormes: metodología, población y período de referencia, periodicidad de publicación,
etcétera. De cualquier modo, la ausencia de otras alternativas obliga a su explotación,
aunque se debe efectuar –previamente– un inexcusable análisis de la fiabilidad de sus
datos.
En este trabajo se pretende testar el último censo elaborado por el INE como
fuente fiable de información sobre movilidad de capital humano. Para ello, será preciso
comparar los valores absolutos de los flujos migratorios con el resto de valores
proporcionados por este censo y el anterior, verificando o no su consistencia. Una vez
hecho esto, se procederá con los valores relativos y de estructura porcentual de estos
movimientos clasificados por grados de estudio; si bien, las cifras absolutas pueden
situarse muy alejadas de los datos reales. A partir de aquí, los valores relativos podrían
utilizarse para realizar estimaciones robustas, siempre y cuando dichos valores fueran
consistentes estadísticamente.
Los censos de población como fuente migratoria
Los censos de población por sus características implícitas de exhaustividad, al tratarse
de un recuento detallado; de regularidad, al confeccionarse cada decenio, en promedio y
por centrarse en individuos y no en colectivos, clasificándolos según una amplia serie
de características1; constituyen una importantísima fuente de información para un gran
número de áreas de conocimiento, existiendo entre los investigadores preocupación por
la calidad de sus resultados. Tanto las preguntas contenidas en el cuestionario, como la
metodología utilizada centran esta preocupación para la mayoría de los censos
elaborados. De hecho, en el caso concreto del último censo, aparece un nuevo foco de
inquietud al mudar –por primera vez en la serie histórica– el método utilizado, que
realidad no es un censo propiamente dicho, sino una encuesta de grandes dimensiones.
Esta novedad metodológica, sin embargo resulta habitual en otros países
europeos, como señala el propio INE en el Proyecto censal (INE, 2011b), donde por
ejemplo la República Checa, Letonia y Lituania elaboran sus censos mediante una
4
combinación de registros y de recuento tradicional. Otros países como Austria, Bélgica,
Dinamarca, Finlandia, Eslovenia y Suecia emplean registros en la elaboración de sus
censos. Alemania, Holanda y Polonia utilizan, al igual que España, una combinación
entre censos basados en registros y encuestas por muestreo. En Francia se recurre a las
encuestas con muestras rotatorias: censos continuos. Además de estos países
pertenecientes a la Unión Europea, existen otros en Europa (Suiza, Islandia, Noruega,
Turquía y Kosovo) y en el resto del mundo (Israel, Australia, Japón y México) que
emplean otros métodos diferentes al recuento tradicional.
La generalización de nuevas metodologías censales sin más no reduce el error
muestral inherente a cualquier encuesta como sería el Censo de 2011, error que se
traspasaría al resto encuestas basadas en él. Sin embargo, dado el tamaño de la muestra,
el error cometido debe ser muy reducido. Como el propio INE indica en sus Informes
estandarizados (INE, 2011a), “la población objeto de estudio es una muestra del 9 por
ciento del conjunto de residentes habituales, en viviendas familiares convencionales o
en alojamientos”, a los se suma la población residente en establecimientos colectivos.
Además, para el objetivo de este trabajo, donde las unidades territoriales a analizar son
las comunidades autónomas, la pérdida de información tampoco puede ser importante,
dado el tamaño de la muestra. Con todo, en una fase previa al análisis de la fiabilidad de
los datos migratorios, siguiendo un proceso lógico, debería testarse la validez de los
datos generales de población de los censos. Difícilmente podrían resultar fiables los
datos migratorios si las grandes cifras demográficas fuesen inconsistentes. Utilizando
métodos no paramétricos, mediante el coeficiente de correlación y el índice de
desigualdad de Theil se comparan los dos últimos censos (INE, 2007a e INE, 2012) con
los padrones de habitantes y la EPA, esta a través de su explotación en las series de
capital humano elaboradas por el Instituto Valenciano de Investigaciones Económicas
(IVIE, 2015). En la Tabla 1 se recogen los resultados de estos indicadores constatando
el alto grado de correlación, con p-valores muy bajos lo que lleva a rechazar la hipótesis
nula de incorrelación de todas las fuentes con respecto a la población total de 15 o más
años2 del Estado español y de las comunidades y ciudades autónomas, así como la gran
igualdad de las mismas, con índices de Theil iguales a cero.
5
Tabla 1. Comparación de las cifras totales y por niveles de estudio de la población de 15 o más años por comunidades autónomas
Población total Población por estudios2001 2011 2001 2011
Censo-Padrón Censo-IVIE Censo-Padrón Censo-IVIE Censo-IVIE Censo-IVIECoeficiente correlación 1,000 1,000 1,000 1,000 0,999 0,999
p-valor 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000Índice de Theil 0,000 0,000 0,000 0,000 0,001 0,001 Fuente: EP a partir de Censo 2001, Censo 2011, Padrón de habitantes y banco de datos de capital
humano (IVIE).
La comparación de las cifras globales de tres fuentes demográficas se complementó con
el análisis de los mismos indicadores para la población clasificada por niveles de
estudio de los censos y de los datos del IVIE. En la Tabla 1 también se comprueba el
alto grado de correlación y de igualdad de las dos fuentes. Como era previsible, los
valores empeoran ligeramente al segmentar más la población.
Los resultados anteriores coinciden con los esperados por múltiples razones, al
menos los referidos a los censos y los padrones3, aunque no tendrían porque resultar tan
evidentes con respecto a los datos de la EPA en comparación con el censo. De hecho, el
propio INE publica en 2007 un estudio sobre la calidad de los datos del Censo de 2001
(INE, 2007b), en relación con los del cuarto trimestre de la EPA del mismo año,
mediante un procedimiento indirecto, reconociendo, no obstante, el alcance limitado de
las comparaciones, ya que la experiencia de la investigación estadística no permite
valorar con exactitud absoluta fenómenos aparentemente más simples.
A pesar de los resultados anteriores y pasando al estudio de los datos migratorios
proporcionados por los censos, existe cierta literatura que cuestiona la fiabilidad de los
mismos. Por ejemplo, Ródenas y Martí (2009) no han encontrado motivos para rechazar
la EVR por falta de fiabilidad, pero si aportan indicios suficientes como para dudar de la
calidad de los datos migratorios ofrecidos por el Censo de 2001, concluyendo que la
EVR sería la fuente más adecuada para estudiar el fenómeno migratorio en España.
Entre estos indicios, destacan la falta de respuesta parcial para la variable migratoria,
como consecuencia de la novedad metodológica del censo. En el censo anterior (1991),
el filtro y la acotación temporal de las preguntas migratorias permitían que la población
se autoclasificase como migrante o no, evitando en gran medida el problema de falta de
respuesta parcial y la aparición de inconsistencias. Sin embargo, las autoras señalan que
“en el Censo de 2001, un nuevo tipo de falta de respuesta surge cuando el lugar de
residencia no es el de nacimiento y no se declara movilidad. Esto plantea un problema
de datos incompletos y la forma en que se ha resuelto esta falta de respuesta, ha
6
repercutido en las estimaciones censales de la movilidad del período 1991-2001”. Con
vistas a comprobar este fenómeno, se analiza la coherencia interna de los datos censales,
comparándolos con otras fuentes estadísticas, sabiendo que tanto las migraciones como
la natalidad deben cumplir determinadas igualdades contables demográficas. Así, la
desigualdad migratoria presenta inconsistencias que sólo pueden ser explicadas por la
falta de respuesta parcial. De otro modo, si el problema fuese la falta de respuesta total,
la desigualdad contable relativa a los nacidos también dejaría de confirmarse y no es el
caso. Por lo tanto, sería la variable movilidad la que se encuentra afectada por la falta de
respuesta y por el método de imputación aplicado por el INE para corregirla, lo que
explicaría la infravaloración de los datos migratorios entre 1991 y 2001 del censo con
respecto a la EVR.
De acuerdo con la ecuación compensadora, se puede realizar un primer test de los
datos migratorios recogidos en el último censo. El método de los componentes de la
ecuación de equilibrio demográfico entre los censos de 2001 y de 2011 para estimar el
saldo migratorio del período (SM2001-11) sería:
11200111200120012011112001 MuertessNacimientoCensoPobCensoPobSM (1)
El saldo migratorio fue calculado con arreglo a las poblaciones totales de los dos
últimos censos y los movimientos naturales (nacimientos y defunciones) procedentes de
la estadística de Movimientos Natural de la Población (MNP) del INE. Mediante la
opción “Lugar de residencia en 2001” el Censo de 2011 permite obtener datos de la
relación entre la residencia en aquel año y la actual, utilizando “Residía en el
extranjero” a nivel estatal para contabilizar los inmigrantes, y a nivel de comunidad
autónoma se suma la opción anterior con “Otra comunidad” para alcanzar los
inmigrantes, tanto interiores, como exteriores que llegaron a la comunidad autónoma
durante el período intercensal. Por lo tanto, no es factible obtener un saldo migratorio
desde el Censo de 2011 al carecer de datos sobre los emigrantes al exterior. Los
resultados de las ecuaciones compensadoras de cada región aparecen en la Tabla 2, así
como los saldos totales (interiores y exteriores) de la EVR y los saldos interiores más
los inmigrantes del exterior según el Censo de 2011 en el período.. A nivel estatal el
censo recoge un saldo interior más los inmigrantes exteriores de 2.830.380, cifra muy
inferior a la esperada para alcanzar un saldo como el obtenido en la ecuación
compensadora4. No obstante, la EVR se aproxima bastante a ese resultado, al
contabilizar un saldo exterior de 4.825.489 personas (superior al 95 por ciento del saldo
7
teórico). A nivel autonómico los saldos migratorios obtenidos a partir de la ecuación
compensadora se encuentran muy próximos a los contabilizados por la EVR para ese
período. Por su parte, los datos del censo se distancian mucho de los saldos teóricos. Si
se calculan los emigrantes al extranjero5 –que el censo no ofrece– mediante el saldo
teórico y los saldos interiores y los inmigrantes exteriores del censo, se obtienen cifras
incongruentes con la realidad, que son las recogidas en la última columna de la Tabla 2.
Como puede observarse, con la excepción de Melilla, las cifras son negativas. Por lo
tanto, estas cifras estarían indicando que, en lugar de emigrantes, tendrían que ser
inmigrantes del exterior los necesarios para garantizar los saldos teóricos del período,
por lo que no existiría ninguna emigración al extranjero procedente de España, aspecto
totalmente irreal.
Tabla 2. Saldos migratorios de la ecuación compensadora, de la EVR y saldo migratorio interior más inmigrantes exteriores del Censo de 2011 en el período 2001-2011
Censo 2011 Censo 2001 Nacimientos Muertes Saldo natural SM teórico SM EVRSM i + I e
censo año a año
Emigrantes al extranjero
TOTAL 46.574.725 40.595.861 4.719.587 3.806.159 913.428 5.065.437 4.825.489 2.830.380 -2.235.057Andalucía 8.343.655 7.325.866 919.634 646.353 273.280 744.509 697.574 401.765 -342.744Aragón 1.331.190 1.191.636 121.806 133.838 -12.032 151.586 136.985 96.830 -54.756Asturias 1.069.275 1.056.298 76.819 126.932 -50.113 63.090 51.961 31.345 -31.745Baleares 1.096.905 837.094 113.601 74.307 39.293 220.518 181.342 127.025 -93.493Canarias 2.078.280 1.686.928 193.203 128.531 64.673 326.679 282.843 135.765 -190.914Cantabria 589.175 530.942 51.753 54.652 -2.900 61.133 49.657 33.705 -27.428Castilla y León 2.515.755 2.427.685 196.721 270.618 -73.897 161.967 116.773 79.520 -82.447Castilla-La Mancha 2.092.395 1.747.368 193.930 178.625 15.304 329.723 316.812 209.545 -120.178Cataluña 7.472.935 6.304.366 804.008 598.956 205.052 963.517 793.601 549.620 -413.897C. Valenciana 4.990.345 4.145.087 508.114 398.022 110.092 735.166 806.852 453.470 -281.696Extremadura 1.097.695 1.051.032 101.426 107.641 -6.216 52.879 29.704 24.320 -28.559Galicia 2.759.890 2.681.025 214.370 296.476 -82.106 160.971 137.726 85.015 -75.956Madrid 6.387.250 5.394.140 720.810 409.904 310.906 682.204 803.607 345.825 -336.379Murcia 1.458.250 1.192.462 175.780 99.753 76.028 189.760 211.621 132.665 -57.095Navarra 635.175 548.166 65.144 51.360 13.784 73.225 55.767 40.305 -32.920País Vasco 2.173.265 2.065.476 203.735 192.826 10.908 96.881 100.572 45.275 -51.606La Rioja 319.460 274.028 30.787 27.831 2.955 42.477 44.685 28.745 -13.732Ceuta 83.185 71.060 13.958 5.125 8.833 3.292 1.278 3.110 -182Melilla 80.655 65.202 13.990 4.408 9.582 5.871 6.129 6.530 659
Fuente: EP a partir EP a partir de Censo 2001, Censo 2011, MNP y EVR.
Estos resultados son coherentes con los alcanzados por Ródenas y Martí (2009) –en el
trabajo ya citado–, y también en un trabajo anterior (Ródenas y Martí, 2005), donde las
migraciones captadas por el censo eran espectacularmente inferiores a las declaradas en
la EVR, adoleciendo este de importantes problemas de coherencia y de falta de
respuesta. Dado que en los censos de 2001 y 2011 los migrantes no tienen la posibilidad
de clasificarse como tales a través de una pregunta concreta –siendo el propio INE quien
los caracterice de este modo a partir de preguntas sobre el año de residencia en la
vivienda, municipio, comunidad autónoma y país– es muy plausible que se repitan los
problemas descritos para estos dos últimos censos. Siguiendo el esquema de las autoras
mencionadas, se comparan los cuestionarios censales y los resultados migratorios
obtenidos a partir de esas preguntas, siendo resumidos en la Tabla 3. La movilidad
puede ser estimada a partir de diferentes cuestiones, como la residencia hace
8
determinado período de tiempo, normalmente con referencia al censo inmediatamente
anterior (pregunta 1.1); la residencia habitual cinco años antes (pregunta 1.2); la
residencia un año antes (pregunta 1.3); y por el año de llegada a la residencia actual
(pregunta 2). Comparando los resultados de la pregunta 1.1 y los de la pregunta 2,
sumando los resultados para los diez años anteriores, estos últimos siempre son
superiores, tal y como indican Ródenas y Martí (2005). Esto puede ser debido a que “se
está computando a los menores de 10 años con movilidad y, además, se pueden incluir
algunas de las migraciones intermedias, como las de ida y vuelta, producidas a lo largo
del período intercensal”. Aunque para los dos primeros censos los resultados
migratorios de las dos preguntas tienen crecimientos muy heterogéneos (19 por ciento
para la pregunta 1.1 y 36 por ciento para la 2), para los dos últimos las cifras resultan un
poco más similares (90 y 70 por ciento, respectivamente). Una hipótesis para explicar el
aumento de la diferencia entre ambas estimaciones (pregunta 1.1 y 2) podría estar en la
población menor de 10 años que la pregunta 2 recogería, pero no la 1.1. Para el Censo
de 1991 estas migraciones alcanzarían a 366.250 menores de 10 años, mientras que para
el de 2001 ya serían de 480.943 y para el de 2011, 658.295. A partir de estos datos se
puede deducir la movilidad intermedia capturada por cada uno de los censos: 50.928
migraciones intermedias en el Censo de 1991, 788.523 en el de 2001 y 544.855 en el
último; lo que supondría multiplicar la movilidad intermedia capturada por los dos
primeros por más de quince, pero reduciría la capturada entre los dos últimos más de un
30 por ciento. Admitiendo que todos estos cambios de residencia se hubieran dado
efectivamente de alta en los padrones, este hallazgo se compadecería perfectamente con
que la EVR se moviera a niveles más elevados en los últimos veinte años.
9
Tabla 3. Comparación de las preguntas migratorias de los censos 1991, 2001 y 2011 Censo 1991 (marzo) Censo 2001 (noviembre) Censo 2011 (noviembre)
Pregunta 1: lugar de residencia previo hace… 1.1. Lugar de residencia habitual
marzo 1981 (10 años).
Pregunta 1: lugar de residencia previo hace… 1.1. Lugar de residencia habitual
noviembre 1991 (10 años y 8 meses).
Pregunta 1: lugar de residencia previo hace… 1.1. Lugar de residencia habitual
noviembre 2001 (10 años).
Estimación a partir de la pregunta 1.1.:
Personas residentes en viviendas familiares 10 y más años Total 4.017.599 Procedentes del interior 3.614.209 Procedentes del exterior 403.390
Estimación a partir de la pregunta 1.1.:
Personas residentes en viviendas familiares 10 y más años Total 4.778.821 Procedentes del interior 3.800.409 Procedentes del exterior 978.412
Estimación a partir de la pregunta 1.1.:
Personas residentes en viviendas familiares 10 y más años Total 9.076.755 Procedentes del interior 5.658.755 Procedentes del exterior 3.418.000
1.2. Lugar de residencia habitual abril 1986 (5 años).
1.3. Lugar de residencia habitual marzo 1990 (1 año).
1.2. (no se realiza). 1.3. (no se realiza).
1.2. (no se realiza). 1.3. Lugar de residencia habitual
noviembre 2010 (1 año).
Pregunta 2: año de llegada a la actual residencia Sólo para las personas que en los últimos 10 años han residido en otro municipio: año en que fijó por última vez su residencia en este municipio y lugar de procedencia.
Pregunta 2: año de llegada a la actual residencia Desde qué año reside (aunque sea desde que nació) en: España, esta CC AA, este municipio (si antes residía en otro, indíquelo).
Pregunta 2: año de llegada a la actual residencia Desde qué año reside (aunque sea desde que nació) en: España, esta CC AA, este municipio (si antes residía en otro municipio, provincia, país, indíquelo).
Estimación a partir de la pregunta 2 (suma dato año a año de 1981-91):
Personas residentes en viviendas familiares y colectivas Todas las edades Total 4.434.777 Procedentes del interior 3.997.886 Procedentes del exterior 436.891
Estimación a partir de la pregunta 2 (suma dato año a año de 1991-01):
Personas residentes en viviendas familiares Todas las edades Total 6.048.287 Procedentes del interior 4.872.136 Procedentes del exterior 1.176.151
Estimación a partir de la pregunta 2 (suma dato año a año de 2001-11):
Personas residentes en viviendas familiares Todas las edades Total 10.279.905 Procedentes del interior 7.449.645 Procedentes del exterior 2.830.260
Diferencia Pr 2 – Pr 1.1.: 417.178 Diferencia Pr 2 – Pr 1.1.: 1.269.466 Diferencia Pr 2 – Pr 1.1.: 1.203.150 Fuente: EP siguiendo a Ródenas y Martí (2005) y Ródenas y Martí (2009)6 a partir de Censo 1991,
Censo 2001 y Censo 2011.
Continuando con los resultados parciales de las ecuaciones compensadoras y centrando
la atención en las diferencias poblacionales de los dos últimos censos7, es posible
detectar los desfases a nivel autonómico y para diferentes niveles educativos, en
concreto para los dos niveles superiores por ser los más importantes para nuestra
investigación. Mediante los errores relativos medios (ERM)8, calculados para los totales
poblacionales y para las personas con estudios de segundo y de tercer grado, se observa
que apenas Asturias y Galicia obtienen valores por debajo de cero para la población
total, resultado que haría plausible la ecuación compensadora, al considerar los
emigrantes al exterior y los saldos naturales negativos del período, pero que serían
insuficientes para cubrir la diferencia. Sin embargo, cuando se observan los errores para
los migrantes con estudios de segundo y de tercer grado se obtienen valores muy por
encima de estos resultados. El Gráfico 1 muestra en el eje de ordenadas derecho los
valores del error relativo medio total y en el izquierdo los referentes a los migrantes con
estudios de segundo y de tercer grado. La evolución de los estadísticos totales con los
clasificados por estudios, para estas dos comunidades resulta divergente, a diferencia de
10
lo que acontece para el resto de territorios. Por lo tanto, el censo no sólo estaría
infravalorando los datos migratorios a nivel general, sino que en algunas comunidades y
para determinados niveles educativos el sesgo podría resultar mayor.
Gráfico 1. Errores relativos medios de la variación intercensal y las migraciones interiores más los inmigrantes exteriores según el Censo de 2011 para el período 2001-2011
-0,85
-0,55
-0,25
0,05
0,35
0,65
0,95
1,25
0,60
0,80
1,00
1,20
1,40
1,60
1,80
2,00
2,20
2,40
2,60
ERM 2º GRADO ERM 3º GRADO ERM TOTAL
Fuente: EP a partir EP a partir de Censo 2001 y Censo 2011.
Datos migratorios clasificados por niveles educativos
Volviendo al estudio publicado por el INE en 2007 sobre la calidad de los datos del
Censo de 2001 (INE, 2007b), el instituto centra la evaluación en el análisis de los
errores de contenido en determinadas características de la población recogidas en los
cuestionarios censales, originados al clasificar las unidades correctamente incluidas
según las diversas características analizadas en el censo. Los diferentes métodos de
entrevista utilizados en el censo y en la EPA pueden dar lugar a respuestas distintas a
una misma cuestión, originando clasificaciones diferentes de una misma persona
respecto a una determinada característica. La referencia considerada es la de la EPA,
por ser cometida con entrevistadores especialmente preparados para la recogida de la
información y las familias escogidas colaboran durante seis trimestres consecutivos, lo
que mejora la calidad de esta.
La metodología de contraste comienza por identificar las unidades finales
(viviendas y personas) de la muestra de la EPA en el Censo de 2001. Una vez hecho
esto, se cruza la información disponible en ambas investigaciones para una misma
persona, confeccionando tablas de errores de contenido y de indicadores de calidad. Las
11
primeras son tablas de concordancia donde se recogen, para la característica objeto de
estudio, la información proporcionada por la EPA (en las filas) y por el censo (en las
columnas) referente a las personas cotejables. En los elementos de la diagonal de esta
tabla de doble entrada figura el número de personas idénticamente clasificadas en ambas
entrevistas en cada modalidad. En los restantes elementos aparece el número de
personas clasificadas en una determinada modalidad en la EPA que han sido
clasificadas en otra modalidad en el censo. La igualdad contable hace que la suma de los
totales de las filas y las columnas sea idéntica. A partir de la tabla de concordancia
pueden obtenerse diferentes indicadores de calidad para cada modalidad:
Porcentaje de idénticamente clasificados (PIC): Es un indicador de la estabilidad de
respuesta. Varía entre 0 y 100. Su valor óptimo (100) indica que todas las personas
pertenecientes según la EPA a una modalidad se clasificaron de igual forma en el
censo.
Tasa de diferencia neta (TDN): Es un indicador del sesgo de respuesta. Puede ser
positivo o negativo. Si es positivo indica que el censo tiene un sesgo de ese signo en
la enumeración de individuos con esa modalidad.
Índice de cambio neto (ICN): Completa la información suministrada por la TDN,
pues mientras esta refleja la importancia de las variaciones netas de respuesta
respecto al total de personas clasificadas, el ICN refleja la importancia de tales
variaciones respecto al número de individuos que poseen la modalidad según la
encuesta de control (EPA).
Tasa de diferencia bruta (TDB): Es un indicador de la varianza de respuesta. Su
valor puede ser nulo o positivo. Refleja el porcentaje de individuos que discrepan en
ambas investigaciones acerca de la clasificación o no en la modalidad.
Índice de cambio bruto (ICB): Representa el porcentaje de individuos clasificados de
distinta forma en ambas investigaciones respecto al número de individuos
clasificados en la modalidad según la encuesta de control. Completa la información
suministrada por la TDB.
De la definición de estos indicadores se desprende que si no hay errores de contenido en
una modalidad, el PIC toma el valor 100 y los dos índices el valor 0. También es
inmediato ver que puede coexistir un PIC pequeño, incluso nulo, con un sesgo cero.
Esto ocurre cuando los errores se compensan. En cambio, el ICB sólo puede tomar el
valor cero si no hay ningún error de contenido.
12
Para contrastar la calidad general de las distintas características evaluadas se
utiliza el índice de consistencia global (ICG), definido como el cociente del sumatorio
de la diagonal de cada característica analizada entre el número total de individuos y
multiplicado por 100.
Desde el punto de vista del presente trabajo y al no recogerse datos sobre
migraciones, se centrará el interés en los principales resultados referidos a la
característica “Nivel de formación más alto completado”. Estos resultados alcanzan los
peores indicadores de calidad, como suele ser habitual en otras operaciones estadísticas.
El PIC alcanza su valor más alto, cercano al 70 por ciento, en la modalidad Tercer
Grado, Licenciatura; correspondiendo el más bajo a la modalidad Analfabetos, con un
42 por ciento. La modalidad con mayor sesgo es la de Tercer Grado, Doctorado, con
casi el 100 por ciento. En ella, aparte de ser la menos importante cuantitativamente, se
presentan importantes trasvases de población con la modalidad Tercer Grado,
Licenciatura. El ICB presenta valores bastante elevados en todas las modalidades,
destacando el de Tercer Grado, Doctorado, que alcanza el 183 por ciento, y los de Sin
estudios y Segundo Grado, FP Grado Medio que se sitúan en el 115 por ciento.
Se observa que se han producido trasvases importantes de población entre
modalidades contiguas. Por ejemplo, de las personas que según la EPA eran
Analfabetos el 40 por ciento figuraban en el censo como Sin estudios. Igualmente, de
las personas que figuraban como Sin estudios en la EPA el 39 por ciento se clasificaron
en el censo en Enseñanza de Primer Grado. A su vez, el 29 por ciento de los clasificados
en EPA en Enseñanza de Primer Grado se clasificaron en el Censo en Enseñanza de
Segundo Grado, ESO, EGB, Bachiller Elemental. Este mismo porcentaje de trasvase se
obtiene entre los clasificados como Enseñanza de Tercer Grado, Doctorado en la EPA y
en Enseñanza de Tercer Grado, Licenciatura en el censo. Estas discrepancias pueden ser
debidas en muchos casos a respuestas no bien especificadas, que den lugar a distintas
clasificaciones, o a la dificultad de conocer la equivalencia entre los estudios y títulos
antiguos y los actuales.
Los resultados anteriores se ven corroborados con el ICG más bajo de todas las
características analizadas, alcanzando apenas el 53,33 por ciento, cuando para la edad
llega al 98,09 por ciento o para la nacionalidad al 99,67 por ciento; advirtiendo del
sesgo que los datos del censo tienen en esta categoría y obligando a actuar con cautela
también con los dados de la misma para el Censo de 2011, si bien a nivel de
comunidades autónomas la igualdad con la EPA es muy grande como observamos en la
13
Tabla 1.
El INE, en contraposición a lo que acabamos de ver, no realiza una evaluación de
la calidad de los datos del Censo de 2011 y con la información facilitada por este
instituto resulta imposible realizar un proceso semejante al revisado anteriormente. Por
estos motivos, se debe recurrir a procedimientos alternativos para contrastar la calidad
de los datos del último censo publicado, en relación a los movimientos migratorios
clasificados por grados de estudio.
El Censo de 2011, al igual que el de 2001, facilita información sobre la población
que cambió de residencia el año anterior, pudiendo construir tablas de contingencia de
20×5 filas (comunidades, ciudades autónomas y extranjero por cinco niveles
educativos) y 19 columnas (comunidades y ciudades autónomas). En las primeras se
representan el territorio de origen de los migrantes, mientras que en las segundas
aparecen los territorios de destino. Por la contra, la EPA no permite un nivel de desglose
tan desagregado. Los ficheros de microdatos de esta encuesta facilitan información con
una estructura similar a la anterior para la población en edad de trabajar que cambiaron
de residencia el año anterior, pero al realizar el filtrado de los datos el número de
observaciones se reduce tanto que la mayoría de las celdas interiores de la tabla
aparecen vacías, lo que impide cualquier comparación con las tablas censales, debiendo
proceder, inicialmente, con información agregada.
Los resultados anuales de la EPA contienen una sección de “Variables de
submuestra”9 con las personas que han cambiado de residencia hace un año. Esta
información viene organizada para 8 territorios de procedencia y 7 de destino como
aparece organizada en la
14
Tabla 4, ofreciendo datos, apenas, para los totales, como se resalta en la misma tabla
mediante los sombreados amarillos y naranja, dejando el resto de celdas vacías.
15
Tabla 4. Estructura de población en edad de trabajar que ha cambiado de residencia hace un año según la EPA
ORIGEN / DESTINOGalicia,
Asturias y Cantabria
País Vasco, Navarra, La
Rioja y Aragón
Madrid
Castilla y León, Castilla-La Mancha y Extremadura
Cataluña, Valencia y Baleares
Andalucía, Murcia, Ceuta y Melilla
CanariasTotal
procedencia
Galicia, Asturias y Cantabria
Analfabetos
…
3º grado
País Vasco, Navarra, La Rioja y Aragón
Analfabetos
…
3º grado
Madrid
Analfabetos
…
3º grado
Castilla y León, Castilla-La Mancha y Extremadura
Analfabetos
…
3er grado
Cataluña, Valencia y Baleares
Analfabetos
…
3º grado
Andalucía, Murcia, Ceuta y Melilla
Analfabetos
…
3º grado
Canarias
Analfabetos
…
3º grado
Extranjero
Analfabetos
…
3º grado
Total destino
Analfabetos
Estudios primarios incompletos
1º grado
2º grado
3º grado Fuente: EP a partir de EPA.
Por lo tanto, es necesario agrupar los datos censales en un esquema idéntico para poder
realizar un análisis comparativo, aunque estos se encuentren desagregados a nivel de
comunidad autónoma para todos los grados educativos.
Como era de esperar, se constatan diferencias en los valores absolutos, de ambas
fuentes, que a nivel global son mayores para el censo hasta 2003 y que a partir de ese
año invierten ese resultado, existiendo gran heterogeneidad entre los distintos grupos
territoriales y niveles educativos. En la
16
Tabla 5 y en la La distribución de estos errores relativos medios tomando como
referencia el total estatal muestra una evolución temporal bastante similar con la
excepción de los territorios de origen Extranjero, Canarias y en mucha menor medida
Castilla y León, Castilla-La Mancha y Extremadura. En relación a los territorios de
destino, la mayor discrepancia con respecto a la evolución estatal la muestran
nuevamente Canarias y las dos Castillas con Extremadura. En cuanto al nivel de
estudios, las diferencias mayores se encuentran en la población que no sabe leer ni
escribir, al descartar la categoría de “Estudios primarios incompletos”, ya que carece de
datos en la EPA. Otro trazo importante, que se mantiene para toda la serie, es la
infravaloración de los migrantes con estudios de tercer grado del censo con respecto a la
EPA.
Tabla 6 aparecen los errores relativos medios para los valores absolutos totales
por territorios de origen y destino y para los niveles educativos del conjunto estatal.
17
Tabla 5. Error relativo medio10 entre los movimientos migratorios de la EPA y del Censo 2011 por territorios de procedencia y niveles educativos totales, 2002-2011
Territorios 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
ESTADO ESPAÑOL 0,17 0,03 -0,19 -0,37 -0,26 -0,19 -0,10 -0,24 -0,12 -0,37
Galicia, Asturias y Cantabria -0,23 -0,03 -0,30 -0,97 -0,79 -0,77 -0,38 -0,49 -0,54 -0,68
País Vasco, Navarra, La Rioja y Aragón 0,22 -0,15 0,27 -0,39 -0,41 -0,43 -0,25 -0,40 -0,20 -0,66
Madrid 0,85 0,55 -0,09 -0,28 0,01 -0,20 0,00 0,16 -0,04 -0,37
Castilla y León, Castilla-La Mancha y Extremadura -0,02 -0,23 -0,49 -0,85 -0,42 -0,37 -0,20 -0,11 0,26 -0,52
Cataluña, Valencia y Baleares -0,15 -0,30 -0,46 -0,67 -0,83 -0,84 -0,55 -0,76 -0,62 -0,85
Andalucía, Murcia, Ceuta y Melilla 0,06 0,53 -0,21 -0,87 -0,58 -0,59 -0,54 -0,72 -0,59 -0,85
Canarias -0,04 -0,58 -0,43 -1,09 -1,00 -0,28 -0,33 -0,66 -1,17 -1,11
Extranjero 0,24 0,11 -0,07 0,22 0,23 0,45 0,28 0,24 0,68 0,41
Niveles educativos totales
Analfabetos 0,82 -0,18 -0,09 -0,23 -0,21 0,26 0,69 -0,18 0,89 0,39
Estudios primarios incompletos 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00
1º grado -0,13 -0,34 -0,70 -0,65 -0,59 -0,41 -0,51 -0,65 -0,56 -0,46
2º grado 0,29 0,22 0,00 -0,14 0,00 -0,08 -0,01 -0,11 -0,11 -0,18
3º grado -0,20 -0,35 -0,45 -0,85 -0,77 -0,51 -0,29 -0,42 -0,12 -0,71 Fuente: EP a partir de EPA y Censo 2011.
La distribución de estos errores relativos medios tomando como referencia el total
estatal muestra una evolución temporal bastante similar con la excepción de los
territorios de origen Extranjero, Canarias y en mucha menor medida Castilla y León,
Castilla-La Mancha y Extremadura. En relación a los territorios de destino, la mayor
discrepancia con respecto a la evolución estatal la muestran nuevamente Canarias y las
dos Castillas con Extremadura. En cuanto al nivel de estudios, las diferencias mayores
se encuentran en la población que no sabe leer ni escribir, al descartar la categoría de
“Estudios primarios incompletos”, ya que carece de datos en la EPA. Otro trazo
importante, que se mantiene para toda la serie, es la infravaloración de los migrantes
con estudios de tercer grado del censo con respecto a la EPA.
Tabla 6. Error relativo medio entre los movimientos migratorios de la EPA y del Censo de 2011 por territorios de destino y niveles educativos totales, 2002-2011
Territorios 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
ESTADO ESPAÑOL 0,17 0,03 -0,19 -0,37 -0,26 -0,19 -0,10 -0,24 -0,12 -0,37
Galicia, Asturias y Cantabria -0,10 -0,04 -0,41 -0,92 -0,41 -0,39 -0,28 -0,67 -0,36 -0,53
País Vasco, Navarra, La Rioja y Aragón 0,14 -0,16 -0,10 -0,38 -0,37 -0,17 -0,02 -0,25 0,10 -0,47
Madrid 1,05 0,49 0,26 -0,04 0,03 0,32 -0,03 0,39 0,25 -0,11
Castilla y León, Castilla-La Mancha y Extremadura -0,07 -0,21 -0,29 -0,44 -0,29 -0,26 -0,05 -0,07 0,22 -0,48
Cataluña, Valencia y Baleares 0,04 -0,02 -0,30 -0,30 -0,36 -0,28 -0,05 -0,43 -0,19 -0,34
Andalucía, Murcia, Ceuta y Melilla 0,16 0,39 -0,21 -0,43 -0,13 -0,29 -0,08 -0,28 -0,26 -0,51
Canarias -0,20 -0,59 -0,03 -0,52 -0,35 -0,20 -0,72 -0,26 -0,80 -0,31
Niveles educativos totales
Analfabetos 0,82 -0,19 -0,08 -0,23 -0,21 0,28 0,69 -0,18 0,93 0,36
Estudios primarios incompletos 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00 2,00
1º grado -0,13 -0,34 -0,70 -0,65 -0,59 -0,41 -0,51 -0,64 -0,56 -0,46
2º grado 0,29 0,22 0,00 -0,14 0,00 -0,08 -0,01 -0,11 -0,11 -0,18
3º grado -0,20 -0,35 -0,45 -0,85 -0,77 -0,51 -0,29 -0,42 -0,12 -0,71 Fuente: EP a partir de EPA y Censo 2011.
Otros indicadores de medida de la desigualdad aparecen en la
18
Tabla 7 y en la En la
19
Tabla 7 y la Tabla 8 aparecen también los índices de desigualdad de Theil, que se
calcularon para los movimientos migratorios totales y diferenciando los de la población
con estudios de primer, segundo y tercer grado. Todos ellos muestran valores muy
próximos a cero, lo que volvería a confirmar la gran igualdad de ambas fuentes. Los
mayores valores tanto para las emigraciones como para las inmigraciones se dan para
los migrantes con estudios de tercer grado y para el año 2005, alcanzando una cifra de
0,30.
Tabla 8. Los valores próximos a la unidad de los coeficientes de correlación para todos
los años de la serie, indican una alta correlación entre los datos de la EPA y del censo.
También podemos ver que los p-valores asociados, todos ellos muy cercanos a cero,
garantizan el resultado anterior.
20
Tabla 7. Coeficiente de correlación e índices de Theil de las emigraciones de la EPA y el Censo de 2011, 2002-2011
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
Coeficiente de correlación 0,989 0,984 0,981 0,956 0,953 0,957 0,979 0,969 0,961 0,950
p-valor 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
Índice de Theil Total 0,027 0,015 0,028 0,082 0,058 0,046 0,020 0,048 0,037 0,095
Índice de Theil 1º grado 0,011 0,053 0,231 0,186 0,168 0,098 0,113 0,184 0,177 0,121
Índice de Theil 2º grado 0,047 0,032 0,015 0,028 0,029 0,033 0,014 0,035 0,036 0,037
Índice de Theil 3º grado 0,030 0,069 0,109 0,303 0,258 0,132 0,049 0,095 0,038 0,240 Fuente: EP a partir de EPA y Censo 2011.
En la
21
Tabla 7 y la Tabla 8 aparecen también los índices de desigualdad de Theil, que se
calcularon para los movimientos migratorios totales y diferenciando los de la población
con estudios de primer, segundo y tercer grado. Todos ellos muestran valores muy
próximos a cero, lo que volvería a confirmar la gran igualdad de ambas fuentes. Los
mayores valores tanto para las emigraciones como para las inmigraciones se dan para
los migrantes con estudios de tercer grado y para el año 2005, alcanzando una cifra de
0,30.
Tabla 8. Coeficiente de correlación e índices de Theil de las inmigraciones de la EPA y el Censo de 2011, 2002-2011
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
Coeficiente de correlación 0,985 0,983 0,985 0,980 0,977 0,990 0,993 0,985 0,991 0,985
p-valor 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
Índice de Theil Total 0,026 0,015 0,027 0,075 0,047 0,026 0,010 0,040 0,015 0,079
Índice de Theil 1º grado 0,014 0,059 0,221 0,187 0,170 0,088 0,125 0,196 0,199 0,111
Índice de Theil 2º grado 0,042 0,031 0,003 0,011 0,002 0,006 0,002 0,015 0,009 0,020
Índice de Theil 3º grado 0,042 0,065 0,121 0,308 0,264 0,132 0,041 0,096 0,011 0,222 Fuente: EP a partir de EPA y Censo 2011.
Utilizando una estructura porcentual, en lugar de los valores absolutos, se constata una
mejora en los resultados de los índices de Theil, disminuyendo los valores máximos a
más de la mitad. Sin embargo, las diferencias porcentuales entre ambas fuentes y sobre
todo en lo referido a los movimientos migratorios de tercer grado, manifiestan una
infravaloración censal en las migraciones con mayor cualificación. Estas diferencias
varían dentro de una franja de 20 puntos porcentuales para los emigrantes, como
muestra el
22
Gráfico 2, y de 30 puntos para los inmigrantes (Gráfico 3).
23
Gráfico 2. Diferencias en los porcentajes de emigrantes de tercer grado, 2002-2011
-15,00
-5,00
5,00
15,00
25,00
35,00
45,00
TOTAL Galicia, Asturias y Cantabria
País Vasco, Navarra y Aragón Madrid
Castilla y León, Castilla-La Mancha y Extremadura Cataluña, Comunidad Valenciana y Baleares
Andalucía, Murcia, Ceuta y Melilla Canarias
Extranjero
Fuente: EP a partir de EPA y Censo 2011.
Gráfico 3. Diferencias en los porcentajes de inmigrantes de tercer grado, 2002-2011
-15,00
-5,00
5,00
15,00
25,00
35,00
45,00
TOTAL Galicia, Asturias y Cantabria
País Vasco, Navarra y Aragón Madrid
Castilla y León, Castilla-La Mancha y Extremadura Cataluña, Comunidad Valenciana y Baleares
Andalucía , Murcia, Ceuta y Melilla Canarias
Fuente: EP a partir de EPA y Censo 2011.
Para finalizar con la comparación de los datos de las márgenes totales según la
estructura representada en la
24
Tabla 4, se procede al análisis de la varianza (ANOVA) (García Pérez, 2005),
resumiendo los principales resultados en la Tabla 9.
Tabla 9. Análisis de varianza de las migraciones por territorios y niveles educativos de la EPA y del Censo de 2011, 2002-2011
FProba-bilidad
Valor crítico para F
FProba-bilidad
Valor crítico para F
FProba-bilidad
Valor crítico para F
FProba-bilidad
Valor crítico para F
FProba-bilidad
Valor crítico para F
2002 2003 2004 2005 2006
Origen de las variaciones
ORIGEN
Muestra 5,33785 0,0000 2,12632 5,57496 0,0000 2,12632 5,54102 0,0000 2,12632 3,65481 0,0018 2,12632 4,45810 0,0003 2,12632Columnas 0,20597 0,6512 3,96035 0,00905 0,9245 3,96035 0,29836 0,5864 3,96035 1,53113 0,2196 3,96035 0,63181 0,4290 3,96035Interacción 0,13876 0,9949 2,12632 0,09231 0,9986 2,12632 0,05652 0,9997 2,12632 0,33637 0,9350 2,12632 0,40298 0,8978 2,12632
ORIGEN
Muestra 3,67934 0,0031 2,23119 3,49560 0,0044 2,23119 3,81462 0,0024 2,23119 3,03139 0,0108 2,23119 3,23654 0,0073 2,23119Columnas 0,25348 0,6162 3,97778 0,01165 0,9143 3,97778 0,35611 0,5526 3,97778 1,56446 0,2152 3,97778 0,73526 0,3941 3,97778Interacción 0,16833 0,9844 2,23119 0,13184 0,9918 2,23119 0,14626 0,9892 2,23119 0,09176 0,9970 2,23119 0,13768 0,9908 2,23119
2007 2008 2009 2010 2011
DESTINO
ORIGEN
Muestra 4,00540 0,0008 2,12632 4,51208 0,0003 2,12632 3,60199 0,0020 2,12632 2,46291 0,0243 2,12632 2,99024 0,0077 2,12632Columnas 0,34765 0,5571 3,96035 0,10859 0,7426 3,96035 0,66087 0,4187 3,96035 0,17684 0,6752 3,96035 1,61199 0,2079 3,96035Interacción 0,67301 0,6943 2,12632 0,29215 0,9552 2,12632 0,48056 0,8460 2,12632 0,88060 0,5257 2,12632 0,65956 0,7054 2,12632
ORIGEN
Muestra 3,06213 0,0102 2,23119 2,59801 0,0249 2,23119 2,95163 0,0126 2,23119 2,51755 0,0290 2,23119 2,37693 0,0379 2,23119Columnas 0,39655 0,5309 3,97778 0,13020 0,7193 3,97778 0,65355 0,4216 3,97778 0,17319 0,6786 3,97778 1,65385 0,2027 3,97778Interacción 0,14007 0,9904 2,23119 0,01526 1,0000 2,23119 0,30355 0,9331 2,23119 0,14368 0,9897 2,23119 0,09140 0,9970 2,23119
DESTINO Fuente: EP a partir de EPA y Censo 2011.
Los valores del estadístico F mayores en todos los años a los respectivos valores críticos
para las variaciones con origen en la muestra (los distintos territorios), con p-valores
asociados inferiores, también en todos los casos, a 0,05, lleva a rechazar sin duda y de
forma robusta, la igualdad de los 8 territorios de origen y también la de los 7 de destino
con respecto a los movimientos migratorios por niveles educativos, indicando la
existencia de diferencias significativas entre estos grupos territoriales. Pero para el
objetivo de este trabajo lo realmente importante es comprobar los valores de este
estadístico por columnas (EPA y censo), situándose por debajo del nivel crítico y con p-
valores altos, mostrando la inexistencia de diferencias significativas entre los datos de
ambas fuentes y no pudiendo rechazar la igualdad entre las dos muestras para todos los
años. De la misma manera, los valores de F no significativos para la interacción
indicarían que no existe este efecto entre las variables, aspecto muy positivo ya que de
existir negaría la validez de los resultados anteriores. Las menores sumas de cuadrados
y promedios de cuadrados para las columnas también mostrarían la menor variabilidad
entre los datos de la EPA y del censo, para todos los territorios de origen y de destino,
teniendo en cuenta los grados de estudio.
Para ampliar esta comparativa de los márgenes de ambas fuentes, se propone un
análisis alternativo, a partir de la estimación log-lineal de las celdas vacías entre
territorios de los datos de la EPA, que aparecían en color blanco en la
25
Tabla 4.
Se denomina xij/k (t) a cada una de estas celdas vacías, situadas en la fila i y en la
columna j, para el nivel educativo k en el año t, calculando su valor bajo la hipótesis de
independencia de Pearson (Pérez, 2012), que establece que dos atributos de una tabla de
contingencia son independientes estadísticamente cuando la frecuencia relativa conjunta
es igual al producto de las frecuencias marginales respectivas, es decir, cuando
N
nnn ji
ij para todo i y j, siendo nij cada uno de los elementos de la tabla de
contingencia, ni• el margen total de la fila i, n•j el margen total de la columna j y N la
suma total de filas o columnas, o tamaño de la muestra. De igual forma, en nuestro
ejemplo cada elemento sería calculado para cada año concreto según la siguiente
expresión:
5,,2,17,,2,1;8,,2,1,/ kyjiN
xxx ji
kij (2)
Una vez obtenidas las diez tablas de contingencia de la EPA para los años 2002 a 2011,
se procede a compararlas con las censales mediante varios estadísticos de selección
(Agresti, 2011). El primero de ellos es el cociente de verosimilitud G2 (likelihood ratio)
definido mediante la fórmula:
F
ffG ln22 (3)
donde f representa los elementos xij/k (t) del censo y F idénticos elementos estimados
para la EPA según el modelo log-lineal. Este estadístico se distribuye según una chi-
cuadrado en la hipótesis de que el modelo es correcto, con grados de libertad (i – 1) × (j – 1),
siendo i el número de filas y j el de columnas de la tabla. Los valores elevados de G2
reflejan un mal ajuste del censo a la EPA, lo que corresponderá a un valor bajo de la
probabilidad. Como era de esperar, al existir grandes diferencias en los valores
absolutos de las márgenes, estas diferencias se transmiten a las celdas interiores de la
tabla, obteniendo valores de este estadístico elevados. Sin embargo, al trabajar con una
estructura porcentual, los valores se reducen enormemente, siendo estadísticamente
significativos para todos los años de la serie con excepción de los dos primeros11, como
muestra la Tabla 10.
Tabla 10. Cocientes de verosimilitud relativos y índices de discrepancia absolutos de la EPA (modelo log-lineal) y del Censo 2011, 2002-2011
26
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
G2 77,17 72,67 64,99 70,19 67,01 59,71 36,57 54,25 66,44 55,96
p-valor 0,0113 0,6666 0,9504 0,9985 0,9984 0,9999 1,0000 0,9997 0,9594 0,9999ID 0,39 0,37 0,35 0,35 0,35 0,36 0,30 0,34 0,37 0,33
Fuente: EP a partir de EPA y Censo 2011.
Otra alternativa para medir las diferencias entre los valores de las dos muestras sería a
través del índice de discrepancia (ID, dissimilarity index) definido como:
N
FfID
2, (4)
que devuelve la media de las diferencias entre los migrantes del censo y los de la EPA
entre los diversos territorios y para cada uno de los niveles educativos, en valor
absoluto. Este índice puede tomar valores entre 0 y 1, correspondiendo los valores más
pequeños a un mejor ajuste entre los datos de las dos muestras. También puede ser
interpretado como la proporción de casos que deben cambiar de clasificación para
obtener un ajuste perfecto. Se observa que en términos medios, algo más de la tercera
parte de los migrantes (medidos en valores absolutos) deberían mudar de territorio y/o
de nivel educativo para poder obtener un ajuste perfecto.
Por lo tanto, el análisis interterritorial de ambas fuentes mostraría importantes
diferencias en términos absolutos que se ven reducidas cuando se trabaja con una
estructura porcentual, obteniendo resultados robustos para la totalidad de la serie
temporal, con la excepción de los dos primeros años.
Conclusiones
La falta de datos sobre migraciones clasificadas por niveles educativos obliga a echar
mano de estadísticas elaboradas con otros fines, pero que a partir de ellas se pueda
obtener información al respecto. Los censos de población facilitan datos sobre cambios
de residencia dentro del Estado y también de las personas procedentes del exterior para
el año de referencia y los anteriores. Sin embargo, como se desprende del análisis
comparativo anterior las discrepancias en términos absolutos y relativos con otras
fuentes resultan importantes. De cualquier manera, deben suponer un punto de partida
esencial, dada la laguna estadística indicada.
En términos absolutos se constató, a través de la ecuación compensadora o de
equilibrio demográfico, la infravaloración de los datos censales con respecto a otras
fuentes de información migratoria como es la EVR. Otros trabajos aportan resultados
parecidos, mediante comparaciones más pormenorizadas (Ródenas y Martí, 2005 y
Ródenas y Martí, 2009). También se realizó un análisis metodológico de los
27
cuestionarios utilizados y de los resultados obtenidos, concluyendo que la falta de
respuesta parcial, el carecer de preguntas específicas sobre el fenómeno migratorio y el
método de imputación utilizado por el propio INE, estarían provocando diferencias
significativas con respecto a otras fuentes. Con todo, el análisis de la varianza no
permite rechazar la igualdad entre las dos muestras para todos los años, mostrando la
inexistencia de diferencias significativas.
Siendo conscientes de las limitaciones anteriores, se procedió a testar la validez
estructural de las migraciones clasificadas por niveles educativos. En este caso, la única
fuente que permite un cierto grado de comparación es la EPA. Ni la EVR, ni la EM
facilitan datos desagregados por niveles educativos. Esta estadística ya fue utilizada
recientemente como base de información migratoria teniendo en cuenta la formación
para analizar la emigración española durante la actual crisis (Izquierdo et al., 2015a e
Izquierdo et al., 2015b). A pesar de las diferencias existentes entre ambas fuentes,
algunos indicadores muestran un alto grado de igualdad, aunque se constata una nueva
infravaloración en términos porcentuales de las migraciones de tercer grado, que se
estarían moviendo en torno a 20 puntos para las emigraciones y de 30 puntos para las
inmigraciones.
Teniendo presente estas limitaciones, la información migratoria censal por niveles
educativos permitiría contar con una estructura inicial del fenómeno. La construcción de
modelos alternativos a partir de ella, como pueden ser enlazando los valores de censos
consecutivos mediante funciones lineales o sigmoidales12, podrían mejorar los
resultados a nivel porcentual. Existen indicadores para la comparación de diferentes
modelos de tablas de contingencia como es el criterio bayesiano BIC (Bayesian
Information Criterion)13. A partir del modelo óptimo resultante podrían ser estimadas
las matrices migratorias anuales clasificadas por niveles educativos, mediante el
procedimiento Iterative Proportional Fitting (IPF) utilizando toda la información
disponible, tal y como lo han realizado los autores en trabajos recientes (César et al.,
2015 y Pereira et al., 2015).
28
Bibliografía
Agresti, A. (2011). Categorical data analysis. New Jersey: John Wiley and Sons, Inc.
Alippi, C. y Storti-Gajani, G. (1991). "Simple approximation of sigmoidal functions:
Realistic design of digital neural networks capable of learning". IEEE
International Symposium on Circuits and Systems, 1505-1508.
Basterretxea, K., Tarela, J.M. y del Campo, I. (2004). "Approximation of sigmoid
function and the derivative for hardware implementation of artificial neurons".
IEE Proceedings-Circuits, Devices and Systems, 151(1), 18-24.
Berry, R.A. y Soligo, R. (1969). "Some welfare aspects of international migration". The
Journal of Political Economy, 77(5), 778-794.
César, M., Pereira, X. y Verdugo, R.M. (2015). "Migraciones interregionales en España
por niveles formativos: Proyección de series temporales consistentes a partir de
la información disponible". II Congreso Internacional SETED-ANTE, Santiago
de Compostela. Universidade de Santiago de Compostela. 1-3 de xullo de 2015.
García Pérez, A. (2005). Métodos avanzados de estadística aplicada. Métodos robustos
y de remuestreo. Madrid: UNED.
Grubel, H.B. y Scott, A.D. (1966). "The international flow of human capital". The
American Economic Review, 56(1/2), 268-274.
INE (2007a). Censos de población y viviendas 2001. Resultados definitivos. Consultado
en http://www.ine.es/censo_accesible/es/inicio.jsp
INE (2007b). Evaluación de la calidad de los datos del censo de población 2001.
Madrid: INE.
INE (2011a). Informes metodológicos estandarizados. Consultado en
http://www.ine.es/dynt3/metadatos/es/RespuestaDatos.htm?oe=30243
INE (2011b). Proyecto de los censos demográficos 2011. Madrid: INE.
INE (2012). Censos de población y viviendas 2011. Resultados detallados. Consultado
en http://www.ine.es/censos2011_datos/cen11_datos_detallados.htm
IVIE (2015). Bases de datos de capital humano. Consultado en
http://www.ivie.es/es/banco/caphum/series.php
29
Izquierdo, M., Jimeno, J.F. y Lacuesta, A. (2015a). "La emigración de españoles
durante la gran recesión (2008-2013)". Cuadernos Económicos del ICE, 87, 223-
240.
Izquierdo, M., Jimeno, J.F. y Lacuesta, A. (2015b). "Spain: From immigration to
emigration?". Madrid: Banco de España, Working paper 1503.
Jurado, A.M. (2014). "El padrón y su relación con los censos de población y viviendas".
Índice: Revista de Estadística y Sociedad, (60), 10-12.
Leboeuf, K., Namin, A.H., Muscedere, R., Wu, H. y Ahmadi, M. (2008). "High speed
VLSI implementation of the hyperbolic tangent sigmoid function". Convergence
and Hybrid Information Technology, Third International Conference on
ICCIT'08, 1 1070-1073.
Martí, M. y Ródenas, C. (2004). "Migrantes y migraciones: De nuevo la divergencia en
las fuentes estadísticas". Estadística Española, 46(156), 293-321.
Mountford, A. (1997). "Can a brain drain be good for growth in the source economy?"
Journal of Development Economics, 53(2), 287-303.
Pereira, X., César, M. y Verdugo, R.M. (2015). "Estudio del perfil educativo de los
migrantes en España: Una aplicación del iterative proportional fitting mixto".
XXIII Jornadas de Asepuma. XI Encuentro Internacional. Aspectos
Cuantitativos de Problemas Económicos y Empresariales, Gijón, 9-10 de julio
de 2015.
Pérez, C. (2012). Estadística aplicada. Conceptos y ejercicios a través de Excel.
Madrid: Ibergarceta Publicaciones.
Ródenas, C. y Martí, M. (2005). "Migraciones: Qué describen el Censo de 2001 y la
Estadística de Variaciones Residenciales". VI Jornadas de Economía Laboral,
Alacant.
Ródenas, C. y Martí, M. (2009). "¿Son fiables los datos de migraciones del Censo de
2001?" Revista de Economía Aplicada, XVII (50), 97-118.
Vidal, J.P. (1998). "The effect of emigration on human capital formation". Journal of
Population Economics, 11(4), 589-600.
30
Zhang, M., Vassiliadis, S. y Delgado-Frias, J.G. (1996). "Sigmoid generators for neural
computing using piecewise approximations". IEEE Transactions on Computers,
45(9), 1045-1049.
31
Notas
1 A pesar de incluir solamente variables obligatorias según la Reglamentación Comunitaria o que destacan por su importancia, su número resulta muy elevado. Por ejemplo, dentro de las características personales, el Censo de 2011 ofrece información sobre 51 variables. Con respecto a las relacionadas con los núcleos familiares y la estructura del hogar, su número alcanza la cifra de 11. Por último, en relación con las características de las viviendas, las variables analizadas llegan hasta 13, y 16 las que recogen características de los edificios.
2 Los censos y los padrones ofrecen datos de la población clasificada por grupos etarios quinquenales, comenzando el tercer grupo en los 15 años, mientras que los datos de IVIE clasifican la población por sus características económicas y así se contempla la población en edad de trabajar, que en la actualidad incluye la población de 16 y más años.
3 “La consolidación del Padrón Continuo en la década del 2000 hizo que el Censo de 2011 se planteara como una operación muestral utilizando un fichero precensal donde el Padrón Continuo era el registro administrativo de base que se cruzó con otros registros para añadir, si era posible, las variables adicionales no incluidas en el Padrón”, (Jurado, 2014). Otro elemento que hacía prever los resultados anteriores tiene que ver con la ausencia de literatura que cuestione la fiabilidad de las cifras globales de los censos, a diferencia de la existencia de varios trabajos publicados que resaltan la escasa validez de los datos migratorios recogidos en los últimos censos: Martí y Ródenas (2004), Ródenas y Martí (2005) y Ródenas y Martí (2009).
4 Si los emigrantes hacia el exterior alcanzaran una proporción similar a la de la EVR sobre unos inmigrantes exteriores de 2.830.380, los primeros deberían ser 792.506 (el 28 por ciento de los inmigrantes), lo que daría un saldo de 2.037.874, apenas un 40 por ciento del saldo calculado por la ecuación compensadora para el período.
5 Los saldos migratorios teóricos (SMt) obtenidos de las ecuaciones compensadoras tendría que ser iguales a la suma de los saldos migratorios interior (SMi) y exterior (SMe) del censo, que obtendrían restando a los inmigrantes (I) los emigrantes (E). Así los emigrantes al extranjero del censo (Ee) se podrían calcular despejándolos de la siguiente ecuación: SMt = SMi + (Ie ‒ Ee), es decir, Ee = SMi + Ie ‒ SMt.
6 Aunque los resultados para 1991 y 2001 que aparecen en los trabajos citados son coincidentes con los aparecidos en la tabla existe alguna diferencia. La tabla recoge los cálculos realizados por los autores del presente artículo, ya que además en las tablas citadas aparecen errores en alguna de las operaciones matemáticas realizadas.
7 Las ecuaciones compensadoras utilizadas anteriormente para los totales sin desagregar por nivel educativo, encuentran, cuando se pretenden analizar los saldos intercensales teniendo en cuenta esta última variable, con la falta de desagregación del movimiento natural; esta carencia obliga a trabajar con las diferencias entre los datos censales.
8 El error relativo medio se ha obtenido como el cociente entre la diferencia de los saldos intercensales del período 2001-2011 y la suma del saldo migratorio interior más los inmigrantes al extranjero, obtenidos año a año del Censo de 2011, dividida por la media de ambas cantidades.
9 Los resultados de esta submuestra de la EPA para estudiar las migraciones clasificadas por niveles educativos fue utilizada en trabajos recientes como los de Izquierdo et al. (2015a) e Izquierdo et al. (2015b).
10 El error relativo se ha obtenido como el cociente entre la diferencia de los migrantes de la EPA y del censo, dividida por la media de ambas cantidades.
11 Estos estadísticos fueron calculados para las migraciones con estudios de primer, segundo y tercer grado, ya que en algunos casos para los grados inferiores (analfabetos y sin estudios primarios completos) persistían valores cero que imposibilitaban su realización. En todo caso se está trabajando con una proporción de migrantes muy elevada, que en el caso de la EPA en el peor de los casos casi alcanza el 98 por ciento y en el del censo supera el 92 por ciento.
12 Las funciones sigmoidales o tipo sigmoide, tienen un comportamiento asintótico, una de las más utilizadas es la tangente hiperbólica, que se emplea habitualmente en estudios de redes neuronales, Alippi et al. (1991), Zhang et al. (1996), Basterretxea et al. (2004) o Leboeuf et al. (2008).
13 Permite comparar varios modelos, como alternativa a las diferencias absolutas del ajuste, mediante la fórmula BIC = G2 – gl ln N, donde G2 es el cociente de verosimilitud definido anteriormente, gl son los grados de libertad según una chi-cuadrado y ln N el logaritmo neperiano del tamaño muestral. Los valores inferiores del BIC indicarían un mejor ajuste del modelo.
top related