estudios internacionales sobre la calidad de la...

Estudios internacionales sobre la calidad de la educación: la planifi cación de su diseño y la gestión de su impacto

Estudios internacionales sobre la calidad de la educación: la planifi cación de su diseño y la gestión de su impacto

Editado por

Kenneth N. Ross

e

Ilona Jürgens Genevois

Instituto Internacional dePlaneamiento de la Educación

4

Las designaciones empleadas y la presentación del material en este volumen no implican la expresión de ningún juicio de parte de la UNESCO o el IIPE sobre la condición jurídica de ninguno de los países, territorios, ciudades o zonas citados, o de sus autoridades, ni respecto de la delimitación de sus fronteras.

Los costos de publicación de este informe fueron cubiertos por una contribución de la Internationale Weiterbildung und Entwicklung, Capacity Building International, Germany (InWEnt), una subvención ofrecida por la UNESCO y contribuciones voluntarias efectuadas por diversos Estados Miembros de la UNESCO, cuya lista fi gura al fi nal de este volumen.

Título original: Cross-national studies of the quality of education. Planning their design and managing their impact, Paris: IIEP-UNESCO, 2006.

Publicado por: Instituto Internacional de Planeamiento de la Educación 7-9 rue Eugène Delacroix, 75116 ParísCorreo electrónico: [email protected] del IIPE en la Web: www.iiep.unesco.org

Diseño de la portada: Sabine Lebeau Composición: Linéale Production Traducción en español: Alfonso E. Lizarzaburu ISBN: 978-92-803-3289-6 © UNESCO 2008

mailto:[email protected]

http://www.iiep.unesco.org

5

ÍndiceSobre los autores 10Lista de abreviaciones y siglas 16Lista de cuadros, gráfi cos y recuadros 19Prefacio 21

1. Introducción: orígenes y contenido del Foro de Política 25Kenneth N. Ross, Laura Paviot e Ilona Jürgens Genevois

Introducción 25 Interés creciente en la calidad de la educación 26 El surgimiento de redes para monitorear la calidad de la educación 27 Las fuentes de las conexiones entre investigación y política 28 El proceso subyacente en las conexiones entre investigación y política 30 “Condiciones previas esenciales” para lograr conexiones exitosas

entre investigación y política 31 El Foro de Política 32 Los documentos del Foro de Política 33 Conclusión: los principales “mensajes” del Foro de Política 36 Bibliografía 37

Parte I: Antecedentes de los estudios internacionales sobre la calidad de la educación 39

2. ¿Qué es la «calidad de la educación»? (Desde la perspectiva de la UNESCO) 41Mary Joy Pigozzi

Introducción 41 ¿Qué motiva hoy los objetivos de la educación? 41 La «calidad de la educación» como un concepto dinámico 43 La educación basada en derechos como soporte conceptual de la calidad

de la educación 44 El concepto de «calidad de la educación» en relación con el mundo moderno 45 Conclusión 53 Bibliografía 53

3. ¿Qué mecanismos de monitoreo se pueden utilizar para efectuar estudios internacionales comparados y estudios nacionales? 54Thomas Kellaghan

Introducción 54 Preocupación acerca de lo que los estudiantes aprenden 55 Exámenes públicos (externos) 58 Evaluaciones nacionales 59 Evaluaciones internacionales 61 Responder a las preguntas de los responsables de la formulación de política 62

6

Índice

Conclusión 68 Bibliografía 69

4. ¿Cuáles son los principales estudios internacionales comparados? 71Aletta Grisay y Patrick Griffi n

Introducción 71 Evaluaciones nacionales e internacionales del rendimiento de los estudiantes 72 Principales evaluaciones internacionales comparadas 76 Los estudios de la IEA 76 Los estudios de la IAEP 79 Los estudios del IALS 80 Los estudios del PISA 81 Los estudios del SACMEQ 83 Retos planteados a la validez de los estudios internacionales comparados 84 Presentación de los resultados de los estudios internacionales comparados 90 Conclusión 97 Bibliografía 100 Apéndice: estudios internacionales publicados desde la década de los sesenta 103

5. ¿Qué es un “buen” estudio internacional comparado? 111T. Neville Postlethwaite

Introducción 111 Desde el punto de vista de un responsable de la toma de decisiones 112 Desde el punto de vista de un investigador 117 Conclusión 127 Bibliografía 127

6. ¿Qué es lo que “piensan realmente” los ministros de educación sobre los estudios internacionales comparados? 128Saul Murimba

Introducción 128 Comprender el papel y la posición de los ministros de educación 129 Preocupaciones de los ministros sobre los estudios internacionales comparados 130 Conclusión 138 Bibliografía 139

Parte II: Planifi cación del diseño de estudios internacionales comparados sobre la calidad de la educación 141

7. ¿Qué se debe medir en un estudio internacional comparado? 143Rainer Lehmann

Introducción 143 Una taxonomía de los estudios internacionales comparados: benefi cios y

justifi caciones 144 Variables explicativas que se deben medir 148 Productos educacionales que se deben medir 151

7

Índice

‘Capacidades mentales de orden superior’ que se deben medir 153 Áreas afectivas que se deben medir 155 Nuevas tendencias en evaluación 156 Validez del currículo frente a validez del contexto 159 Conclusión 160 Bibliografía 161

8. ¿A quién se debe medir en un estudio internacional comparado? 165Pierre Foy

Introducción 165 Defi nición de la población objetivo 166 Principales aspectos del diseño muestral 171 La determinación del tamaño de la muestra 182 Ponderaciones muestrales 186 Errores de muestreo 192 Conclusión 196 Bibliografía 197

9. ¿Cuáles son los costos nacionales de un estudio internacional comparado? 199Maria Teresa Siniscalco

Introducción 199 Recursos humanos 200 Reuniones internacionales 203 Recursos materiales 204 Fases del trabajo y operaciones 204 Lecciones aprendidas 221 Conclusión 225 Bibliografía 225

Parte III: Administrar el impacto de los estudios internacionales comparados sobre la calidad de la educación 227

10. ¿Cómo pueden pasar los países de los resultados de la investigación internacional comparada a la difusión y, después, a la reforma política? (Los estudios de caso de Kenya y Namibia) 229

Juliana Nzomo y Demus Makuwa Introducción 229 ¿Qué resultados de la investigación encontraron importantes

o controvertibles los ministerios de educación? 230 Estrategias de difusión de la investigación utilizadas

por los ministerios de educación 235 Retroalimentación a partir de la difusión 237 Reformas de la política y de la práctica basadas en los resultados

de la investigación 239 Conclusión 242 Bibliografía 243

8

Índice

11. ¿Cómo pueden utilizar los países los resultados de los estudios internacionales comparados para enfrentarse a “las grandes cuestiones políticas”? 246(Estudios de caso del África francófona)Jean Marc Bernard y Katharina Michaelowa

Introducción 246 La gestión de una evaluación típica del PASEC 247 Estudios de caso de países 249 Conclusión 256 Bibliografía 257

12. ¿Cómo puede manejar un país el impacto de resultados “excelentes” de investigaciones internacionales comparadas? 259(El estudio de caso de Finlandia)Pirjo Linnakylä

Introducción 259 Tensiones entre los resultados nacionales e internacionales de las evaluaciones 259 Variaciones en los niveles de interés: la prensa y los sindicatos de profesores 260 La atención internacional aumenta los niveles de interés en Finlandia 262 La atención internacional aumenta los niveles de interés en otros países

participantes en el PISA 263 Importantes hallazgos de investigación para Finlandia 264 Retos para las políticas y prácticas de reforma 266 Mejora de la cooperación en investigación entre los países nórdicos 267 Conclusión 269 Bibliografía 271

13. ¿Cómo puede un país manejar el impacto de resultados “pobres” en un estudio internacional comparado? (El estudio de caso de Alemania) 274Jeanne Rubner

Introducción 274 ¿Qué resultados consideró importantes el ministerio y por qué? 276 ¿Qué tipo de diálogo, presentación de resultados y grupos destinatarios utilizó

el ministerio y por qué? 280 ¿Qué reformas de política y práctica ministeriales derivaron de los resultados? 280 Conclusión 282 Bibliografía 283

14. ¿Cómo pueden trabajar las organizaciones internacionales con los medios de comunicación para manejar los resultados de los estudios internacionales comparados? (El estudio de caso de la OCDE) 284Andreas Schleicher

Introducción 284 ¿Qué sabemos acerca de la calidad de la educación? 285 Algunas implicaciones políticas debidas al PISA 286

9

Índice

¿En qué se concentraron los medios de comunicación? 289 Conclusión 294 Bibliografía 295

Parte IV: Conclusión 297

15. “Principales mensajes” del Foro de Política 299Kenneth N. Ross, Carola Donner-Reichle, Ingrid Jung,Ulrike Wiegelmann, Ilona Jürgens Genevois y Laura Paviot

Introducción 299 El Foro de Política y este libro 300 Cinco grupos de “mensajes del Foro de Política” 301 Mensajes del Grupo 1: planifi car el diseño de la medición de los estudios

internacionales comparados 302 Mensajes del Grupo 2: planifi car los diseños muestrales de los estudios

internacionales comparados 311 Mensajes del Grupo 3: planifi car el diseño logístico de los estudios

internacionales comparados 317 Mensajes del Grupo 4: gestionar el impacto de los estudios internacionales

comparados 321 Mensajes del Grupo 5: necesidades y modalidades del fortalecimiento de

capacidades 330 Comentarios fi nales 335 Bibliografía 336

Apéndice: Lista de participantes 339Índice alfabético 348

10

Sobre los autores Carola Donner-Reichle (Alemania) es directora de la División de Desarrollo Social de la Internationale Weiterbildung und Entwicklung gGmbH, Capacity Building International, Alemania (InWEnt). También es responsable de la política global de la InWEnt en relación con los Objetivos de Desarrollo del Milenio. Anteriormente fue subjefa del Gabinete del Ministro en el Ministerio de Cooperación Económica y Desarrollo, antes de lo cual fue responsable de las negociaciones relativas al seguimiento de la Cumbre Mundial sobre Desarrollo Social de las Naciones Unidas en el Ministerio de Cooperación Económica. Fue investigadora en el Institute of Development Studies en Dar Es Salaam (Tanzania) y experta de la OIT en la Ofi cina Regional para Asia y el Pacífi co en Bangkok (Tailandia). Tiene un doctorado en Ciencias Políticas de la Universidad Libre de Berlín. Pierre Foy (Canadá) es investigador principal en el Centro de Procesamiento de Datos [Data Processing Center] de la IEA en Hamburgo. Tiene una maestría en Estadística y una vasta experiencia en el campo de encuestas por muestreo y en estudios internacionales comparados en educación. Trabajó durante muchos años para Statistics Canada (STATCAN) en el desarrollo de métodos para encuestas y muestreo de diversas encuestas nacionales. Durante los últimos 12 años ha participado como experto en muestreo en el Tercer Estudio Internacional en Matemática y Ciencias [Third International Mathematics and Science Study] (TIMSS) y en el Estudio Internacional de Competencia Lectora [Progress in International Reading Literacy Study] (PIRLS). También es consultor en materia de muestreo de otros estudios de la Asociación Internacional de Evaluación del Rendimiento Escolar [International Association for the Evaluation of Educational Achievement] (IEA) y proyectos de la UNESCO.

Patrick Griffi n (Australia) es catedrático de Educación en la University of Melbourne y director del Australian Assessment Research Centre. Tiene un doctorado en Medición Educacional por la Florida State University y ha publicado muchos informes de investigación y artículos en los campos de la evaluación de la educación y el aprendizaje. Sus intereses actuales en materia de investigación incluyen la evaluación de competencias lingüísticas, la alfabetización en el sector industrial, la alfabetización y la matemática básica en la escuela, la concepción de perfi les y la evaluación de portafolios. Ha dirigido una serie de proyectos internacionales de investigación en el Pacífi co, Asia y Europa.


11

Sobre los autores

Aletta Grisay (Bélgica), graduada en Filosofía y Letras, efectuó la mayor parte de su carrera en el Service de pédagogie expérimentale de l’Université de Liège. En su calidad de miembro del equipo de investigación a cargo de la recolección de datos para la IEA en la comunidad francófona de Bélgica, participó en varias encuestas de la IEA (comprensión de lectura, literatura, inglés como lengua extranjera, competencia en lectura y el Segundo Estudio sobre Educación Cívica). También dirigió el diseño y la implementación de varias evaluaciones nacionales en Bélgica, Francia y en países en desarrollo. Actualmente es miembro del Grupo de Asesoría Técnica [Technical Advisory Group] del programa de Investigación PISA de la OCDE.

Ingrid Jung (Alemania) es Directora de la División de Educación de la Internationale Weiterbildung und Entwicklung gGmbH, Capacity Building International, Alemania (InWEnt). Tiene un doctorado en Lingüística por la Universidad de Osnabrück. Trabajó durante muchos años como asesora en educación, ofi cial de programas y consultora en América Latina. Sus actividades de investigación se concentran en la oferta educativa en sociedades plurilingües de América Latina y África. Ha publicado artículos y libros sobre educación bilingüe, alfabetización y la formación de profesores.

Ilona Jürgens Genevois (Alemania) es especialista adjunta de programa en el Instituto Internacional de Planeamiento de la Educación (IIPE-UNESCO). Anteriormente trabajó para diversas organizaciones internacionales en proyectos relacionados con el desarrollo de medidas de evaluación de acciones políticas y económicas. Tiene un Diplôme d’études approfondies (DEA) en Ciencias Económicas del Institut d’études politiques de París y un Diplom-Volkswirtin obtenido en Alemania. Ha publicado estudios sobre un enfoque para medición del bienestar y su contribución al debate socioeconómico. Sus intereses actuales de investigación incluyen la fi nanciación de la educación y la medición de la transferencia de ayuda en educación del Norte al Sur.

Thomas Kellaghan (Irlanda) es director del Educational Research Centre en Dublín. Tiene un doctorado en Educación de la Queen’s University (Belfast) y es miembro de la International Academy of Education (IAE). Sus áreas de interés incluyen la evaluación, la evaluación de programas y las desventajas educativas. Ha trabajado en diversos países de África, Asia y América Latina. Es coeditor del International Handbook of Educational Evaluation.


12

Sobre los autores

Rainer Lehmann (Alemania) es catedrático de Medición e Investigación Educacional en la Humboldt Universität (Berlín). Tiene un doctorado en Teología y otro en Educación de la Universidad de Hamburgo (Alemania). Ha publicado informes y artículos sobre evaluación educacional y la evaluación del rendimiento educativo en diferentes campos (composición escrita, historia, comprensión de lectura, educación cívica, entre otros). Sus actividades de investigación incluyen evaluaciones a gran escala, tanto a nivel nacional como regional, diseñadas para monitorear y mejorar los sistemas educativos. Algunos de estos estudios han seguido diseños longitudinales verdaderos destinados a establecer relaciones causales.

Pirjo Linnakylä (Finlandia) es profesora de Evaluación Educacional en la Universidad de Jyväskylä (Finlandia) y subdirectora del Institute for Educational Research. Tiene un doctorado en Ciencias de la Educación de la Universidad de Turku (Finlandia). Sus campos de pericia son las evaluaciones internacionales en gran escala, la evaluación de sistemas educativos y la investigación educacional comparada. Fue la coordinadora fi nlandesa del Estudio sobre Competencia Lectora [Reading Literacy Study] y la Encuesta Internacional sobre Alfabetización de Adultos [International Adult Literacy Survey] de la IEA y ha sido responsable de la evaluación de la lectura en la parte fi nlandesa del programa PISA. Tiene también más de 30 años de experiencia como profesora de lengua materna, formadora de profesores, investigadora y profesora universitaria.

Demus Makuwa (Namibia) es un planifi cador de alto nivel en la División de Monitoreo y Evaluación del Ministerio de Educación Básica, Deportes y Cultura de Namibia. Concluyó una maestría en Ciencias Sociales en la Universidad Karl Marx y se graduó en el Harvard Programme in Educational Policy and Planning. Ha sido Coordinador Nacional de Investigacion del SACMEQ en Namibia durante los últimos cuatro años y su muy exitosa ejecución de la recolección de datos en el SACMEQ II tuvo como resultado que Namibia fuera uno de los primeros países cuyos datos estuvieran preparados para el análisis.

Katharina Michaelowa (Alemania) es directora del Program on Development and Integration en el Hamburg Institute for International Economics. Tiene un doctorado en economía de la Universidad de Hamburgo y sus intereses en materia de investigación incluyen desarrollo, economía de la educación y economía de la ayuda. Antes de incorporarse al Hamburg Institute, trabajó en la OCDE en las áreas de desarrollo y educación. Es miembro del Consejo Científi co del Programme d’analyse


13

Sobre los autores

des systèmes éducatifs de la CONFEMEN (PASEC), un programa que realiza sondeos regularmente sobre el desempeño educativo en el África Subsahariana francófona.

Saul Murimba (Zimbabwe) es director del Consorcio del África Meridional y Oriental para el Monitoreo de la Calidad de la Educación [Southern and Eastern Africa Consortium for Monitoring Educational Quality] (SACMEQ. Tiene una maestría en Gestión de la Educación de la Universidad de Zimbabwe y ha trabajado en el Ministerio de Educación de Zimbabwe como investigador y evaluador en su Seccion de Política y Planifi cación. Tiene especial interés en la investigación por sondeos a gran escala para el desarrollo político y ha participado en investigación de política en colaboración con otros planifi cadores de la educación en el África Oriental y Central.

Juliana Nzomo (Kenya) es coordinadora del Programa Regional (Evaluación Educacional) en la Fundación Aga Khan.. Previamente se desempeñó como economista principal en el Departamento de Planifi cación del Ministerio de Educación, Ciencia y Tecnología de Kenya. Concluyó una maestría en Administración de la Educación en la Universidad de Nairobi y se graduó en el Programa de Formación Avanzada (PFA) en Planifi cación y Administración de la Educación del IIPE. Fue coordinadora nacional de investigación del SACMEQ durante cinco años y ha sido miembro de equipos keniatas de investigación para la preparación de los análisis sectoriales de educación a escala nacional.

Laura Paviot (Argentina) es investigadora residente del Instituto Internacional de Planeamiento de la Educación (IIPE-UNESCO). Empezó su carrera como profesora de educación primaria y secundaria en la Argentina. Tiene una maestría en Desarrollo Internacional con especialización en el Diseño y Monitoreo de Programas por la Universidad de La Sorbonne (Francia). Ha trabajado en el IIPE en las áreas de educación en situaciones de emergencia y de reconstrucción después de confl icto. Antes de incorporarse al IIPE trabajó para una organización sin fi nes de lucro en calidad de coordinadora de proyectos educativos en asociación con el Banco Interamericano de Desarrollo (BID). Sus intereses actuales en investigación incluyen la cobertura y el aumento de las clases particulares en los países en desarollo.

Mary Joy Pigozzi (Estados Unidos de América) fue directora de la División para la Promoción de la Calidad de la Educación en la UNESCO, donde supervisó el trabajo en los campos de la educación para el desarrollo


14

Sobre los autores

sostenible, educación para la paz y los derechos humanos, educación para enfrentar la pandemia del VIH y el SIDA y educación para la salud. Tiene un doctorado de la Michigan State University. Antes de incorporarse a la UNESCO fue responsable del desarrollo de la Iniciativa de las Naciones Unidas para la Educación de las Niñas (UNGEI) y el Programa Mundial de Educación para las Niñas del UNICEF. Entre odtras de sus contribuciones profesionales está el desarrollo de enfoques estratégicos para la educación en situaciones de emergencia y la formulación de política sobre la relación entre educación y trabajo infantil.

T. Neville Postlethwaite (Reino Unido) es catedrático (Emérito) de Educación Comparada en la Universidad de Hamburgo (Alemania) y miembro de la International Academy of Education (IAE). Tiene un doctorado en Educación Comparada por la Universidad de Estocolmo (Suecia) y es autor de muchos informes de investigación y artículos en el campo de los estudios internacionales comparados sobre la calidad de la educación. Fue coeditor principal de la primera y segunda ediciones de la International Encyclopedia of Education en doce volúmenes. Ha recibido varios premios de universidades y gobiernos para honrar sus contribuciones al avance de la investigación educacional. Actualmente trabaja para la UNESCO y el Banco Mundial como consultor en educación en África y Asia.

Kenneth Ross (Australia) es coordinador de Gestión de Proyectos Técnicos en el Instituto Internacional de Planeamiento de la Educación (IIPE-UNESCO). Concluyó sus estudios de doctorado en el Centre for the Study of Higher Education (University of Melbourne) y es miembro de la International Academy of Education (IAE). Trabajó como investigador educacional en la Survey Section del Australian Council for Educational Research y posteriormente se desempeñó como profesor adjunto de educación [Reader in Education] en la Deakin University (Australia). Sus intereses en materia de investigación cubren dos campos principales: métodos cuantitativos de investigación de política educativa y el uso de enfoques de fórmulas de fi nanciación para modelos de fi nanciación escolar.

Jeanne Rubner (Alemania) es editora principal del Süddeutsche Zeitung en Múnich, el diario de mayor circulación nacional de Alemania. Siguió sus estudios secundarios en Francia; estudió Física en Francia, Alemania y los Estados Unidos, y concluyó su doctorado en Física en la Universidad Técnica de Múnich. En el Süddeutsche Zeitung trabaja en la sección que


15

Sobre los autores

cubre la política nacional y se ocupa fundamentalmente de temas educacionales y científi cos. Es miembro de varios consejos y comités asesores, entre los cuales está el consejo de la Universidad de Ratisbona [Regensburger Universität] y el Transatlantic Science and Humanities Program de la Fundación Humboldt.

Andreas Schleicher (Alemania) es director de la División de Indicadores y Análisis de la Dirección de Educación de la OCDE. En el ejercicio de esta función es responsable de la elaboración y el análisis de puntos de referencia [benchmarks] sobre el desempeño de los sistemas educativos. Esto incluye la gestión del Programa Internacional de Evaluación de Estudiantes [Programme for International Student Assessment] (PISA) de la OCDE, el Programa de Indicadores de la Educación [Education Indicators Programme] (INES) de la OCDE, así como del Programa Mundial de Indicadores de la Educación [World Education Indicators Programme] de la OCDE y la UNESCO. Antes de incorporarse a la OCDE fue director de análisis de datos en la Asociación Internacional de Evaluación del Rendimiento Escolar [International Association for the Evaluation of Educational Achievement] (IEA). Estudió Física en la Universidad de Hamburgo y recibió una maestría en Matemática de la Deakin University.

Maria Teresa Siniscalco (Italia) es consultora en investigación educacional. Tiene un doctorado en Educación por la Universidad de Roma (La Sapienza). Fue administradora nacional del proyecto PISA de la OCDE en el Istituto Nazionale per la Valutazione del Sistema dell’ Istruzione (INValSI) en Frascati. Sus intereses de investigación cubren los campos de la comprensión de textos, apreciación televisiva e indicadores internacionales de educación. Ha trabajado como consultora para diversas organizaciones nacionales e internacionales.

Ulrike Wiegelmann (Alemania) es administradora principal de proyectos en la Internationale Weiterbildung und Entwicklung gGmbH, Capacity Building International, Alemania (InWEnt). Tiene un doctorado en Filosofía de la Universidad de Münster (Alemania) y ha realizado investigaciones sobre el rendimiento educativo de los estudiantes que asisten a escuelas primarias árabes y francófonas en Senegal. En la InWEnt es responsable del diseño e implementación de los programas de diálogo y formación en los campos de la calidad de la educación, así como del VIH, el SIDA y la educación.


16

Lista de abreviaciones y siglas

Español Inglés o francés

ABC Evaluación de Competencias Básicas

ABC Assessing Basic Competencies

APN Administrador(a) del Proyecto Nacional

NPA National Project Manager

BRR Réplica Repetida Equilibrada

BRR Balanced Repeated Replication

CI Correlación Intraclase (coefi ciente)

IC Intraclass Correlation

CINE Clasifi cación Internacional Normalizada de la Educación

ISCED International Standard Classifi cation of Education

CONFEMEN Conferencia de Ministros de Educación de los Países Francófonos

CONFEMEN Conférence des ministres de l’Éducation des pays ayant le français en partage

CNI Coordinador Nacional de Investigación

NRC National Research Coordinator

DIF Funcionamiento Diferencial del Ítem

DIF Differential Item Functioning

EPT Educacion para Todos EFA Education for All ETS Servicios de Pruebas

Educativas ETS Educational Testing

ServicesFIMS Primer Estudio

Internacional de Matemática

FIMS First International Mathematics Study

FISS Primer Estudio Internacional de Ciencias

FISS First International Science Study

IAEP Evaluación Internacional del Progreso Educativo

IAEP International Assessment of Educational Progress

IALS Estudio Internacional de Alfabetización de Adultos

IALS International Adult Literacy Study


17


IEA Asociación Internacional para la Evaluación del Rendimiento Escolar

IEA International Association for the Evaluation ofEducational Achievement

IIPE Instituto Internacional de Planeamiento de la Educación

IIEP International Institute for Educational Planning

INES Indicadores Internacionales de los Sistemas Educativos

INES International Indicators of Education Systems

INRA Instituto Nacional de Investigación Agronómica

INRA Institut national de la recherche agronomique

JRR Réplica Repetida Herramental o Jack-knife

JRR Jack-knife Repeated Replication

KIE Instituto de Educación de Kenya

KIE Kenya Institute of Education

LLECE Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación

LLECE Latin American Laboratory for Assessment of theQuality of Education

MDT Medida del tamaño MOS Measure of SizeMLA Monitoreo del

Rendimiento del Aprendizaje

MLA Monitoring Learning Achievement

NAEP Evaluación Nacional del Progreso Educativo

NAEP National Assessment of Educational Progress

ODM Objetivos de Desarrollo del Milenio

MDO Millenium Development Goals

OCDE Organización para la Cooperación y el Desarrollo Económicos

OECD Organisation for Economic Co-operation and Development

ONG Organización No Gubernamental

NGO Non-governmental organization

OREALC Ofi cina Regional de Educación para América Latina y el Caribe de la UNESCO

PASEC Programa de Análisis de los Sistemas Educativos de la CONFEMEN

PASEC Programme d’analyse des systèmes éducatifs de la CONFEMEN


18


PIRLS Estudio Internacional sobre Competencia Lectora

PIRLS Progress in International Reading Literacy Study

PISA Programa Internacional de Evaluación de Estudiantes

PISA Programme for International Student Assessment

PNUD Programa de las Naciones Unidas para el Desarrollo

UNDP United Nations Development Programme

PPT Probabilidad Proporcional al Tamaño

PPS Probability Proportional to Size

RCS Estudio sobre Comprensión Lectora

RCS Reading Comprehension Study

RLS Estudio sobre Competencia Lectora

RLS Reading Literacy Study

SACMEQ Consorcio del África Meridional y Oriental para el Monitoreo de la Calidad de la Educación

SACMEQ Southern and Eastern Africa Consortium for Monitoring Educational Quality

SIMS Segundo Estudio Internacional de Matemática

SIMS Second International Mathematics Study

SISS Segundo Estudio Internacional de Ciencias

SISS Second International Science Study

TIC Tecnología(s) de la Información y la Comunicación

ICT Information and Communication Technology

TIMSS Tercer Estudio Internacional de Matemática y Ciencias

TIMSS Third International Mathematics and Science Study

TRI Teoría de la Respuesta al Ítem

IRT Item Response Theory

UNESCO Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura

UNESCO United Nations Education, Science and Culture Organization

UNICEF Fondo de las Naciones Unidas para la Infancia

UNICEF United Nations Children’s Fund


19

Lista de cuadros, gráfi cos y recuadros

Cuadro 12.1 Cobertura de prensa en los países participantes en el PISA un mes después aproximadamente de la difusión de los resultados de la investigación

Gráfi co 2.1 Un marco de referencia para la calidad de la educación

Gráfi co 4.1 Comparaciones múltiples de los puntajes nacionales promedios de la escala en matemática del TIMSS

Gráfi co 4.2 Comparación de los resultados nacionales en matemática en el TIMSS, que ilustra el uso de la distribución de los puntajes como base para la comparación

Gráfi co 4.3 Niveles de competencia de los estudiantes y profesores del 6º grado en el proyecto SACMEQ II

Gráfi co 8.1 Cobertura y exclusiones

Gráfi co 8.2 Método sistemático de muestreo mediante la PPT

Gráfi co 8.3 Cuadro para el diseño muestral del PIRLS 2006

Gráfi co 8.4 Errores de muestreo

Gráfi co 14.1 La calidad y la equidad de la educación

Recuadro 1. Los niveles de competencia en ciencias de la IAEP Recuadro 2. Criterios del PISA 2003 para las exclusiones dentro

de las escuelas


21

Prefacio La conciencia que existe en el mundo sobre la necesidad de lograr la Educación para Todos (EPT) ha venido acompañada por el reto consistente en asegurar que se posibilite una mayor y mejor participacion en la educación, junto con mejores condiciones de escolarización y rendimiento de los estudiantes. Esta intensa concentración en la calidad de la educación ha sido estimulada por la creencia en que los sistemas educativos pueden actuar como vías para el desarrollo económico nacional en un mundo crecientemente globalizado y competitivo.

Estas pautas, cuando se toman junto con los enormes gastos de los gobiernos en educación, han precipitado demandas de más información y rendición de cuentas en relacion con la calidad de la educación. Una respuesta de los gobiernos en los países industrializados ha sido la instauración de sistemas para monitorear y evaluar la calidad basándose en estudios internacionales comparados organizados por la Asociación Internacional de Evaluación del Rendimiento Escolar (IEA) y la Organización para la Cooperación y el Desarrollo Económicos (OCDE).

Los gobiernos de los países menos desarrollados han mostrado interés en la instauración de mecanismos de monitoreo y evaluación similares. En algunos casos, lo han hecho con un enfoque regional en el que grupos de países vecinos con similares niveles de desarrollo social y económico han trabajado juntos para implementar estudios internacionales comparados. Los casos más destacados son los proyectos organizados por el Consorcio del África Meridional y Oriental para el Monitoreo de la Calidad de la Educación (SAQMEC), el Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación (LLECE) organizado por la Ofi cina Regional de Educación para América Latina y el Caribe (OREALC) de la UNESCO, y el Programme d’Analyse des Systèmes Educatifs (PASEC), organizado por la Conférence des Ministres de l’Éducation ayant le français en partage [Conferencia de Ministros de Educación Francófonos] (CONFEMEN).

A comienzos de 2004, varios miembros del Instituto Internacional de Planeamiento de la Educación (IIPE) y de la Internationale Weiterbildung und Entwicklung gGmbH – Capacity Building International (InWEnt) de Alemania se reunieron en París para discutir las implicaciones del aumento del interés a nivel mundial entre gobiernos y organismos internacionales en estudios internacionales comparados de la calidad de la educación. En esta


22

Prefacio

reunión se acordó que los ministerios de educación –especialmente aquellos países menos avanzados– sólo deberían participar en estos estudios si se comprometían activamente en todos los pasos apropiados para planifi car el diseño y gestionar el impacto de la investigación.

Por consiguiente, el IIPE y la InWEnt decidieron unir sus fuerzas para organizar un Foro Internacional de Política que facilitara el intercambio de conocimientos y experiencias nacionales en relación con el tema de los “Estudios internacionales sobre la calidad de la educación: la planifi cación de su diseño y la gestión de su impacto”. El Foro de Política se celebró en la sede del IIPE en París, el 17 y el 18 de junio de 2004, y asistieron alrededor de 50 participantes provenientes de Alemania, Argentina, Australia, Canadá, Finlandia, Francia, Guinea, India, Irlanda, Italia, Japón, Kenya, Malawi, Mozambique, Namibia, Noruega, Perú, Reino Unido, Sudáfrica, Suecia, Uganda, Yemen, Zambia y Zimbabwe. Entre los participantes había ministros de educación, altos funcionarios, planifi cadores e investigadores de la educación, profesores universitarios, especialistas de los organismos proveedores de fondos y personal de alto nivel de organizaciones internacionales.

Este libro se basa en las ponencias presentadas en el Foro de Política y en el intenso debate que se produjo sobre ellas durante las “Sesiones abiertas” que cerraron el foro.

Las ponencias del Foro de Política abordan tres temas principales:

• Antecedentes. Estas ponencias comienzan con una visión de conjunto de la terminología, los conceptos y las defi niciones relacionados con los estudios internacionales comparados de la calidad de la educación, para luego abordar lo que se ha logrado y cómo los investigadores y los responsables de alto nivel de la toma de decisiones evalúan lo que se ha logrado.

• Planifi cación del diseño. Estas ponencias examinan las tres preguntas clave para el diseño de la investigación en política educacional que deben ser adecuadamente respondidas para proceder al diseño e implementación de estudios internacionales comparados científi cos de la calidad de la educación: “¿A quién se mide?”, “¿Quién es medido?” y “¿Cuáles son los costos fi nancieros y logísticos?”.

• Manejo del impacto. Estas ponencias presentan estudios de caso que ilustran cómo los ministerios de educación y las organizaciones internacionales han manejado la difusión de los resultados de estudios internacionales comparados de la calidad de la educación.


23

Prefacio

Las Sesiones Abiertas del Foro de Política consistieron en grupos pequeños y flexibles de debate en los que los participantes podían refl exionar, criticar y sintetizar las cuestiones clave que iban surgiendo. Estas sesiones abordaron muchos temas y diversas experiencias nacionales. También permitieron que surgieran muchos Mensajes y recomendaciones del Foro de Política, documentados en el capítulo fi nal de este libro, relativos a la orientación que se debe dar a los ministerios de educación a fi n de asegurar que obtengan el máximo posible de benefi cios de los estudios internacionales comparados de la calidad de la educación.

Los mensajes y las recomendaciones del Foro de Política constituyen una rica cantera para discusiones más productivas, tanto en los ministerios de educación como entre ministerios y con diversos asociados externos. Por consiguiente, el IIPE y la InWEnt se complacen en ofrecer este libro como una contribución a la ampliación y el fortalecimiento de las oportunidades de intercambios nacionales e internacionales, que sirvan para fortalecer las capacidades de los países y sus sistemas educativos en la planifi cación y gestión de la calidad de la educación.

Mark Bray DirectorInstituto Internacional de Planeamiento de la Educación (IIPE) Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO) París, Francia

Carola Donner-Reichle DirectoraDivisión de Desarrollo Social Internationale Weiterbildung und Entwicklung – Capacity Building International, Alemania (InWEnt) Bonn, Alemania


25

Capítulo 1

Introducción: orígenes y contenido del Foro de Política

Kenneth N. Ross, Laura Paviot e Ilona Jürgens-Genevois

Introducción En 1958, un grupo de educadores (incluyendo a Bill Wall, del National Foundation for Educational Research in England and Wales; Arnold Anderson y Benjamin Bloom, de la Universidad de Chicago; Robert Thorndike, de la Universidad de Columbia, y Torsten Husén, de la Universidad de Estocolmo) sostuvieron una serie de reuniones en el Instituto de Educación de la UNESCO (UIE) en Hamburgo (Alemania). El propósito de estas reuniones era explorar cómo se podría utilizar la investigación para hacer comparaciones más válidas en cuanto a la calidad de la educación que se estaba impartiendo en los sistemas escolares del mundo.

Estos educadores creían que la investigación sobre la calidad de la educación requería una perspectiva internacional porque las variaciones entre los países en relacion con las políticas educativas, las prácticas y las tradiciones ofrecían un laboratorio natural para el estudio de aquellos aspectos del entorno educacional que tenían probabilidades de tener un impacto sustancial y consistente sobre la mejora del aprendizaje de los estudiantes. También sostenían que los estudios internacionales comparados sobre la calidad de la educación ofrecían mucho más que los estudios nacionales, porque “la costumbre y la ley defi nen lo que es aceptable desde el punto de vista educativo en un país, [mientras que] los sistemas educativos que están allende las fronteras nacionales sugieren lo que es posible desde el punto de vista educativo” (Foshay et al., 1962: p. 2).

A partir de estos modestos comienzos, Wall y sus colegas lanzaron la Asociación Internacional para la Evaluación del Rendimiento Escolar (IEA), que posteriormente se desarrolló hasta convertirse en una organización no gubernamental independiente con unos 60 países miembros. La primera iniciativa de investigación de la IEA durante 1959-1961 fue un estudio piloto en pequeña escala sobre la calidad de la educación en 12 países. Ésta fue la primera ocasión en la que se recolectaron datos de una manera sistemática sobre sistemas educativos, aplicando las mismas pruebas (traducidas a


26

Estudios internacionales sobre la calidad de la educación

distintos idiomas) a los estudiantes en diferentes países. Durante los 45 años siguientes, el IEA realizó muchos otros estudios internacionales comparados de la calidad de la educación (véase Postlethwaite, 2004).

Interés creciente en la calidad de la educación Hasta fi nes de la década de los ochenta, los resultados de buena parte

de los programas de investigación de la IEA se compartieron principalmente entre investigadores y educadores interesados en educación comparada, currículo y metodos de investigación cuantitativa. Los informes de investigacion a nivel internacional redactados para los estudios de la IEA se basaban a menudo en complejos análisis estadísticos y se formulaban en un estilo académico formal que la “gente común” consideraba más bien como algo de difícil acceso. Por consiguiente, los gobiernos sólo compartían o discutían ocasionalmente el uso de los resultados de la investigación de la IEA con fi nes políticos, excepto en países como los Estados Unidos, donde los comentadores sucitaban la inquietud acerca de una “crisis nacional de la educación” basándose en tablas de clasifi cación de los puntajes de rendimiento de los estudiantes.

Las cosas empezaron a cambiar en la década de los noventa, cuando los gobiernos –y no sólo la comunidad académica– se interesaron en el monitoreo y la evaluacion de la calidad de la educación. Este creciente interés de los gobiernos tuvo su origen en: (a) la emergencia de una creencia ampliamente compartida de que el rendimiento relativo comparado de los sistemas educativos nacionales era un elemento clave en las estrategias diseñadas para lograr mejoras en el desarrollo económico nacional y (b) la preocupación de la opinión pública en el sentido de que los enormes gastos del gobierno consagrados a la educación requerían ser acompañados de más altos niveles de supervisión y rendición de cuentas en relación con la calidad de la educación.

Importantes foros organizados por organismos internacionales también volcaron su atención hacia cuestiones relacionadas con la calidad de la educación. Las declaraciones de la Conferencia Mundial sobre la Educación de Jomtien en 1990 y el Foro Mundial sobre la Educación de Dakar en 2000 convocaron a los países del mundo a ampliar su visión de la Educación para Todos (EPT), más allá de la concentración en el aumento del acceso a la educación. Estas declaraciones hicieron hincapié en que para lograr la EPT en 2015, se requeriría que todos los países, además de una mayor participación en la educación, mejoraran “[...] todos los aspectos cualitativos de la educación, garantizando los parámetros más elevados


27


para conseguir resultados de aprendizaje reconocidos y mensurables [...]” (UNESCO, 2000).

El interés creciente por la calidad en la educación y la aceptación general de su papel esencial asociado a la educación en el contexto de un mundo globalizado y competitivo se refl ejó también en los infl uyentes informes publicados por organismos internacionales. Por ejemplo, el informe de 2004 con los resultados del Programa Internacional de Evaluación de Estudiantes (PISA), dirigido por la Organización para la Cooperación y el Desarrollo Económicos (OCDE), empezaba con la afirmación siguiente: “[...] la prosperidad de los países deriva ahora en gran medida de su capital humano y para tener éxito en un mundo rápidamente cambiante, las personas necesitan mejorar sus conocimientos y competencias a lo largo de sus vidas” (OECD, 2004, p. 3). Asimismo, en el Informe de Seguimiento de la EPT en el Mundo 2005. Educación para todos: el imperativo de la calidad de la UNESCO, se afi rma que: “Todo parece indicar que la calidad de la educación –tal como se mide por las puntuaciones obtenidas en los tests– infl uye en la rapidez con que las sociedades pueden enriquecerse y en la medida en que las personas pueden mejorar sus ingresos y su productividad” (UNESCO, 2004: p. 43).

El surgimiento de redes para monitorear la calidad de la educación

Hacia fi nes de la década de los noventa y al ingresar al nuevo milenio, los crecientes niveles de diálogo nacional e internacional sobre la importancia de la calidad de la educación generaron decisiones en muchos países para participar en redes que efectuaran investigaciones educacionales internacionales comparadas en gran escala. El propósito de estos estudios era recolectar, analizar, interpretar y comparar datos acerca de la calidad de los sistemas educativos en relación con las condiciones generales de escolarización, el rendimiento escolar de los estudiantes, así como de la equidad en la oferta y los resultados de la educación.

Los programas más destacados de investigación fueron: el Tercer Estudio Internacional de Tendencias en Matemática y Ciencias y sus versiones replicadas [Third International Mathematics and Science Study] (TIMSS y TIMSS-R), organizados por la Asociación Internacional para la Evaluación del Rendimiento Escolar (IEA), que cubren alrededor de 60 países desarrollados y cinco en desarrollo; el Programa Internacional de Evaluación de Estudiantes [Programme for International Student Assessment] (PISA), organizado por la Organización para la Cooperación


28


y el Desarrollo Económicos (OCDE), que cubre alrededor de 30 países de la OCDE y 10 que no pertenecen a ella; los proyectos organizados por el Consorcio del África Meridional y Oriental para el Monitoreo de la Calidad de la Educación [Southern and Eastern Africa Consortium for Monitoring Educational Quality] (SACMEQ), que cubren 14 países en desarrollo; el Laboratorio Latinoamericano para la Evaluación de la Calidad de la Educación (LLECE), organizado por la Ofi cina Regional de Educación para América Latina y el Caribe (OREALC) de la UNESCO, que cubre a 13 países en desarrollo; y el Programme d’analyse des systèmes éducatifs de la CONFEMEN (PASEC), organizado por la Conferencia de Ministros de Educación Francófonos [Conférence des Ministres de l’Éducation ayant le français en partage] (CONFEMEN), que cubre a 15 países en desarrollo (Postlethwaite, 2004).

Estos programas de investigación han utilizado métodos de investigación cada vez más avanzados en los campos de la (1) medición educacional, utilizando nuevos enfoques relacionados con la teoría moderna de respuesta al ítem; (2) muestreo, utilizando diseños computarizados y la selección de muestras probabilistas multietápicas complejas y (3) análisis de datos, utilizando la modelización multinivel para examinar vínculos entre las variables contextuales de la educación y el rendimiento educativo de los estudiantes (National Research Council, 2002).

Las fuentes de las conexiones entre investigación y política Antes de comprometer recursos sustanciales para participar en una

costosa investigación internacional comparada en gran escala sobre la calidad de la educación, los ministerios de educación necesitan justifi car su participación en relación con los benefi cios potenciales políticos para sus sistemas educativos. Estos benefi cios se pueden agrupar en tres áreas amplias, dependiendo si derivan de resultados de investigación descriptiva, resultados de investigación inferenciales o si provienen de fuentes indirectas que aparecen gracias a la participación en la investigación.

Los benefi cios políticos pueden provenir de fuentes basadas en resultados de investigación descriptiva que presenten sistemáticamente las características comunes y distintivas, estructuras y funcionamiento de diferentes sistemas educativos. Por ejemplo: a) Comparar las características más destacadas de los sistemas educativos

entre países puede magnifi car aspectos particulares de un sistema nacional de educación que sean problemáticos o inusualmente excelentes porque difi eren de otros países “similares”.


29


b) Defi nir como puntos de referencia aspectos del contexto educacional puede permitir que los responsables de la toma de decisiones juzguen su sistema educativo en relación a ejemplos de la mejor práctica o el alto rendimiento que prevalezcan en otros países.

c) Monitorear tendencias en el contexto educacional y resultados de la escolarizacion durante un período puede ofrecer información sobre mejoras o mermas en uno o muchos países, brindando así información para propósitos de rendición de cuentas o para formular juicios comparativos y evaluativos sólidos.

También se pueden obtener benefi cios políticos a partir de fuentes basadas en resultados de investigación inferencial, que requieren una comprensión más profunda de las pautas de relaciones entre los factores que describen las características de los estudiantes, los contextos educacionales y las mediciones del rendimiento de los estudiantes. Por ejemplo:

a) La comprensión de las diferencias en las condiciones de escolarización y el rendimiento educativo de estudiantes de grupos socialmente defi nidos puede aportar evaluaciones sistemáticas relacionadas con la equidad en la oferta y los resultados educativos.

b) La interpretación de las relaciones entre los factores vinculados a las condiciones de escolarización y el rendimiento educativo de los estudiantes se puede utilizar a fi n de identifi car enfoques más efi caces para la organización escolar y la asignación de recursos.

Finalmente, los benefi cios políticos pueden provenir de fuentes indirectas, tales como el fomento de debates productivos y el aprovechamiento de oportunidades de diversas formas de interacción profesional. Por ejemplo:

a) La participación en debates eruditos sobre resultados de investigación dentro y fuera de los sistemas educativos puede ayudar a los responsables de la toma de decisiones a esclarecer problemas y destacar prácticas exitosas en otros sitios y, a partir de aquí, estimular gradualmente una reforma política basada en la información más que en anécdotas y especulaciones.

b) La integracion de sistemas educativos nacionales, que previamente estaban aislados en redes regionales y mundiales, puede conducir a los gobiernos a realizar intercambios internacionales que los estimulen a reformar políticas y prácticas improductivas, y también brindar a los técnicos oportunidades para desarrollar competencias


30


conceptuales y técnicas avanzadas gracias al trabajo con colegas más experimentados.

El proceso subyacente en las conexiones entre investigación y política

La discusión previa sobre las tres “fuentes” de orientación política basada en la investigación, ofrece sólo una visión limitada de los “procesos” mediante los cuales se conectan la investigación y la política de manera tal que sea probable que conduzcan a la acción. Durante los últimos 50 años, han habido cambios signifi cativos en teorías que tratan de explicar estos procesos.

Las primeras concepciones “lineales” de las conexiones entre investigación y política se concentraron mayormente en los aspectos mecánicos, que consistían en el mero traspaso de información por parte de los investigadores a los responsables de la toma de decisiones. Esto suponía una secuencia directa de ocurrencias que comenzaba con la identifi cación del problema y la falta de conocimientos, y entonces se pasaba a la investigación que aportaría hallazgos y recomendaciones y, fi nalmente, produciría la evaluación y la revisión de las políticas vigentes o la formulación de nuevas políticas.

Sin embargo, muchos académicos aceptan ahora las conclusiones de Weiss (1982) acerca de la naturaleza difusa de las conexiones entre investigación y política, según la cual las ideas que emergen de la investigación se conectan gradualmente con la toma de decisiones, al suministrar marcos de referencia con los que los responsables de la formulación política son capaces de dar sentido a la experiencia e interpretar los problemas y las prioridades. Este “modelo iluminador” de los procesos mediante los cuales la investigación se conecta con la política sugiere que la investigación fortalece el entorno en el que tiene lugar la reforma de política mediante varios procesos: generando la clarifi cación de nuevos conceptos, brindando indicios de posibles alternativas, estimulando perspectivas innovadoras, y alterando gradualmente el lenguaje y las cuestiones debatidas en los círculos donde se formula la política.

Esto quiere decir que la investigación ofrece un trasfondo de datos, generalizaciones empíricas e ideas que “iluminan” la manera como los responsables de la formulación de política piensan los problemas. Infl uye sobre la conceptualización de los problemas que tratan; incide sobre aquellas facetas del problema que consideran inevitables e inmodifi cables,


31


así como sobre las que perciben como propicias para la acción política; amplía el rango de las opciones que toman en consideración y desafía algunos supuestos aceptados sobre los objetivos y actividades adecuados.

“Condiciones previas esenciales” para lograr conexiones exitosas entre investigación y política

En 1989, el IIPE organizó un seminario internacional (Ross y Mählck, 1990) que examinó cuestiones relativas a los procesos con los que los ministerios de educación podían recolectar, analizar y utilizar información basada en investigaciones previas, para mejorar el contexto de la reforma política relacionada con la planifi cación de la calidad de la educación. El IIPE y un grupo de ministerios de educación utilizaron posteriormente el informe del seminario para guiar el diseño y la gestion de programas de formación e investigación de una serie de estudios internacionales comparados de la calidad de la educación (Ross et al., 2004).

En las conclusiones de este seminario se examinaron las necesidades fundamentales en materia de investigación y formación que requerían ser abordadas por los ministerios de educación para ayudar a los planifi cadores e investigadores de la educación a brindar el tipo de información que los responsables de la toma de decisiones considerarían accesibles y pertinentes. Algunas de estas conclusiones se asociaron con el contenido o la estructura de los sistemas de información para la gestión de la educación (SIGE). Sin embargo, muchas de las sugerencias también implicaron que había dos condiciones previas esenciales para emprender el tipo de investigación que el modelo iluminador de Weiss reconocería como capaz de mejorar el entorno en el que ocurre una reforma de política productiva.

La primera condición previa era que las investigaciones de política educativa destinadas a generar benefi cios políticos relacionados con la calidad educativa requerían ministerios de educación que estuvieran participando muy de cerca en la planifi cación del diseño de la investigación según los más altos estándares técnicos posibles, de modo que a la hora de tomar decisiones se incorporaran sólo los datos válidos y útiles.

La segunda condición previa añadía que estos estudios también requerían que los ministerios de educación participaran muy de cerca en la gestion del impacto de la investigacion mediante un diálogo abierto y signifi cativo, de modo que los proveedores y usuarios de la información


32


fueran capaces de trabajar juntos para refl exionar sobre el signifi cado subyacente a los resultados de la investigación, y así optimizar las posibilidades de que se usaran con fi nes políticos productivos.

El Foro de Política A comienzos de 2004, varios miembros del personal del Instituto

Internacional de Planeamiento de la Educación (IIPE) y de la Internationale Weiterbildung und Entwicklung gGmbH – Capacity Building International (InWEnt) de Alemania se reunieron en París a fi n de debatir el creciente interés a escala mundial entre gobiernos y agencias internacionales en la realización de estudios internacionales comparados para la calidad de la educación. Observaron que esta tendencia era evidente tanto en países desarrollados como en desarrollo, y que se había manifestado concretamente en una importante expansión de las redes creadas específi camente para emprender estos estudios.

El IIPE y la InWEnt destacaron que los ministerios de educación deberían hacer todo lo posible para asegurar que su participación en esos estudios les brindaran información válida que se pudiera utilizar en benefi cio del desarrollo y la reforma de la política educacional. Concordaron con las importantes conclusiones del Seminario Internacional del IIPE de 1998 descrito previamente, que había advertido que la participación pasiva de los países en estudios internacionales comparados de la calidad de la educación comportaba peligros de participar en una iniciativa que podría revelarse costosa y dispendiosa de tiempo si fracasaba en su intento de (a) emplear diseños de investigación que aportaran datos pertinentes para la política y (b) aplicar métodos de gestión de resultados que comprometieran a los actores interesados en intercambios destinados a esclarecer la reforma de política. En síntesis, convinieron en que los ministerios de educación sólo deberían participar en estudios internacionales comparados si lo hacían participando activamente en todos los pasos relacionados con la planifi cación del diseño y la gestión del impacto de la investigación.

Dado el alcance y crecimiento de las múltiples iniciativas para monitorear, evaluar y comparar la calidad de la educacion impartida por los sistemas educativos, se decidió que el IIPE y la InWEnt conjugaran sus esfuerzos para organizar un Foro Internacional de Política que facilitara el intercambio de conocimiento y experiencias nacionales en esta área. El Foro de Política (denominado “Estudios internacionales comparados sobre la calidad de la educación: la planifi cación de su diseño y la gestión de su impacto”) se celebró en la sede del IIPE en París, los días 17 y 18 de junio


33


de 2004, y a él asistieron 50 participantes provenientes de países desarrollados y en desarrollo: Alemania, Argentina, Australia, Canadá, Finlandia, Francia, Guinea, India, Irlanda, Italia, Japón, Kenya, Malawi, Mozambique, Namibia, Noruega, Perú, Reino Unido, Sudáfrica, Suecia, Uganda, Yemen, Zambia y Zimbabwe. Entre los participantes había ministros de educación, altos funcionarios de ministerios de educación, planifi cadores e investigadores de la educación, profesores universitarios, especialistas de las agencias proveedoras de fondos y el personal de alto nivel de organizaciones internacionales.

Los documentos del Foro de Política El Foro de Política se estructuró alrededor de una serie de ponencias

de los participantes invitados y el debate en grupos pequeños, posibilitando así que refl exionaran, criticaran y sintetizaran las cuestiones que habían surgido durante las presentaciones formales en el foro.

Para su presentación en este libro, las ponencias del Foro de Política se han agrupado de modo tal que sigan los tres temas que estructuraron la secuencia de las sesiones del Foro de Política: “Antecedentes”, “Planifi cación del diseño” y “Gestión del impacto”.

a) Tema 1: Antecedentes de los estudios internacionales comparados (5 ponencias) Las dos primeras ponencias del Tema 1 “mapearon el terreno” mediante

el examen de las defi niciones y conceptos, e ilustraron cuántos debates en esta área surgen debido a desacuerdos con la terminología básica. Pigozzi analizó la rica diversidad de interpretaciones asociadas con el concepto de «calidad de la educación» y aportó algunos marcos de referencia interpretativos cuyo uso ha sido aceptado en los programas de educación de la UNESCO. Kellaghan esclareció los tres enfoques principales de la evaluación de la calidad (evaluaciones nacionales, evaluaciones internacionales comparadas y exámenes) mediante la presentación de una lista de las preguntas más frecuentes de los responsables políticos y mostrando luego qué enfoque brindaba las mejores respuesas a estas preguntas.

La tercera ponencia, de Grisay y Griffi n, brindó una “historia” de conjunto sobre los orígenes de los estudios internacionales comparados sobre la calidad de la educación, para luego explorar y clasifi car lo que habían logrado los estudios más importantes.


34


Las dos ponencias fi nales del Tema 1 exploraron los puntos de vista de los “actores olvidados” en la mayoría de las iniciativas de investigación en materia de política educacional: los ministros de educación y los responsables de tomar decisiones de alto nivel en los ministerios de educación. En primer lugar, Murimba aportó algunos análisis perspicaces de “lo que los ministros piensan realmente” acerca de los estudios internacionales comparados –incluyendo algunas observaciones muy interesantes sobre sus preocupaciones respecto de los resultados fi nales de la investigación y cómo deberían ser manejados por los investigadores. Postlethwaite presentó luego una visión global de los diferentes criterios con los que los responsables de alto nivel y los investigadores juzgan si un estudio internacional comparado es un “buen estudio”, con el propósito de facilitar la discusión entre estos dos grupos, de manera que puedan entender mejor los puntos de referencia políticos y científi cos para el enjuiciamiento.

b) Tema 2: Planificación del diseño de estudios internacionales comparados (3 ponencias) Las tres ponencias del Tema 2 abordaron las “grandes cuestiones”

que hay que plantearse en el diseño inicial de todos los estudios internacionales comparados de la calidad de la educación: “¿Qué se va a medir?”, “¿A quién se debe medir”? y “¿Cuáles son los costos fi nancieros y losgísticos”?

Lehmann examinó la cuestión de lo que se va a medir presentando una lista inicial de las principales categorías de comparación que los estudios internacionales tratan de examinar (promedio de rendimiento, productividad, distribución de la alfabetización, criterios múltiples y equidad) en asociación con los supuestos que se asumen respecto de las variables explicativas pertinentes. Luego exploró los dos grupos principales de variables: insumo y producto (incluyendo las capacidades mentales de orden superior y mediciones de la afectividad). Dentro de estos dos grupos identifi có problemas y retos para los gobiernos en relación con las decisiones que se requieren para optimizar los impactos políticos benefi ciosos a partir de la investigación.

La ponencia de Foy mostró que pequeñas diferencias en las decisiones acerca de a quién se debe medir producen importantes cambios en el alcance de la investigación, la capacidad de ser comparado y la validez de los estudios internacionales comparados sobre la calidad de la educación. Su análisis sistemático de los principales puntos de decisión en el diseño de la muestra brindó un mapa para el muestreo científi co que


35


tiene el potencial para su aplicación en todo el campo de la investigación educacional mediante encuestas.

La última ponencia del Tema 2, presentada por Siniscalco, abordó los costos fi nancieros y logísticos desde la perspectiva de una ofi cina de investigación en un país que participó en un estudio internacional comparado en gran escala de la calidad educativa. El punto fuerte de esta ponencia es que describe “lo que realmente sucedió” –en lugar de lo que debería haber sucedido– en cada fase del proyecto. La sección fi nal sobre “lecciones aprendidas” se debería leer en todas las ofi cinas de investigación y planifi cación de la educación.

c) Tema 3: Gestión del impacto de los estudios internacionales comparados Cada una de las ponencias del Tema 3 adoptó el enfoque ‘estudio de

caso’ a partir de uno de dos puntos de vista ventajosos. Las tres primeras ponencias abordaron estudios de caso sobre la gestión del impacto de los estudios internacionales comparados sobre la calidad educativa desde una perspectiva nacional, mientras que las dos últimas se concentraron en una perspectiva internacional.

La perspectiva nacional se examinó en las ponencias relacionadas con dos países en desarrollo (Kenya y Namibia) y dos países desarrollados (Alemania y Finlandia).

Nzomo y Makuwa iniciaron el abordaje de Kenya y Namibia con una interesante visión de conjunto de “¿Qué resultados de la investigación se consideraron importantes o controvertidos en los ministerios de educación?” A continuación, la ponencia describía las diferentes estrategias de difusión de la investigación que se adoptaron en cada país, para luego discutir la política y las prácticas de las reformas basadas en los resultados de la investigación.

Las ponencias sobre Alemania y Finlandia ofrecieron una muy contrastada presentación de las reacciones de los gobiernos sobre la experiencia de su “éxito nacional” o su “fracaso nacional” en estudios internacionales comparados sobre la calidad de la educación.

En el caso de Alemania, Rubner describió cómo el inesperado bajo desempeño de los estudiantes en los proyectos de la IEA y el PISA provocó una importante conmoción en la opinión pública, los profesores, los directores, los ministros de educación estatales y federal, y los jefes de gobierno. El resultado fue la implementación de una serie de análisis sobre la estructura y el contenido del sistema educativo alemán, así como el


36


lanzamiento de una extensa lista de reformas educacionales estatales y federal.

Por el contrario, la ponencia de Linnakylä describió las reacciones ofi ciales en Finlandia como un inesperado excelente desempeño en el rendimiento de los alumnos en los proyectos de la IEA y el PISA. El gobierno fi nlandés respondió inicialmente con desagrado e incredulidad, para luego, paulatinamente, debido a la intensa presión del interés internacional por la “fórmula secreta del éxito educativo” de Finlandia, pasar a la aceptación y el sentimiento de orgullo.

La perspectiva internacional comparada del Tema 3 se examinó en dos ponencias que cubrían diferentes contextos (países en desarrollo y una agencia internacional) y diferentes grupos objetivo (gobiernos y los medios de comunicación).

Bernard y Michaelowa abordaron la gestión de los resultados de la investigación del PASEC en Senegal, Togo y Guinea con el propósito de analizar algunos de los resultados comunes de los estudios internacionales comparados que los gobiernos utilizaron en materia política. Los autores concluyeron que el potencial que tienen los resultados de la investigación para incidir en la política educacional es infl uido en gran medida por el grado de estabilidad de los equipos de investigación y el contexto donde se elabora la política, combinados con la adecuada capacidad para movilizar recursos que fi nancien las reformas educativas.

Schleicher presentó los puntos de vista de una agencia internacional mediante el análisis de la manera en que el proyecto PISA era capaz de hacer que los periodistas pasaran de la simple descripción de una “tabla de clasifi cación” de puntajes promedio de pruebas nacionales, a un debate más ilustrado en el que los periódicos y la televisión empezaran a buscar los mensajes políticos más importantes que se pudieran extraer de los resultados de la investigación.

Conclusión: los principales “mensajes” del Foro de Política La última tarde del Foro de Política, cuando ya se habían presentado

y discutido todas las ponencias, se realizaron dos “Sesiones abiertas” en las que los problemas se pudieron analizar más intensamente en grupos de interés pequeños y fl exibles. Todo tema objeto de discusion en un grupo era informado por una audiencia fl otante de participantes y los temas escogidos para debate en cualquier grupo tendían a mostrar un fl ujo y refl ujo según quien estuviera presente.


37


Las sesiones abiertas del Foro de Política abordaron temas muy diferentes y diversas experiencias nacionales. En algunos casos, los participantes en el Foro de Política compartían una misma visión acerca de las sugerencias que se deberían hacer a los ministerios de educación en lo relativo a las decisiones, acciones y métodos requeridos para lograr los máximos beneficios políticos de la participación en los estudios internacionales comparados sobre la calidad educativa. En otros casos, los participantes en el Foro identifi caron problemas particulares o complejidades relacionadas con esos estudios que se utilizaron para elaborar sugerencias sobre la gestión de la investigación, enfoques sobre la difusión y estrategias de formación. Todas estas sugerencias se presentan y debaten en el capítulo final de este libro en forma de Mensajes del Foro de Política y Recomendaciones asociadas que cubren cinco áreas: planifi cación de los diseños de medición, planifi cación de los diseños muestrales, planifi cación de los diseños logísticos, gestión del impacto de los resultados de la investigación y necesidades en materia de fortalecimiento de capacidades.

Bibliografía National Research Council (Board on International Comparative Studies in

Education). 2002. Methodological advances in cross-national surveys of educational achievement, Washington, DC: National Academy Press.

Postlethwaite, T.N. 2004. Monitoring educational achievement, Paris: IIEP-UNESCO (Fundamentals of Educational Planning n.º 81).

OECD. 2003. Education at a glance, Paris: OECD.

OECD. 2004. Learning for tomorrow’s world: fi rst results from PISA 2003, Paris: OECD. Existe versión en español: OCDE, Informe PISA 2003: Aprender para el mundo de mañana, Madrid: Santillana, 2005.

UNESCO, 2000. Informe Final. Foro Mundial sobre la Educación. Dakar (Senegal), 26-28 de abril de 2000. París: UNESCO, p. 36.

UNESCO. 2004. Education For All Global Monitoring Report 2005: Education for All: the quality imperative, Paris: UNESCO. Existe versión en español: Informe de Seguimiento de la EPT en el Mundo 2005: Educación para todos, el imperativo de la calidad, París: UNESCO, 2005, p. 48.


PARTE IAntecedentes de los estudios internacionales

sobre la calidad de la educación


41

Capítulo 2

¿Qué es la «calidad de la educación»? (Desde la perspectiva de la UNESCO)

Mary Joy Pigozzi

Introducción Se requiere un nuevo enfoque para comprender el concepto de «calidad de la educación», porque su signifi cado tradicional ya no es adecuado en relación con las necesidades educativas que surgen en el nuevo milenio. Además, en múltiples casos el tipo de educación que se ofrece en muchos sistemas educativos ya no es pertinente para las sociedades en las que vivimos. Estos dos retos sugieren que ha llegado el momento de repensar este concepto de manera más integral, particularmente en lo relacionado a entender la necesidad en el siglo XXI de centrarnos en el aprendizaje.

¿Qué motiva hoy los objetivos de la educación? En la mayoría de los países del mundo, los juicios acerca de la calidad

de la educación han sido un asunto interno colocado bajo la responsabilidad de las autoridades educativas a nivel gubernamental e institucional. Hoy, sin embargo, las cuestiones relacionadas con la calidad de la educación no constituyen el coto privado de las autoridades educativas. Otros ministerios han empezado a mostrar interés en la educación. Lo mismo es cierto para las ONG, las empresas y el público en general, que han ejercido diferentes tipos de presión sobre los sistemas educativos. Las ramifi caciones de estas tendencias se extienden más allá de las paredes de los ministerios o de las instituciones considerados individualmente. Para explicar por qué ocurre esto y por qué la calidad de la educación se ha convertido en una cuestión tan destacada es necesario considerar diversos factores clave.

En primer lugar, los puntos de vista acerca de la importancia de la calidad de la educación no se pueden desligar del aumento de la importancia de la política educativa y la reforma de la educación dentro del amplio abanico de la política pública, debido principalmente al reconocimiento amplio de los vínculos entre educación y desempeño económico nacional. Buena parte de la preocupación de los gobiernos sobre la calidad de la


42


educación deriva de la difundida creencia de que la mala calidad frustrará los esfuerzos para utilizar la educación como una palanca efi caz sobre el crecimiento económico y el desarrollo en un momento de la historia mundial que experimenta la aceleración de la globalización.

En segundo término, la naturaleza del problema ha sido redefi nida. Los enfoques tradicionales de la calidad de la educación a menudo se basaron en mediciones indirectas [proxy measures], tales como aumento de la fi nanciacion y de otros insumos en cuanto a la oferta educativa. Si bien no totalmente impertinentes o inútiles, esos desembolsos pueden no ser decisivos cuando se utilizan otros criterios para defi nir y medir la calidad de la educación, a saber, resultados educativos medibles (conocimientos, competencias, habilidades y comportamientos). Los gobiernos y los ciudadanos están cada vez más preocupados por la brecha entre los desembolsos y lo que se aprende, lo que necesariamente lleva a plantear preguntas adicionales acerca de “¿Qué es lo que funciona?” en el proceso de enseñanza-aprendizaje.

En tercer lugar, esas interrogantes están alimentando en los gobiernos la tendencia creciente hacia un mayor interés en pruebas, y el uso de esas pruebas, mediante las cuales se pueda monitorear el rendimiento del aprendizaje de los estudiantes, tanto a nivel nacional como internacional. Este interés tiene dos dimensiones importantes. La primera, si los estudiantes están aprendiendo lo adecuado para llevar una vida decente en un mundo rápidamente cambiante. La segunda, íntimamente relacionada con la primera, se refi ere al monitoreo del desempeño del estudiante en el tiempo y en una perspectiva comparativa internacional, a fi n de brindar información para evaluar cuán bien, o mal, los sistemas educativos están preparando a los jóvenes en su papel de adultos del futuro como ciudadanos creativos y pensantes, capaces de mantenerse a sí mismos y contribuir al bienestar de sus familias, comunidades y sociedades.

En cuarto lugar, esa información se está convirtiendo en algo más sensible políticamente, dado que apunta hacia la desigualdad de la calidad, tanto dentro como entre sistemas educativos. Los niveles de calidad varían ampliamente de un sistema educativo a otro y, dentro de un mismo sistema, pueden haber grandes variaciones en la calidad (por ejemplo, entre escuelas públicas y privadas, entre escuelas rurales y urbanas, así como entre la educación destinada a la mayoría o a las minorías). Incluso en las mismas aulas, los niños y las niñas pueden tener experiencias de aprendizaje signifi cativamente diferentes. Por consiguiente, la desigualdad educativa


43

¿Qué es la «calidad de la educación»?

es una cuestion crítica que afrontan los sistemas educativos y es particularmente importante en lo que respecta a la creciente brecha económica entre los países y su impacto sobre los retos del desarrollo, así como los efectos de las desigualdades internas sobre la cohesión social nacional.

En quinto lugar, la creciente diversifi cación de las sociedades (como resultado de la migración, la urbanización y el cambio cultural) y una mayor sensibilidad hacia las identidades individuales y grupales (basadas en clasifi caciones nacionales, regionales, de género, culturales, étnicas y religiosas) están planteando conjuntamente nuevas demandas a los sistemas educativos y, por consiguiente, desafi ando los supuestos acerca de los fi nes y las funciones de la educación. Las cuestiones relativas a la calidad de la educación no se pueden separar de estas tendencias porque pueden generar problemas de discriminación, racismo y violencia, los cuales tienen una incidencia importante sobre el entorno de aprendizaje que ofrecen las escuelas y otros espacios de aprendizaje.

En sexto lugar (y directamente relacionadas con todas las cuestiones planteadas previamente) están las preguntas relativas a los fines fundamentales de la educación. Las desigualdades en la calidad de la educación a menudo refl ejan otras desigualdades que se pueden ver como directamente ligadas a la realización de los derechos humanos y otros derechos. Por tanto, a la educación se le pide que se convierta en un instrumento, entre muchos otros, que pueda construir sociedades basadas en la paz, la equidad y la práctica democrática.

La «calidad de la educación» como un concepto dinámico Esas diferentes presiones han dado como resultado que el concepto

de «calidad de la educación» ingrese al foro en la medida en que educandos, padres de familia y comunidades, educadores, dirigentes y paises reconozcan que lo que se aprende (y el cómo se aprende) es tan importante como el acceso a la educación. La difi cultad estriba en que si bien la mayoría de las personas comprende intuitivamente qué es lo que personalmente quieren decir cuando se refi eren a ‘calidad de la educación’, puede no haber una comprensión común del término. Esto es especialmente cierto ahora, a comienzos del siglo XXI, cuando la educación es entendida como “algo más que lectura, escritura y aritmética” y abarca una visión ampliada de la educación, tal como fue formulada en la Conferencia de Jomtien sobre la Educación para Todos (WCEFA, 1990) y reafi rmada


44


posteriormente en el Foro Mundial de Dakar sobre la Educación (UNESCO, 2000).

Por tanto, la comprensión de lo que constituye la calidad de la educacion está evolucionando. Las defi niciones convencionales incluían la alfabetización, la aritmética básica y las competencias para la vida corriente ligadas directamente a componentes tan importantes como profesores, contenidos, métodos, currículo, sistemas de exámenes, política, gestión y administración. Sin embargo, también existe la exigencia de refl exionar sobre la pertinencia de la educación en el mundo moderno. Mientras que en el pasado buena parte del énfasis en la educación estaba relacionado con la comprensión y el desarrollo cognitivos, ahora existe la necesidad de abordar, entre otras, la dimensión social de la educación. Se espera que la educación haga una contribución al desarrollo humano sostenible, la paz y la seguridad, los valores universales, la toma de decisiones informada y la calidad de vida a nivel individual, familiar, de la sociedad y del mundo.

La educación basada en derechos como soporte conceptual de la calidad de la educación

La UNESCO promueve una educación de alta calidad entendida como un derecho humano y apoya un enfoque basado en derechos para implementar todas las actividades educacionales. Hay tres aspectos importantes de la educación como derecho humano: (a) La participación en una educación de calidad como un fi n importante en sí mismo; (b) la práctica de los derechos humanos en la educación y (c) la educación como un derecho que facilita la realización de otros derechos.

El trabajo de la UNESCO en esta área se basa en varios instrumentos internacionales –incluyendo la primera Declaración de Derechos Humanos (Naciones Unidas, 1948)– que considera la educación como un derecho humano. Varios de estos instumentos internacionales han explicitado la naturaleza deseable o la calidad de este tipo de educación. Cuando vemos estos instrumentos en su conjunto y los interpretamos, trascendemos las cuestiones aisladas para encontrarnos con una red de compromisos que hablan de la profundidad y la amplitud de cómo debemos empezar a comprender el concepto de «calidad de la educación».

La interpretación de estos instrumentos debe inscribirse también en los contextos nacional y mundial actuales, así como entre las expectativas existentes sobre la educación. Es decir, la educación debe ser colocada y


45


comprendida en relación con un contexto más amplio que refl eje el aprendizaje en relación con el educando como persona, miembro de una familia y una comunidad, ciudadano y parte de una sociedad mundial.

La calidad de la educación debe reconocer el pasado, ser pertinente para el presente y tener una visión del futuro. También debe relacionarse con la construcción del conocimiento y la aplicación competente de todas las formas de conocimiento por parte de individuos únicos que actúan independientemente y en relación con otros. Una educación de alta calidad siempre permitirá refl ejar la naturaleza dinámica de la cultura y las lenguas, el valor de la persona en relación con el contexto más amplio y la importancia de vivir de manera tal que promueva la equidad en el presente y fomente un futuro sostenible.

El concepto de «calidad de la educación» en relación con el mundo moderno

Nuestra primera preocupación es el aprendizaje; por consiguiente, la relación entre el educando y el profesor es clave. Sin embargo, los insumos, procesos, entornos y resultados que rodean y promueven (o impiden) el aprendizaje también son importantes. Se puede percibir que estos inciden sobre la calidad de la educación a dos niveles: (a) del educando en su entorno de aprendizaje y (b) del sistema educativo que crea y sostiene la experiencia de aprendizaje. Cada uno de estos dos niveles se puede dividir para formar diez dimensiones relacionadas con la calidad de la educación, como se ilustra en el Gráfi co 2.1 El aprendizaje está en el centro y está rodeado por el ‘nivel interno del educando’ y el ‘nivel externo del sistema’. Ambos niveles operan dentro de un contexto específi co, que puede variar considerablemente de un lugar a otro.

Elementos a nivel del educando

■ Trata de incorporar a todos los educandos

La educación debe estar disponible sin discriminación. Esto destaca el compromiso de la UNESCO para llegar a quienes tradicionalmente han sido descuidados, incluyendo a los pobres, las niñas, los niños que trabajan, los niños en situaciones de emergencia, los niños discapacitados y aquellos que viven en comunidades nómadas. Sin embargo, no se trata simplemente de una preocupación por la cantidad. Los educandos tienen derecho a una educación que les servirá de base para una educación a lo largo de toda la vida.


46


Por consiguiente, una educación de alta calidad implica un entorno que busca activamente a todos los educandos y los ayuda a aprender utilizando una amplia gama de modalidades, reconociendo que el aprendizaje está ligado a la experiencia, la lengua y las prácticas culturales, los talentos, las características y los intereses. Un enfoque semejante reconoce que las personas aprenden de maneras diferentes y que cada quien hace hincapié en diferentes sentidos y aptitudes.

Una educación de alta calidad también favorece la adaptación del educando al logro de sus necesidades de aprendizaje. Asimismo, es inclusiva y procura asegurar que todos los educandos, independientemente de su sexo, edad, lengua, religión y etnia, sean atendidos, y tengan la posibilidad de participar y aprender de las actividades de aprendizaje organizadas.

■ Lo que trae consigo el educando

Lo que el educando aporta a su propio aprendizaje, y al del grupo, es de máxima importancia. Puede variar de competencias laborales hasta experiencias traumáticas; de excelentes oportunidades de desarrollo en la primera infancia hasta enfermedades o hambre. Una educación de alta calidad tiene que considerar al educando como participante activo y elemento central de los esfuerzos educativos. Los educandos aportan a su aprendizaje, y al del grupo en el que participan, una gran diversidad de experiencias, características, habilidades y condiciones que refl ejan su situación previa y actual, y plantean obstáculos y oportunidades a la manera en que aprenden.

Todas estas características determinan cómo un educando aprende, se comporta en clase, interactúa con el grupo y el profesor, y cómo interpreta el conocimiento que se le presenta. Por tanto, una educación de alta calidad debe reconocer, responder activamente y aprovechar la diversidad de los educandos.

■ Contenido

El contenido de la educación debe ser reexaminado a la luz de los cambios que han ocurrido en el mundo. Gran parte de lo que se enseña actualmente en el mundo podría ser menos pertinente para las generaciones futuras de educandos. En muchos países se necesitan currículos y materiales modernos y pertinentes que cubran áreas tales como alfabetización, aritmética básica y “hechos y competencias para la vida” (lo que incluye educación en derechos, igualdad entre los sexos, respeto


47


por la tierra y otras formas de vida, salud, nutrición, VIH y SIDA, paz, así como respeto y valoración de la diversidad).

Los educandos tienen derecho a una educación de calidad que les servirá de base para su aprendizaje a lo largo de toda la vida.

El acceso a sufi ciente material educativo ha sido reconocido desde hace tiempo como algo esencial para el aprendizaje. La disponibilidad de material de enseñanza y aprendizaje a bajo costo puede facilitar el aprendizaje, tanto como el material costoso. No obstante, el material debe ser revisado a la luz de lo que vehiculan en términos de derechos, obligaciones y responsabilidades en relación con la problemática de género, estereotipos y religión. ■ Procesos

Los procesos educativos constituyen a menudo un aspecto descuidado de la calidad de la educación. Cómo se posibilita que los educandos planteen y resuelvan problemas, cómo se trata a diferentes educandos en el mismo grupo, cómo son tratados y se comportan los profesores y los administradores, y cómo participan las familias y las comunidades en la educación son procesos que inciden sobre la calidad de la educación. El tratamiento diferenciado de los niños en la primera infancia sitúa en primer plano la idea de que algunas personas no tienen los mismos derechos que otras, lo que puede alentar la intolerancia hacia las minorías.

Los procesos educativos de alta calidad requieren profesores bien formados, capaces de utilizar métodos de enseñanza-aprendizaje y enfoques de competencias para la vida corriente centrados en el educando. Por consiguiente, incluso el término ‘centrado en el educando’ se debe reformular para abordar cuestiones de desigualdad y discriminación en relación con, por ejemplo, la cultura, la lengua y el género.

Cómo se transmiten y adquieren el conocimiento, las competencias y los valores es una parte tan importante del currículo como lo es aquello que se aprende, porque de hecho el proceso es parte de “lo que” se aprende. En el contexto del aprendizaje, los educandos deben ser capaces de expresar sus puntos de vista, pensamientos e ideas para participar plenamente, asociarse libremente y sentirse a gusto por ser quienes son, venir de donde vienen, su sexo y aquello en lo que creen. Necesitan ser dignifi cados.

Con estos procesos de ayuda colocados en el lugar que le corresponden, los educandos pueden desarrollar la autoestima, que es esencial para la toma de decisiones a lo largo de la vida, y un sentido de la autodisciplina que los ayudará a proseguir sus objetivos personales.


48


■ Contexto

Cada vez hay más pruebas de que un entorno de aprendizaje apropiado también se puede considerar como un elemento que contribuye a lograr una educación de calidad. Es necesario disponer de instalaciones sanitarias accesibles a todos y, de ser posible, servicios de salud y nutrición en la vecindad. Las políticas escolares y su implementación deben promover la seguridad, así como la salud física y mental. Mientras que el entorno físico se comprende mejor, el psicosocial, que es igualmente importante, merece seria atención, de manera que prácticas como la discriminación basada en el género, la intimidación, el castigo corporal y el trabajo forzado sean eliminados.

Gráfi co 2.1 Un marco de referencia para la calidad de la educación

Recursos

Medios para medir los resultados del aprendizaje

Contexto

Contenido

Aprendizaje

Incorpora a todos loseducandos

Lo que trae consigoel educando

Procesos

Marco legislativo de apoyo

Implementación de buenas políticas

Sistema administrativo y de gestión


49


La falta de seguridad puede ser evidente en términos de peligros físicos, tales como golpizas o violación. Sin embargo, más insidiosas son las formas invisibles de acoso y violencia. La investigación efectuada recientemente ha destacado la violencia en la educación, especialmente la violencia basada en el género. La violencia bajo todas sus formas, cualquier acción que provoca daños emocionales o físicos a una persona, afectará evidentemente el aprendizaje. Los responsables a menudo son otros estudiantes, pero también pueden ser profesores o administradores escolares. Debe destacarse continuamente la particular vulnerabilidad de las niñas frente al espectro de violencia que pueden experimentar.

Elementos a nivel del sistema educativo

■ Sistema administrativo y de gestión

La estructura y organización del sistema educativo generalmente sirve de sustento fi losófi co a lo que ocurre en su seno, ya se trate de una universidad, una escuela o una unidad de desarrollo curricular de un ministerio de educación. De ahí que los sistemas educativos presenten a menudo una cultura que refl eja (quizá inevitablemente) la cultura dominante en un país.

Un sistema educativo debe estructurarse y organizarse de manera tal que se centre en el educando. El sistema debe ser justo y transparente para todos sus miembros. Las normas deben ser claras, con responsabilidades y procedimientos bien formulados e implementados. Hay que facilitar el trabajo de los profesores mediante un sistema administrativo y de gestión diseñado para promover la mejora del aprendizaje. Los horarios también deben ser lo sufi cientemente fl exibles como para evitar que los niños en situación de riesgo abandonen o pierdan su derecho a la educación.

Las escuelas bien dirigidas disponen de espacios en los que se pueden plantear problemas difíciles, un primer paso clave para abordarlos. La educación debe ser accesible a los padres de familia y las comunidades. Deben sentirse bien y tener una actitud positiva sobre sus papeles en el proceso educativo. Esto no sucederá si no se dispone de una adecuada estructura y organización del sistema educativo en todos los niveles.

Es evidente que la estructura, organización y gestión de la educación desempeñan un papel importante en el control y el equilibrio necesarios en cualquier sistema. Esto supone que las instituciones interesadas (como las que forman a los maestros y los institutos de investigación) también deben desempeñar un papel clave en las actividades educativas.


50


■ Implementación de “buenas políticas”

Generalmente, los ministerios de educación establecen políticas que pueden no haber sido conocidas y comprendidas ampliamente por todos, especialmente a nivel del aula. Por consiguiente, un punto de partida útil es promover la toma de conciencia de estas políticas entre los administradaores, profesores y estudiantes. El paso siguiente consiste en asegurar que existan mecanismos para implementar y hacer cumplir esas políticas, pues de nada sirve disponer de normas y procedimientos si no se cumplen.

Algunos de los esfuerzos más exitosos para promover, implementar y hacer cumplir las buenas políticas son aquellos que se han construido basándose en una amplia participación de profesores y estudiantes. Todas las políticas escolares deben ser congruentes con la legislación nacional, que debe revisarse y actualizarse regularmente para asegurar su pertinencia.

La educación no es independiente del resto de la sociedad, ni de las otras políticas que se elaboran e implementan en el país. Por ejemplo, una educación de alta calidad necesitaría políticas coherentes y convergentes en áreas tales como medios de comunicación responsables, educación sanitaria, juventud, programas para el desarrollo de la primera infancia y oportunidades de aprendizaje a lo largo de toda la vida.

■ Marco legislativo de apoyo

La legislación es esencial para asegurar que los principios reconocidos y contenidos en el concepto de «derecho a la educación» puedan ser efectivamente puestos en práctica cotidiana y duraderamente. Como con las políticas, se debe disponer de una legislación educativa y de otra legislación ad hoc, que sean comprendidas por los expertos y el público en general, e implementadas.

Debe haber un marco legislativo propicio que sea más que “pura boquilla” en relación con el derecho a la educación, defi nido ampliamente. Debe facilitar los cambios necesarios en el sistema educativo, a nivel macro y micro. Ciertamente, una educación de alta calidad debe ser accesible a todos los niños. Esto signifi ca que en algunos países el sistema debe expandirse para asegurar que existan sufi cientes plazas. La legislación debe abordar las obligaciones relativas a la provisión de educación (defi nidas ampliamente para incluir el acceso y la calidad) y las expectativas globales sobre el sistema.


51


Es importante obligar al Estado, el garante de la nación, a brindar educación a todos. Muy frecuentemente, la educación obligatoria es percibida como un marco legal que coloca a los padres y a los niños, especialmente a las niñas, en el papel negativo de criminal o víctima. Disponemos de otra legislación igualmente importante. Por ejemplo, la Convención de los Derechos del Niño (Naciones Unidas, 1989) estipula que los niños menores de 15 años no deben verse privados de su aprendizaje debido a su participación directa en hostilidades. Asimismo, la legislación internacional también establece la edad mínima para trabajar a tiempo completo, por lo que la legislación laboral y educativa deben ser congruentes con esos convenios.

En muchos casos se necesita una acción compensatoria para asegurar la igualdad de oportunidades educativas. Los datos disponibles y la práctica en curso en un creciente número de países sugieren que debe prestarse un sólido apoyo a la disciminación positiva, iniciada legalmente, para asegurar las oportunidades educativas de quienes se ven afectados por la discriminación.

■ Recursos

Una educación de alta calidad requiere recursos, reconociendo la amplia gama de recursos humanos y materiales que se pueden aportar para apoyar la educación. Mientras algunos países han sido capaces de reestructurar sus presupuestos para hacer hincapié en la educación como un motor clave para el desarrollo nacional y un medio para construir sociedades democráticas, otros no están en condiciones de hacerlo. Asignar recursos para apoyar una educación de alta calidad requiere una visión a largo plazo. Por ejemplo, la legislación internacional establece la educación obligatoria gratuita. Se reconoce que esto podría no ser posible inmediatamente, especialmente si se tiene en cuenta que la universalización no es una realidad en muchos países; pero se deben elaborar planes e iniciar acciones con este fi n. A corto plazo, es esencial que los costos de la educación se distribuyan equitativamente.

■ Medios para medir los resultados del aprendizaje

Esta ponencia empezó subrayando la importancia del aprendizaje. Por consiguiente, es apropiado que la última de las diez dimensiones de la calidad cierre el círculo y aborde los resultados del aprendizaje. En este sentido, la búsqueda de una mejor comprensión de lo que se quiere de una educación de alta calidad ha ampliado signifi cativamente los resultados


52


esperados del aprendizaje. La siguiente clasificación simple de los principales tipos de resultados del aprendizaje perseguidos puede ser útil: (a) conocimiento: los niveles cognitivos esenciales que deben lograr todos los educandos (incluyendo lecto-escritura, aritmética básica y un tronco común de conocimientos); (b) valores: solidaridad, igualdad entre los sexos, tolerancia, comprensión mutua, respeto de los derechos humanos, no violencia, y respeto por la vida y dignidad humanas; (c) competencias: seguridad sobre cómo resolver problemas, experimentar, trabajar en equipo, vivir juntos e interactuar con personas diferentes, y aprender a aprender; y (d) comportamiento: capacidad para poner en práctica lo que se ha aprendido.

Nuestra capacidad para medir el rendimiento del aprendizaje varía considerablemente en relación con los tipos de resultados que se miden. Hay en uso muchos indicadores directos (o indirectos) del rendimiento del aprendizaje y se cuenta con algunos sistemas para medir el rendimiento del aprendizaje y utilizar los resultados para la implementación y la evaluación de políticas, programas y prácticas educativos.

Sin embargo, se ha hecho más esfuerzo para medir conocimientos y competencias, que valores y comportamientos. Se cuenta con algunos mecanismos para medir resultados del aprendizaje. Por ejemplo, el proyecto Monitoreo del Rendimiento del Aprendizaje [Monitoring Learning Achievement] (MLA) de la UNESCO, que trató de medir las competencias para la vida corriente y la alfabetización, y el proyecto Niveles Mínimos de Aprendizaje [Minimum Levels of Learning] (MLL) en la India y el proyecto Evaluación de Competencias Básicas [Asseessment of Basic Competencies] (ABC) en Bangladesh. Las investigaciones de los proyectos MLL y ABC se concentran en el rendimiento cognitivo, aunque también se han esforzado en medir valores, competencias y comportamientos.

Esto indica la necesidad de trabajo adicional. La paulatina comprensión de las diversas dimensiones de la calidad sugiere que algunos de los indicadores utilizados comúnmente también deberían reconsiderarse. También indica que si bien las comparaciones internacionales son importantes, no son las únicas en las que los países deben concentrar su atención. En efecto, en algunos casos se podría necesitar la comparación dentro del país y entre países para fi nes políticos.


53

Conclusión No se puede esperar que los sistemas de educación y sus procesos

cambien de la noche a la mañana. Pensar de esta manera es irrealista. Una visión de la calidad que tiene en cuenta sus diversas dimensiones establece el estándar. Si bien hay objetivos comunes y principios subyacentes, no existe ningún enfoque “talla única”. Diferentes contextos, circunstancias, sistemas y recursos implican muy diversos puntos de entrada. Estos pueden ser la formación del personal docente, la elaboración del currículo, material pedagógico adicional o la introducción de diferentes sistemas de evaluación. Profesores, escuelas, comunidades, sistemas y países son responsables de determinar cómo se debe interpretar esta visión y, paulatinamente, hacerla realidad. Lo importante es que comprendan qué es lo que esperan de la educación y formulen esas expectativas de manera tal que se puedan medir.

Bibliografía Delors, J. 1996. Learning: the treasure within, Paris: UNESCO. Existe

versión en español: La educación encierra un tesoro. Informe a la UNESCO de la Comisión Internacional sobre la educación para el siglo XXI, Madrid: Santillana-Ediciones UNESCO.

Naciones Unidas. 1948. Declaración Universal de Derechos Humanos, Nueva York: Naciones Unidas. Cf.:

www.un.org/spanish/aboutun/hrights.htm

Naciones Unidas. OACDH. 1989. Convención sobre los Derechos del Niño. Cf.: www2.ohchr.org/spanish/law/crc.htm

UNESCO. 2000. The Dakar Framework for Action: Education for All – Meeting our collective commitments. World Education Forum, Dakar (Senegal), 26-28 April. Paris: UNESCO. Existe versión en español: Marco de Acción de Dakar. Cumplir nuestros compromisos comunes. Foro Mundial sobre la Educación, Dakar (Senegal), 26-28 de abril. París: UNESCO, 2000.

WCEFA. 1990. World Declaration on Education for All: meeting basic learning needs, New York: WCEFA. Existe versión en español: WCEFA. 1990. Declaración mundial sobre educación para todos, Nueva York: WCEFA.


http://www.un.org/spanish/aboutun/hrights.htm

54

Capítulo 3

¿Qué mecanismos de monitoreo se pueden utilizar para efectuar

estudios internacionales comparados y estudios nacionales?

Thomas Kellaghan

Introducción Una novedad interesante y signifi cativa en el área de política de la educación en años recientes ha sido la preocupación creciente por lo que los estudiantes aprenden como resultado de su experiencia educativa. Aunque hasta hace muy poco el foco de la atención en la evaluación de la calidad de la educación eran los insumos (por ejemplo, infraestructura, material pedagógico, textos escolares y formación del personal docente), esto ya no es así. Hoy, la pregunta que plantean muchos comentadores y responsables de la formulación de política es: “¿Adquieren los estudiantes, como resultado de su proceso educativo, los conocimientos, competencias, actitudes y comportamientos adecuados?”

La declaracion de más peso, y probablemente más infl uyente, de preocupación en cuanto al aprendizaje de los estudiantes se puede encontrar en el documento adoptado por la Conferencia Mundial de Educación para Todos de Jomtien (Tailandia), en marzo de 1990. En ella se sostiene que la oferta de educación básica para todos sólo tiene sentido si los estudiantes adquieren efectivamente conocimientos útiles, capacidad de raciocinio, aptitudes y valores. Por tanto, el Artículo 4 de la Declaración Mundial sobre la Educación para Todos afi rma que la atención de la educación básica debe centrarse en: “[...] las adquisiciones y los resultados efectivos del aprendizaje, en vez de prestar exclusivamente atención al hecho de matricularse, de participar de forma continuada en los programas de instrucción y de obtener el certifi cado fi nal” (WCEFA, 1990: p. 6 ). El Marco de Acción de Dakar de 2000 renueva el compromiso de los gobiernos nacionales, organizaciones y agencias donantes a fi n de asegurar que todos logren: “[...] resultados de aprendizaje reconocidos y mensurables, especialmente en lectura, escritura, aritmética y competencias prácticas esenciales” (UNESCO, 2000: p. 8).


55

¿Qué mecanismos de monitoreo se pueden utilizar?

En esta ponencia haré hincapié en algunas razones del aumento de la preocupación por el aprendizaje de los estudiantes. Luego describiré brevemente tres procedimientos para ofrecer información sobre lo que los alumnos han aprendido: (a) exámenes públicos (externos); (b) evaluaciones nacionales y (c) evaluaciones internacionales comparadas (o estudios comparativos internacionales del rendimiento).

Un análisis superfi cial de las maneras en que los procedimientos son similares podría sugerir que cada uno puede servir igualmente bien a una variedad de funciones. Por ejemplo, los tres se interesan en los resultados de la educación o, más precisamente, en el rendimiento de los estudiantes. Además, en los tres los estudiantes responden a las tareas de evaluación utilizando procedimientos formalizados administrados bajo condiciones controladas. En efecto, alguien que observa a los estudiantes trabajando podría no estar en condiciones de decir en qué tipo de ejercicio están participando. Sin embargo, la consideración de las características específi cas de cada procedimiento indicará que su diseño y funciones limitan el alcance de las respuestas que puede ofrecer a seis preguntas (enumeradas más abajo) que los responsables de la formulación de política podrían plantear sobre la calidad del aprendizaje de los estudiantes.

Preocupación acerca de lo que los estudiantes aprenden Se puede identifi car una gama de cuestiones que generan preocupación

sobre el aprendizaje de los estudiantes. En primer lugar, no se puede asumir que porque un niño ha frecuentado la escuela durante seis, siete u ocho años él o ella ha adquirido, en palabras de la Declaración Mundial sobre Educación para Todos, “conocimientos útiles, capacidad de raciocinio, aptitudes y valores” (WCEFA, 1990, p. 6, Artículo 4). En efecto, las pruebas disponibles indican que muchos estudiantes (especialmente aquellos que tienen una carrera educativa corta) aparentemente se benefi cian poco de su experiencia educativa.

En segundo término, existe la preocupación de que incluso las competencias adquiridas por los estudiantes que permanecen en el sistema educativo durante largo tiempo podrían no ser adecuadas para satisfacer las necesidades planteadas en el nuevo milenio por una economía global competitiva y basada en la información. Dado que los cambios económicos y tecnológicos, junto con la creciente libertad de comercio y competitividad entre las naciones en la actividad económica, exigen niveles más altos de conocimientos y competencias de los egresados de la escuela, un país que carece de un sistema educativo efi caz no dispondrá de una fuerza de trabajo


56


competente, productiva y competitiva necesaria para mantener y mejorar su desempeño económico (Guthrie, 1991). Sin embargo, los gobiernos no pueden saber si sus sistemas educativos son adecuados para satisfacer sus objetivos económicos a menos que los supervisen sistemáticamente.

En tercer lugar, se requiere información sobre el rendimiento de los estudiantes para monitorear la efi ciencia de los sistemas educativos. Esta necesidad surge porque en muchos países los gobiernos han tenido que afrontar la expansión de la matrícula al mismo tiempo que implementaban programas de ajuste estructural que no permiten que los gobiernos aumenten sus gastos en educación. Esto ha dado como resultado la percepción de que a menudo el rendimiento de los estudiantes se deteriora. En este contexto, es poco probable que la calidad de la educación mejore a menos que mejore la efi cacia. Para obtener pruebas de si esto está sucediendo o no, se requiere información sobre los resultados tanto como sobre los insumos.

En cuarto lugar, el interés por obtener información sobre el rendimiento de los estudiantes ha sido estimulado por el desarrollo de enfoques empresariales y de gestión de la administración pública. Fuertemente infl uidos por ideas provenientes del mundo de los negocios, estos enfoques suponen la planifi cación estratégica y operacional, la defi nición de metas, el uso de indicadores de desempeño y la concentración de la atención en los resultados, todo lo cual requiere información sobre los productos.

Una última razón del interés creciente por la evaluación del aprendizaje de los estudiantes es que, nuevamente, en muchos países los servicios públicos se están reorganizado a fi n de permitir el uso de proveedores de servicios descentralizados y relativamente autónomos. Esto ha dado lugar a la necesidad de nuevos acuerdos contractuales, normas y la supervisión de la conformidad, lo que a su vez requiere procedimientos para controlar que las organizaciones (escuelas o autoridades locales de educación) estén prestando servicios fl exibles y rentables a los usuarios. Vinculado a la reorganización de los servicios, aunque no enteramente dependiente de ella, existe una mayor exigencia en cuanto a la rendición de cuentas, que durante los últimos años ha alcanzado una creciente importancia en la administración pública en muchos países. Sin embargo, dada la complejidad y la escasa comprensión de los contextos en que funcionan las escuelas, es difícil especifi car responsabilidades y ponerse de acuerdo sobre criterios aceptables que indicarían que han sido cumplidas. Un enfoque que hasta cierto punto


57


evita estos problemas es el uso de información sobre los resultados de los estudiantes (rendimiento) para ejercer presión a fi n de impulsar el cambio y el ajuste de la persona o institución considerada responsable.

¿Qué tipo de información sobre calidad podrían los responsables políticos considerar útil para abordar estas cuestiones? Parecería pertinente responder al menos estas seis preguntas:

• En primer lugar, ¿cómo están aprendiendo los estudiantes en el sistema educativo (con referencia, por ejemplo, a las expectativas generales, los objetivos de la Educación para Todos, los propósitos del currículo o la preparación para la vida)?

• En segundo término, ¿hay pruebas de particulares fortalezas o debilidades en los conocimientos y las competencias que los estudiantes han adquirido?

• En tercer lugar, ¿difi ere el rendimiento en subgrupos de la población? ¿Se trata, por ejemplo, de desigualdades de rendimiento entre niños y niñas, de estudiantes en áreas urbanas y rurales, con diferentes idiomas o pertenecientes a distintas etnias, de diferentes regiones del país, o de estudiantes que abandonan tempranamente la escuela o repiten grados?

• En cuarto lugar, ¿hasta qué punto el rendimiento está asociado con las características del contexto de aprendizaje (por ejemplo, recursos de la escuela, preparación y competencia del profesor, y tipo de escuela) o del entorno familiar y comunitario del estudiante?

• En quinto lugar, ¿el rendimiento de los estudiantes cambia con el tiempo? Esto puede ser particularmente importante en un período de cambios signifi cativos en el sistema (por ejemplo, cuando aumentan las tasas de participación o cuando se implementan nuevas asignaturas o currículos).

• En sexto lugar, ¿cómo se relaciona el rendimiento de los estudiantes en un sistema con el rendimiento de los estudiantes en otros sistemas educativos? (Kellaghan y Greaney, 2001b).

En la mayoría de los países (si no en todos) se aplican tres procedimientos principales que podrían ofrecer datos para responder a estas preguntas: los exámenes públicos (externos), las evaluaciones nacionales y las evaluaciones internacionales comparadas.


58


Exámenes públicos (externos) En muchos países de África, Asia, América Latina y Europa los

exámenes públicos o externos han desempeñado desde hace tiempo un papel central en la evaluación de los estudiantes considerados individualmente, generalmente al fi n de la escolarización primaria, tras dos o tres años de educación secundaria y al fi nal de la escolarización secundaria.Cumplen algunas funciones importantes. En primer lugar, ayudan a controlar la diversidad de elementos del sistema educativo al especifi car propósitos y estándares para la instrucción. En segundo término, se utilizan para certifi car el rendimiento de los estudiantes, aportando pruebas que los estudiantes podrían necesitar en el mercado laboral. En tercer lugar –y ésta es probablemente su función más obvia–, los exámenes se utilizan para seleccionar a los estudiantes a fi n de que continúen su educación, mediante lo que se considera una manera objetiva y no sesgada, en situaciones en las que el número de vacantes escolares disminuye a cada nivel sucesivo. En cuarto lugar, los exámenes, especialmente cuando los resultados se publican, pueden servir a la función de rendición de cuentas de los profesores y las escuelas. Finalmente, los exámenes al fi nal de la escolarización secundaria pueden legitimar la pertenencia a la sociedad global y facilitar la movilidad internacional (Keeves, 1994; Kellaghan y Greaney, 1992; Kellaghan y Madaus, 2003).

Los países que carecen de un sistema de exámenes público tendrán a su disposición otros procedimientos que sirvan a estas funciones (por ejemplo, diplomas de educación secundaria basados en la evaluación interna de la escuela), aunque en este contexto es importante notar que muchos países (por ejemplo, los Estados Unidos y los países de Europa Oriental) están abandonando esta forma de evaluación y adoptando las evaluaciones externas, en la creencia de que esto conducirá a mejorar los estándares de rendimiento, así como a una mayor equidad y rendición de cuentas.

Muchos estudios e informes ofi ciales han indicado las limitaciones de los exámenes públicos. Entre ellas está el hecho de que una gran dependencia de exámenes con papel y lápiz limita los conocimientos y las competencias que se pueden evaluar; que los ítems en los exámenes miden el rendimiento a un nivel taxonómico bajo (incluyendo la memorización o el reconocimiento de conocimiento fáctico) y que los exámenes contienen muy pocas referencias a la vida cotidiana de los estudiantes fuera de la escuela. Estas defi ciencias tienen importantes


59


consecuencias para la calidad de la enseñanza y el aprendizaje en las escuelas, en la medida en que los profesores y los estudiantes tenderán a concentrar sus esfuerzos en el contenido de los exámenes y a descuidar importantes áreas del currículo y formas de aprendizaje. Junto con otros factores que se consideran más adelante, esas pruebas también limitan el valor de los exámenes para describir el aprendizaje del estudiante en el contexto de los objetivos del currículo o de la preparación para la vida futura.

Evaluaciones nacionales Si bien los exámenes públicos constituyen una característica de larga

data de los sistemas educativos, las evaluaciones nacionales son relativamente nuevas. Varias son las razones por las que se introdujeron en los sistemas educativos. En primer lugar, la toma de conciencia de que los datos sobre los insumos de la educación que se habían recolectado típicamente en el pasado a menudo tenían poco valor para los responsables políticos y los planifi cadores de la educación, y que el supuesto de que el aumento de los recursos estaba invariablemente asociado a la mejora de la calidad del aprendizaje de los estudiantes no era sostenible (Kudjoh y Mingat, 1993). En segundo término, los países que carecían de un sistema público de exámenes (por ejemplo, los Estados Unidos) no contaban con datos confi ables sobre el rendimiento de los alumnos a nivel nacional. En tercer lugar, incluso en países que tenían exámenes públicos, se consideraba que los datos que ofrecían, por algunas razones que abordaré más adelante, no cubrían las necesidades de los responsables políticos.

Fue en este contexto que se diseñaron las evaluacianes nacionales para brindar información sobre los “productos” o “resultados” de la escolarización (por ejemplo, el aprendizaje de los estudiantes y las desigualdades en el sistema), que, se esperaba, podrían utilizarse junto con datos sobre los insumos para ofrecer una base más sólida para la formulación de política y la toma de decisiones. Así, se puede decir que el propósito de una evaluación nacional era ofrecer a los responsables de la toma de decisiones información pertinente y confi able, que pudiera someterse a análisis e interpretación sobre la situación del sistema educativo, sus rendimientos y sus problemas (Greaney y Kellaghan, 1996; Kellaghan y Greaney, 2001b).

Si bien la información se obtiene en una evaluación nacional mediante la realización de tareas de evaluación de los estudiantes considerados individualmente (como lo hacen en los exámenes públicos), el interés fundamental no está en el desempeño de los individuos, sino en lo que


60


nos dicen los agregados de sus desempeños acerca del sistema educativo en su conjunto o de una parte claramente defi nida de él. Para obtener esta información no se requiere que participen todos los estudiantes. Las inferencias acerca del desempeño del “sistema” se puede efectuar a partir del desempeño de una muestra de estudiantes. Algunas evaluaciones nacionales y estatales se diseñan para ofrecer pruebas de los rendimientos de escuelas, profesores e incluso alumnos considerados individualmente (por ejemplo, en Chile, Francia y el Reino Unido), en cuyo caso todos (o casi todos) los estudiantes de un grado específi co o nivel de edad toman parte en la evaluación.

Aunque la mayoría de los países industrializados ha contado con sistemas nacionales de evaluación –algunos que datan de hace más de 30 años; otros creados sobre una base legal, como en Francia y el Reino Unido–, sólo fue después de la Conferencia de Jomtien que se hicieron esfuerzos en la década de los noventa para desarrollar la capacidad de administrar evaluaciones nacionales en los países en desarrollo. A fi nes de la década, ayudados por proyectos internacionales, la mayoría de los países de África y América Latina habían realizado al menos una evaluación nacional (Kellaghan y Greaney, 2001a). Los proyectos de Monitoreo del Rendimiento del Aprendizaje [Monitoring Learning Achievement] de la UNESCO y el UNICEF evaluaban las competencias básicas en lecto-escritura, aritmética básica y competencias para la vida corriente (concienciación y conocimientos en materia de salud, nutrición, sanidad e higiene) tras cuatro años de escolarización y rendimiento en ciencias en el 8º grado en más de 70 países (Chinapah, 1997; Chinapah et al., 2000; UNESCO, 2000; UNESCO, 2003a).

El Instituto Internacional de Planeamiento de la Educación (IIPE) facilitó la creación del Consorcio del África Meridional para el Monitoreo de la Calidad de la Educación [Southern Africa Consortium for Monitoring Educational Quality] (SAQMEC), que se creó en 1995 como una red de ministerios de educación del África Meridional y desde entonces se ha extendido al África Oriental (Ross et al., 2000; UNESCO, 2003b). El primer estudio importante se realizó en 1995 en siete países, en los que se recolectaron datos sobre insumos educacionales, condiciones generales de escolarización y los niveles de alfabetización de los alumnos del 6º grado. Catorce países participaron en el estudio sobre lectura y aritmética básica entre 1999 y 2002.


61


En el Programme d’Analyse des Systèmes Educatifs des Pays de la CONFEMEN (PASEC), los proyectos de evaluación se concentraron en el rendimiento en francés y matemática entre el 2º y el 5º grados en 18 países francófonos del África Subsahariana. Además de los datos sobre rendimiento, se recolectaron datos sobre una variedad de factores escolares y relacionados con los antecedentes de estudiantes y profesores (Kulpoo y Coustère, 1999).

En los países de América Latina y el Caribe también ha habido un rápido desarrollo en la instauración de evaluaciones nacionales durante la década de los noventa, donde ahora prácticamente todos los ministerios de educación han incorporado las evaluaciones nacionales en su agenda. Estas evaluaciones se asociaron a menudo con la provisión de datos que sirvieran de puntos de referencia para las reformas educativas y fueron apoyadas por el Banco Mundial, la UNESCO y la Agencia de los Estados Unidos para el Desarrollo Internacional (USAID).

En Asia, las actividades de evaluación se pueden encontrar en muchos países, incluyendo Camboya, India, Nepal, Sri Lanka, Tailandia y Viet Nam. Algunas se han realizado con el apoyo del Banco Mundial, a veces en el marco de programas de reforma en curso.

Evaluaciones internacionalesLas evaluaciones internacionales comparadas o estudios internacionales

comparados de rendimiento comparten muchas características procedimentales con las evaluaciones nacionales y a menudo abordan cuestiones similares. Sin embargo, difi eren de ellas en diversos aspectos, entre los cuales está, obviamente, que suponen la medición de resultados de varios sistemas educativos, generalmente de manera simultánea, ofreciendo datos que permitan que los países comparen los rendimientos de sus estudiantes con los de los estudiantes de otros países (Beaton et al., 1999; Greaney y Kellaghan, 1996; Kellaghan y Greaney, 2001b).

Desde la década de los años sesenta, más de 60 países han participado en estudios internacionales comparados, en los que se ha comparado el rendimiento de los estudiantes en una serie de áreas escolares (por ejemplo, lectura, matemática, ciencias, escritura y lenguas extranjeras). Los estudios fueron organizados por la Asociación Internacional de la Evaluación del Rendimiento Escolar (IEA) y, más recientemente, por la Organización para la Cooperación y el Desarrollo Económicos (OCDE). La mayoría de los participantes fueron países industrializados; pocos eran del mundo en


62


desarrollo. Con el tiempo, a medida que el número de participantes aumentaba, la proporción de países de Europa (Oriental y Occidental) creció, mientras que la proporción de los menos desarrollados disminuyó. La falta de participación de los países en desarrollo no sorprende, dado que los estudios fueron concebidos teniendo en mente las condiciones y estándares de los países del mundo industrializado.

La sensibilidad hacia el hecho de que las condiciones existentes en los países con los que se haría la comparación son importantes para tomar la decisión de participar en un estudio internacional de este tipo, condujo en la década de los noventa a que algunos países de una región geográfi ca determinada decidieran realizar un estudio comparado. En uno de esos estudios, organizado por la Ofi cina Regional de Educación para América Latina y el Caribe (OREALC), se evaluaron las competencias básicas en lenguaje y matemática en diez países de América Latina y el Caribe en 1997. Dos proyectos en África, mencionados previamente (PASEC y SACMEQ), también se limitaron, si no a regiones, por lo menos a países situados más o menos en la misma etapa de desarrollo económico. Aunque concebidos inicialmente como evaluaciones nacionales, basados en la cooperación internacional, los resultados fueron presentados de manera que permitieran comparaciones del rendimiento de los estudiantes en diferentes sistemas educativos.

Responder a las preguntas de los responsables de la formulación de política

¿Cómo puede la información obtenida a partir de los exámenes, las evaluaciones nacionales y las evaluaciones internacionales comparadas contribuir al conocimiento de la calidad de la educación por parte de los responsables de la formulación política y brindar una base para las decisiones que mejoren la enseñanza y el aprendizaje? Esta interrogante se puede abordar evaluando la capacidad de los exámenes y evaluaciones (nacionales y internacionales comparados) para ofrecer respuestas a cada una de las preguntas en que están interesados los responsables políticos y que acabo de plantear.

Dado que los exámenes y las evaluaciones se basan en el rendimiento individual de los estudiantes, deberíamos preguntarnos si un agregado de rendimientos en los exámenes brindará el mismo tipo de información que una evaluación nacional o una evaluación internacional comparada. El hecho de que muchos países que han realizado evaluaciones nacionales o evaluaciones internacionales comparadas dispongan ya de sistemas de


63


exámenes públicos, sugeriría que la respuesta es no, que exámenes y evaluaciones ofrecen diferentes tipos de información (Kellaghan, 1996). Esta cuestión se explora en relación con las preguntas planteadas previamente.

¿Cómo están aprendiendo los estudiantes en el sistema educativo? Dos factores son pertinentes para considerar hasta qué punto los

exámenes y las evaluaciones ofrecen información sobre lo bien que los estudiantes están aprendiendo en el sistema educativo: la población sometida a exámenes y evaluaciones, y los rendimientos que se evalúan.

Los exámenes brindan datos únicamente de poblaciones seleccionadas en puntos predeterminados del sistema educativo y que partcipan voluntariamente. Las evaluaciones, por otra parte, ofrecen información sobre la población total de estudiantes (o, más a menudo, de una muestra representativa de ellos) en otros puntos, permitiendo inferencias sobre el sistema de educación en general y no de una parte seleccionada de él. Más aún, en el mundo existe consenso en el sentido de que la información que se necesita para las evaluaciones es aquella obtenida antes de la edad en la que los estudiantes son sometidos normalmente a examen público. Hay dos razones para esto. En primer lugar, una evaluación puede identifi car problemas y señalar la necesidad de una intervención temprana en los años de educación primaria. En segundo término, muchos estudiantes no llegan al punto en que se les toma un examen público, pero sus rendimientos interesan a los responsables políticos.

Al considerar los rendimientos que se evalúan, debe tenerse en mente que cualquier prueba contendrá sólo una muestra del contenido y el conocimiento que se está midiendo. Cuando se comparan exámenes, evaluaciones nacionales y evaluaciones internacionales comparadas es de crucial importancia cómo se selecciona el contenido de los diferentes ejercicios.

En el caso de los exámenes, no se requiere una cobertura amplia del contenido para discriminar entre candidatos que tienen probabilidades de desempeñarse bien en la próxima etapa de la educación y quienes tienen más probabilidades de desempeñarse menos bien. En efecto, al tratar de lograr la máxima discriminación, las preguntas o ítems que la mayoría o muy pocos estudiantes probablemente responderán correctamente no serán incluidas en el examen. El énfasis estará más bien en la selección de preguntas o ítems que se concentran en el nivel de competencia de los estudiantes que tienen probabilidades de ser seleccionados. Obviamente,


64


las pruebas que incluyen tales ítems o preguntas no cubrirán toda la gama de conocimientos y competencias que se supone debe promover el currículo.

Por otra parte, una evaluación nacional se diseña para encontrar lo que todos los estudiantes saben y lo que no saben. Por tanto, deberá brindar una adecuada cobertura de lo que se espera que los estudiantes aprendan en relación con los objetivos del currículo o las expectativas generales. En este contexto, los responsables políticos muy probablemente estarán interesados tanto en lo que los estudiantes no saben como en lo que sí saben.

Otro problema puede surgir en relación con las inferencias que se pueden hacer sobre el rendimiento de los estudiantes basándose en su desempeño en los exámenes públicos, si se asigna gran importancia al rendimiento, lo que será el caso cuando decisiones importantes se basan en los resultados. Si, en esta situación, la enseñanza y el aprendizaje en las escuelas se dirige más hacia la satisfacción de las exigencias del examen que al logro de los objetivos del currículo, no será posible interpretar el rendimiento en el examen como una prueba del rendimiento en el más amplio dominio del rendimiento previsto en el currículo (Linn, 1983). Por supuesto, un problema similar puede surgir si se asigna gran importancia al rendimiento en un examen nacional. En ambos casos, las afi rmaciones sobre el aprendizaje de los estudiantes en relación con los objetivos del currículo serán problemáticas.

¿Hay alguna prueba de las fortalezas y debilidades en el conocimiento y las competencias de los estudiantes?

En muchos países, los informes sobre los exámenes ofrecen información sobre las fortalezas y las debilidades de un candidato en el informe del responsable del examen o en una carta informativa dirigida a las escuelas. Sin embargo, ese análisis sólo puede ofrecer información basada en el contenido del examen que, como vimos, tiende a ser limitado y la información también será limitada para los estudiantes a los que se les tomó el examen. Por el contrario, una evaluación nacional puede ofrecer datos para un diagnóstico sobre el currículo como un todo y para la población total de estudiantes.

¿Difi eren los rendimientos de subgrupos de estudiantes?

Alguna información de carácter contextual (por ejemplo, relacionada con el género, la localización de la escuela y el tipo de escuela) está disponible para los exámenes públicos, y algunos análisis sobre el


65


rendimiento de los estudiantes pueden tomarla en consideración. Nuevamente, cualquiera de esos análisis será limitado por el rango restringido de los conocimientos y competencias evaluados, y por la naturaleza selectiva de las poblaciones a las que se les toma el examen, por lo que no necesariamente revelarán los problemas del sistema educativo en general (por ejemplo, en escuelas en las que el abandono temprano es común y en las que se toma el examen a una muy baja proporción de estudiantes).

¿Hasta qué punto el rendimiento está vinculado alas características del contexto de aprendizaje o con las carácterísticas del hogar y la comunidad?

Si bien el propósito fundamental de un examen es formular juicios y tomar decisiones sobre los estudiantes considerados individualmente, es probable que una evaluación nacional se interese en identificar los determinantes del rendimiento, especialmente de aquéllos que se podrían alterar mediante cambios en la política educativa. De ahí que generalmente se recolecten diferentes tipos de información. En primer lugar, interesa saber lo que los estudiantes traen a la escuela de su familia y comunidad, que pueda contribuir al éxito o al bajo rendimiento en las escuelas. Un segundo tipo de información contextual –más importante para decisiones sobre la distribución de los recursos educacionales– se relaciona con la oferta en las escuelas, es decir, hasta qué punto las escuelas brindan oportunidades para adquirir diversos tipos de conocimiento y competencias. En términos concretos, podemos indagar acerca de las instalaciones en las escuelas, la variedad del currículo ofrecido, la disponibilidad de material de apoyo para el aprendizaje, tales como textos escolares, bibliotecas, laboratorios y su utilización, así como sobre los aspectos menos materiales de las escuelas, en particular, la calidad del liderazgo educativo y el estímulo institucional que la escuela ejerce para que los estudiantes aprendan. En tercer lugar, dado que los profesores son el componente clave de cualquier sistema educativo, se requiere información sobre sus características y condiciones en una escuela que pueda mejorar o limitar su capacidad para implementar los programas de educación.

Para maximizar la comprensión de los factores que inciden sobre el rendimiento de los estudiantes, en las evaluaciones nacionales e internacionales comparadas se dispone de más información que en un examen público gracias a cuestionarios administrados, por ejemplo, a estudiantes, profesores, directores y padres de familia.


66


¿Cambia el rendimiento de los estudiantes con el tiempo?

Es importante estar en condiciones de decir si el rendimiento de los estudiantes mejora con el tiempo (quizá como resultado de reformas de la educación) o se deteriora (quizá debido al aumento del número de estudiantes en el sistema educativo). Para hacerlo, es necesario obtener información en diferentes puntos en el tiempo y confi ar en que ofrece una base válida de comparación.

A veces escuchamos –debido a las inferencias que se hacen a partir del examen de la distribución de las notas de los exámenes públicos durante ciertos años– que los estándares de rendimiento están mejorando, empeorando o permanecen estáticos. ¿Se pueden garantizar esas inferencias? La respuesta parecería ser no. Hay varias razones para decir que los exámenes no ofrecen datos que se puedan interpretar como indicadores de cambio en el tiempo. La primera se relaciona con la estandarización de los procedimientos de las pruebas. Cuando se aplican pruebas es necesario imponer cierta estandarización a la muestra del comportamiento del estudiante que se utiliza y en cómo se la interpreta, si queremos que los rendimientos tengan un signifi cado comparable para estudiantes diferentes, en distintos lugares y en diversos momentos. Sin embargo, los exámenes públicos a menudo aparecen como relativamente no estructurados (en todo caso en un nivel superfi cial) y sus procedimientos de puntuación a menudo carecen de una clara especifi cación, confi ando en gran medida en los juicios de los examinadores individuales. Otra desviacion evidente de la estandarizacion en los exámenes públicos se encuentra cuando los estudiantes tienen libertad para escoger las preguntas que responden. En segundo término, es imposible decir que las pruebas miden los mismos conocimientos y competencias, o que son equivalentes en nivel de difi cultad de un año a otro. En tercer lugar, el puntaje de muchos exámenes está, explícita o implícitamente, referido a normas y las proporciones de estudiantes a las que se les asigna diversas notas permanecen constantes de un año a otro. Obviamente, este procedimiento disfrazará cambios que podrían estar ocurriendo en los rendimientos efectivos de los estudiantes, por lo que no es posible decir si un “aprobado” (o una nota específi ca) en un año representa un nivel equivalente de rendimiento en otro año. En cuarto lugar, el procedimiento también disfrazará cualquier cambio que se produzca en el rendimiento por cambios en las características de los candidatos. Por consiguiente, si las ampliaciones de los números están asociadas con una disminución en la capacidad académica general de los estudiantes y esto no se refl eja en las notas,


67


tenemos que concluir que las notas se han asignado más indulgentemente (Willmott, 1977).

La situación en relación con las evaluaciones nacionales y las evaluaciones internacionales comparadas es muy diferente, ya que los instrumentos y métodos de puntuación están mucho más estructurados y el mismo instrumento (o uno de equivalencia demostrada) se utiliza a lo largo del tiempo. Esto no quiere decir que no puedan surgir problemas. Incluso cambios menores en un instrumento (como un cambio en el orden en que se presentan los ítems o en el contexto en el que están inscritos) pueden incidir sobre el rendimiento de los estudiantes (Beaton y Zwick, 1990). Además, un cambio en el currículo escolar, en el lenguaje popular o en las condiciones sociales generales podría signifi car que la adecuación de un instrumento cambia con el tiempo (Kellaghan y Madaus, 1982).

¿Cómo se relaciona el rendimiento de los estudiantes en un país con el rendimiento de los estudiantes en otros países?

Los sistemas de exámenes están interesados en que la medida del rendimiento de sus candidatos sea aceptada internacionalmente. Con un ojo en los estándares internacionales, algunos sistemas trabajan cooperativamente en estudios internacionales comparados (por ejemplo, el West African Examinations Council – Consejo Examinador del África Occidental), otros mantienen una variedad de contactos con consejos de examinadores en Europa, mientras que otros intercambian redactores de ítems [item writers], especialistas en califi cación [markers] y otro tipo de personal técnico.

El diseño de las evaluaciones nacionales también tiene una dimensión internacional, ya que está infl uido por las prácticas de otros lugares. Además, en algunas evaluaciones se han incluido ítems de las evaluaciones internacionales para ofrecer datos comparativos entre países.

Sin embargo, sólo estudios nacionales comparativos diseñados especialmente pueden posibilitar la realización de comparaciones precisas entre el rendimiento de estudiantes de diferentes sistemas educativos. Incluso en las evaluaciones más cuidadosamente diseñadas pueden aún surgir problemas relacionados con la adecuación de las pruebas utilizadas en algunos sistemas educativos, la traducción de los instrumentos o la equivalencia de las poblaciones (y muestras) que son evaluadas.


68


Conclusión Si bien el desempeño en los exámenes es susceptible de análisis que

arroje alguna luz sobre la calidad del aprendizaje de los estudiantes, la información se verá limitada por la naturaleza y el contenido de los exámenes, la naturaleza selectiva de los candidatos al examen y el hecho de que generalmente se le da gran importancia al rendimiento en el examen. Además, los exámenes sólo pueden ofrecer información limitada sobre los factores asociados con el rendimiento e incluso menos acerca de cómo el rendimento de los estudiantes cambia con el tiempo o sobre cómo se comparan los rendimientos con los de los estudiantes de otros países. Por el contrario, las evaluaciones nacionales se pueden diseñar para abordar todas estas cuestiones, exceptuando las comparaciones con otros países, que es para lo que se diseñan los estudios internacionales comparados.

Mientras que los estudios nacionales y los estudios internacionales comparados son bastante adecuados para describir aspectos sobre la calidad de la educación, con un claro foco de atención en el aprendizaje de los estudiantes, todavía hay cierto margen de maniobra para concebir e implementar enfoques en los que la información que brindan se pueda utilizar para mejorar la calidad de la enseñanza y el aprendizaje en las escuelas. En gran medida, la información obtenida a partir de las evaluaciones nacionales y las evaluaciones internacionales comparadas se ha utilizado en el debate y la formulación política en lugar de incidir directamente sobre la práctica escolar, a pesar de que se han hecho muchos esfuerzos para comunicar los hallazgos de la investigación a las escuelas y los profesores. Sin embargo, si la información obtenida en una evaluación se basa en una muestra de escuelas, no se pueden identifi car los problemas de una escuela en particular. Es quizá por esta razón que algunas evaluaciones nacionales se administran en todas las escuelas y los resultados se utilizan para intervenir a nivel de la escuela. Si bien una evaluación de carácter censal brinda una mejor base para la acción a nivel de escuela que una de carácter muestral, si se asigna gran importancia al rendimiento, podría ofrecer –como en el caso de los exámenes públicos– una visión distorsionada del rendimiento del estudiante, así como tener efectos no deseables (si bien no intencionales) sobre la enseñanza y el aprendizaje en las escuelas.


69


Bibliografía Beaton, A.E.; T.N. Postlethwaite; K.N. Ross; D. Spearritt; R.M. Wolf. 1999.

The benefi ts and limitations of international achievement studies, Paris: IIEP-UNESCO, International Academy of Education.

Beaton, A.E.; R. Zwick. 1990. The effect of changes in the national assessment: Disentangling the NAEP 1985-86 reading anomaly, Princeton, NJ: Educational Testing Service.

Chinapah, V. 1997. Handbook on monitoring learning achievement. Towards capacity building, Paris: UNESCO.

Chinapah, V.; E.M. H’ddigui; A. Kanjee; W. Falayajo; C.O.Fomba; O. Hamissou; A. Rafalimanana; A. Byamugisha. 2000. With Africa for Africa. Towards quality education for all, Pretoria: Human Sciences Research Council.

Greaney, V.; T. Kellaghan. 1996. Monitoring the learning outcomes of education systems, Washington, DC: World Bank.

Guthrie, J.W. 1991. “Globalisation of educational policy and reform”, en Husén, T. y T.N. Postlethwaite (Eds.), The international encyclopedia of education, 2nd ed., Oxford: Pergamon, pp. 2.495-2.500.

Keeves, J.P. 1994. National examinations: design, procedures and reporting, Paris: IIEP-UNESCO.

Kellaghan, T. 1996. “Can public examinations be used to provide information for national assessment?”, en Murphy, P., V. Greaney, M.E. Lockheed; C. Rojas (Eds.), National assessments: testing the system, Washington, DC: World Bank, pp. 33-48.

Kellaghan, T.; V. Greaney. 1992. Using examinations to improve education. A study in fourteen African countries, Washington, DC: World Bank.

Kellaghan, T.; V. Greaney. 2001a. “The globalisation of assessment in the 20th century”, Assessment in Education, n.º 8, pp. 87-102.

Kellaghan, T.; V. Greaney. 2001b. Using assessment to improve the quality of education, Paris: IIEP-UNESCO.

Kellaghan, T.; G.F. Madaus. 1982. “Trends in educational standards in Great Britain and Ireland”, en G.R. Austin; H. Garber (Eds.), The rise and fall of national test scores, New York: Academic Press, pp. 195-214.


70


Kellaghan, T.; G.F. Madaus. 2003. “External (public) examinations”, en Kellaghan, T.; D.L. Stuffl ebeam (Eds.), International handbook of educational evaluation , Dordrecht: Kluwer Academic, pp. 577-600.

Kudjoh, A.; A. Mingat. 1993. “Towards a better understanding of the functioning of school systems for better decision-making: The case of primary schools in Togo”, en Chapman, D.W.; L.O. Mählck (Eds.), From data to action: information systems in educational planning, Paris: IIEP-UNESCO, pp. 147-174.

Kulpoo, D.; P. Coustère. 1999. “Developing national capacities for assessment and monitoring through effective partnerships”, en Partnerships for capacity building and quality improvements in education, Paris: Association for the Development of Education in Africa, pp. 131-138.

Linn, R.L. 1983. “Testing and instruction: Links and distinctions”, Journal of Educational Measurement, n.º 20, pp. 179-189.

Ross, K.N.; M. Saito; S. Leite. 2000. Translating educational assessment fi ndings into educational policy and reform measures: lessons from the SACMEQ initiative in Africa, Paris: IIEP-UNESCO.

WCEFA. 1990. Declaración mundial sobre educación para todos, Nueva York: WCEFA, p. 6.

UNESCO. 2000. Marco de Acción de Dakar, París: UNESCO, p. 8, para. 7, VI.

UNESCO. 2003a. Monitoring Learning Achievement (MLA) Project. Update, Paris: UNESCO.

UNESCO. 2003b. Southern Africa Consortium for Monitoring Educational Quality (SACMEQ), Harare: UNESCO.

Willmott, A.S. 1977. CSE and GCE grading standards: the 1973 comparability study, London: Macmillan.


71

Capítulo 4

¿Cuáles son los principales estudios internacionales comparados?

Aletta Grisay y Patrick Griffi n

Introducción El principal objetivo de este artículo es describir las características de los más importantes estudios internacionales comparados en gran escala que se han ejecutado desde la década de los sesenta. Estos estudios se diseñaron para evaluar el rendimiento de los estudiantes en diferentes niveles del sistema escolar, en diversas asignaturas y en distintos países. El foco de la atención está en las similitudes y diferencias en el diseño de estos estudios, así como en las limitaciones conceptuales y operacionales dentro de las cuales se implementaron.

Este artículo se ha limitado a los estudios internacionales que utilizan instrumentos estrictamente equivalentes, definiciones comunes de las poblaciones objetivo y procedimientos estandarizados a fi n de medir el rendimiento de los estudiantes en cada uno de los países participantes. Algunos ejemplos de estos estudios incluyen: (a) estudios de rendimiento en matemática y ciencias ejecutados por la Asociación Internacional de Evaluación del Rendimiento Escolar (IEA); (b) el Programa Internacional de Evaluación de Estudiantes (PISA), implementado por la Organización para la Cooperación y el Desarrollo Eeconómicos (OCDE) y (c) los estudios sobre política educativa ejecutados por el Consorcio del África Meridional y Oriental para el Monitoreo de la Calidad de la Educación (SACMEQ).

Este artículo no incluirá estudios que contengan pocos componentes de evaluación o muy marginales (tales como el Classroom Environment Study de la IEA o el Preprimary Project de la IEA). Los programas multinacionales que se concentraron principalmente en la asistencia al desarrollo de evaluaciones nacionales, tales como el proyecto Monitoreo del Rendimiento del Aprendizaje [Monitoring Learning Achievement] (MLA) ejecutado por la UNESCO y el UNICEF, la Evaluación de Competencias Básicas [Assessing Basic Competencies] (ABC) efectuada por el Banco Mundial en Asia del Sur, el Programme d’analyse des systèmes éducatifs (PASEC) implementado por la CONFEMEN (Conférence des ministres de l’Éducation ayant le français en partage) y los estudios


72


realizados por el Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación (LLECE) tampoco están dentro del alcance de este artículo, dado que sus diseños muestrales o los instrumentos de recolección de datos utilizados no se pueden considerar estrictamente equivalentes entre países.

Las referencias a todos los programas de investigación listados previamente se presentan en el Apéndice.

Evaluaciones nacionales e internacionales del rendimiento de los estudiantes

Los sistemas escolares del mundo han experimentado cambios cuantitativos y organizativos sin precedentes durante los últimos 50 años. En los países industrializados se produjo un impresionante aumento de la matrícula durante las décadas de los años cincuenta y sesenta, debido al efecto combinado del boom de la natalidad [baby-boom] en la posguerra y un rápido crecimiento de la demanda por parte de las familias y los mercados de trabajo. Estas tendencias generaron presiones para lograr la educación secundaria universal y grandes aumentos de la matrícula en el tercer nivel.

Este cambio de una educacion de “élites” a una educación de “masas”, especialmente en las escuelas secundarias, no sólo requirió una inversión pública signifi cativa, sino también enormes esfuerzos de adaptación de los sistemas educativos. Se extendió la duración de la educación obligatoria y se efectuaron amplias reformas de las estructuras organizativas, los currículos y los métodos de enseñanza, ya que muchos sistemas educativos debieron pasar de una selectividad estricta, programas de estudios muy restrictivos y discriminación hacia las minorías desfavorecidas a una retención e instrucción no selectiva más amplia para todos.

En los países en desarrollo, el mismo período se caracterizó por un movimiento hacia la independencia de muchos países, acompañado por la expansion de la matrícula en la educación primaria y secundaria, así como por reformas destinadas a reemplazar los sistemas escolares coloniales con nuevas instituciones y currículos nacionales. En algunos países, éste fue también el período en el que se intentaron una serie de innovaciones en gran escala (desde la “Educación popular” de Paulo Freire y la “Escuela Nueva” en Colombia, hasta programas basados en el uso de la tecnología, como la radio y la televisión), a menudo con el apoyo de instituciones internacionales, para afrontar los múltiples retos planteados


73


por el lanzamiento de programas de alfabetización en países con limitados recursos humanos y económicos.

La Conferencia de Jomtien en 1990 (WCEFA, 1990), el Marco de Acción de Dakar de 2000 (UNESCO, 2000) y los Objetivos de Desarrollo del Milenio – ODM (United Nations, 2000) confi rmaron el compromiso casi universal de los gobiernos en hacer extensivo a todos los niños la provisión de educación primaria básica gracias a la mejora del acceso, la calidad y la equidad mediante el programa “Educación para Todos”.

El movimiento mundial hacia la expansion del acceso a la educación básica ha generado preocupación, tanto en las esferas políticas como en la comunidad científi ca, por el hecho de que amplios y rápidos aumentos de la matrícula podrían provocar la disminución del nivel y la posibilidad de una desigual distribución de la calidad de la educación ofrecida en las escuelas. Esta cuestión se ha planteada especialmente en los países en desarrollo, que han estado luchando para lograr los objetivos (a veces confl ictivos) del Marco de Acción de Dakar (UNESCO, 2000).

La preocupación por las potenciales compensaciones entre acceso, equidad y calidad han generado la necesidad de disponer de información empírica sobre el rendimiento de los estudiantes y su relación con los recursos invertidos y las características del contexto educativo. Inicialmente realizadas como grandes (pero aisladas) encuestas destinadas a abordar las principales preocupaciones políticas, como el bien conocido The Equality of Educational Opportunity Study (Coleman, 1966), las evaluaciones del rendimiento de los estudiantes se convirtieron en un componente regular de los sistemas nacionales de monitoreo en algunos países. Por ejemplo, en los EE.UU., la National Assessment of Educational Progress (NAEP) se inició en 1969.

En algunos países, la ejecución de evaluaciones nacionales de alta calidad obtuvo mucho de su ímpetu y muchas de sus técnicas de la investigación emprendida a nivel internacional por la IEA. Esta organización fue creada en 1958 por un grupo de instituciones líderes en investigación a nivel mundial, bajo los auspicios del Instituto de la UNESCO para la Educación con sede en Hamburgo (Alemania). Los miembros de la IEA querían medir el rendimiento de muestras comparables de estudiantes en diferentes asignaturas y en distintos sistemas educativos, con el propósito de investigar las relaciones entre las diferencias en el rendimiento y las diferencias en los insumos, procesos y contextos educativos.


74


Desde entonces, la IEA y otros organismos internacionales emprendieron un gran número de estudios nacionales comparados. Los resultados de estos estudios, ampliamente publicitados, generaron un gran interés en la implementación de evaluaciones nacionales y fue mediante la participación en estos estudios que muchos equipos nacionales de investigación desarrollaron las complejas competencias técnicas requeridas para efectuar sus propias evaluaciones nacionales. Recíprocamente, los avances teóricos y técnicos efectuados en algunos centros nacionales de investigación destacados también fueron demandados por los estudios internacionales. A comienzos del siglo XXI, este proceso de fertilización cruzada produjo una base de conocimientos impresionante acerca del funcionamiento de los sistemas educativos y un conjunto de estándares ampliamente compartido, métodos y procedimientos científi cos para la realización de evaluaciones rigurosas y válidas. Uno de los benefi cios importantes de la “cultura de evaluación”, común entre expertos a cargo de estudios internacionales y de sistemas nacionales de monitoreo, fue el cambio que se produjo en los estudios internacionales, que orientaron más su foco de atención hacia la política.

La mayor parte de la fi nanciación de los estudios de la IEA a nivel nacional e internacional provino de ministerios de educación y fundaciones interesados en la investigación básica. Los equipos nacionales de investigación estaban compuestos casi exclusivamente por personal académico de las universidades y si bien el objetivo consistente en suministrar datos útiles a las autoridades educativas se consideró importante, la orientación principal de los estudios fue claramente científi ca. La idea –como lo expresó Benjamin Bloom, uno de los padres fundadores de la IEA–, a menudo repetida en los primeros informes de los estudios de la IEA, era que los sistemas educativos en todo el mundo se podían considerar como una suerte de “laboratorio experimental” natural, donde los efectos de diferentes “tratamientos” (diferencias en la organización escolar, el material educativo y las prácticas educativas) sobre el rendimiento de los estudiantes se podían explorar más efi cazmente que en estudios nacionales individuales, debido a la mayor diversidad que se podía esperar a nivel internacional para cada uno de estos factores.

En un número cada vez mayor de países participantes en los estudios de la IEA, y en casi todos los participantes en el programa PISA, la responsabilidad de la implementación del proyecto pasó progresivamente de departamentos universitarios “independientes” a agencias gubernamentales o a centros universitarios subcontratados directamente


75


por los ministerios de educación para efectuar la investigación. Si bien contribuir al avance del conocimiento científico sigue siendo una preocupación fundamental, los estudios internacionales más recientes tratan de identifi car en gran medida cuestiones de política que pueden ser abordadas mediante el estudio de los resultados, así como concebir sistemáticamente estrategias para difundir la información recolectada entre los actores interesados en todos los niveles de los sistemas educativos.

En este sentido, los estudios internacionales comparados se pueden considerar complementarios de los sistemas nacionales de monitoreo:

• Las evaluaciones nacionales tienen más posibilidades de suministrar información ajustada a las características específi cas de un sistema educativo que los estudios internacionales. Por ejemplo, son más adecuadas que los estudios internacionales para informar a las autoridades educativas sobre: (a) si todos los aspectos de un nuevo currículo se implementaron efi cazmente en las escuelas; (b) la proporción de estudiantes que logra los estándares nacionales específi cos y (c) los posibles efectos negativos a nivel local de lo que de otra manera podría ser una innovación benéfi ciosa en el plano nacional. También se pueden utilizar para abordar cuestiones tales como: “¿Cuánto cuesta nuestro sistema de educación”, “¿Quién paga por la educación?” y “¿Obtienen un buen producto por lo que pagan?”

• Por otra parte, sólo las evaluaciones internacionales pueden: (a) informar a las autoridades nacionales sobre en qué medida otros sistemas educativos “lo hacen mejor” que su propio sistema educativo, en relación con los resultados de los alumnos y en áreas tales como la provisión de educación, la califi cación de los profesores y la efi cacia en el uso de los recursos; (b) indicar si la organización escolar en otros países produce menos desigualdades en la calidad de la educación ofrecida y un menor impacto del origen social, género y etnia sobre los resultados de los estudiantes y (c) mostrar si la evolución en el tiempo de cualquiera de estos indicadores es positiva (o negativa) en varios países.

La mayoría de los estudios internacionales nos permiten habitualmente análisis internacionales del conjunto de datos recolectados y análisis replicados de los datos de cada país. Después se pueden hacer generalizaciones comparativas acerca de la educación, así como afi rmaciones con análisis nacionales más específi cos. Estos estudios


76


también estimulan el uso de opciones nacionales mediante las cuales un país puede agregar preguntas específicas a la recolección de datos internacionales comparados.

Para algunos países, participar en estudios internacionales no es un complemento de las evaluaciones nacionales, sino un sustituto. Esto ocurre a veces en países muy pequeños o en países con recursos humanos y fi nancieros limitados, que carecen de presupuesto para investigación y de los expertos altamente especializados necesarios para efectuar evaluaciones rigurosas. Compartir con otros países la elaboración de marcos muestrales válidos, marcos de referencia de evaluación e instrumentos para pruebas es una manera efi ciente para que estos países puedan obtener información política pertinente a un costo razonable, y dar acceso a la pericia internacional a sus equipos nacionales de investigación.

Finalmente, en algunos países federales podría suceder que los estudios internacionales comparados parezcan “políticamente más aceptables” que las evaluaciones nacionales. Este es el caso de países como Bélgica, donde las comunidades fl amenca y francófona participan en los estudios de la IEA y el PISA como si fueran “países” separados. En este caso, las autoridades educativas belgas consideran que estos dos conjuntos de estudio son “neutrales”, mientras que cualquier evaluación nacional, que incluya a las dos áreas lingüísticas, podría considerarse muy sensible políticamente.

Principales evaluaciones internacionales comparadas Durante los últimos 50 años, diferentes agencias han realizado más

de 20 evaluaciones internacionales, en una gama de asignaturas y en un gran número de países industrializados y en desarrollo (véase el Apéndice).

Los estudios de la IEA La Asociación Internacional de Evaluación del Rendimiento Escolar

[International Association for the Evaluation of Educational Achievement] (IEA), una organización no gubernamental (ONG) fundada a fi nes de la década de los cincuenta, fue la primera organización que efectuó estudios internacionales comparados del rendimiento de los estudiantes que siguen siendo el modelo paradigmático en relación con el número de países participantes (de 12 países en el primer estudio de la IEA en matemática a casi 50 en el año 2000), la variedad de asignaturas exploradas y el rango de edades o grados de los estudiantes cubiertos.


77


La mayoría de las comparaciones de la IEA se basa en muestras denominadas ‘edad-grado’. Esto quiere decir que en cada país participante la población objetivo se defi ne como ‘todos los estudiantes que están en el grado en que se puede encontrar a la mayoría de estudiantes de una cohorte de edad dada’. Por ejemplo, en el Estudio sobre la lectura [Reading Literacy Study] de la IEA, efectuado a nivel de la escuela primaria (Elley, 1992), se obtuvo una muestra probabilística de escuelas primarias en cada país; después, en cada escuela muestreada se seleccionó al azar una clase intacta entre las clases del 4º grado (o de clases del 3er grado, dependiendo de cuál de estos dos grados era el grado modal al que asistían los estudiantes de 9 años de edad en ese país específi co).

Otros estudios de la IEA han utilizado defi niciones basadas únicamente en la ‘edad’ o el ‘grado’. Por ejemplo, en el Primer Estudio Internacional de Matemática [First International Mathematics Study] (FIMS) (Husén, 1967), realizado en 1964, hubo muestras separadas por grado y edad en el primer ciclo de educación secundaria: una muestra por edad (todos los estudiantes de 13 años de edad, independientemente de donde se encontraran en el sistema y el grado en el que estuvieran) y una muestra por grado (el grado modal para los estudiantes de 13 años de edad), y en este caso se seleccionaron una o dos clases intactas. Por otra parte, todas las evaluaciones de la IEA efectuadas en el segundo ciclo de educación secundaria defi nieron su población objetivo como ‘estudiantes del último año de educación secundaria, independientemente de su edad’. En el Tercer Estudio Internacional de Matemática y Ciencias [Third International Mathematics and Science Study] (TIMSS), (Beaton et al., 1996), se utilizó una variante compleja de diseño ‘edad-grado’ para el primer ciclo de educación secundaria; la muestra incluyó clases intactas obtenidas a partir de los dos grados contiguos en los que estaban matriculados la mayoría de los estudiantes de 13 años de edad (es decir, en la mayoría de los países, el 7º y el 8º grados).

Estos diferentes diseños están relacionados con las variaciones en el foco de la comparación. Si el propósito principal es comparar sistemas educativos en términos de rendimiento (es decir, lo que un sistema ha logrado con una cohorte de edad, el efecto acumulado de las experiencias educativas de los estudiantes dentro y fuera de la escuela), la muestra más apropiada es una muestra basada en la edad. Todos los estudiantes evaluados tienen la misma edad y las variaciones de grado (producto de las diferencias entre países en las regulaciones relativas a la edad de ingreso a la educación obligatoria o en la política relacionada con la repetición de


78


grado) sólo se consideran como uno de los factores relacionados con el sistema que incide sobre su experiencia de aprendizaje.

Si, por otra parte, el foco es la comparación de sistemas en relación con los efectos sobre el rendimiento debido a las diferencias en recursos, currículo y prácticas pedagógicas, entonces es más apropiado evaluar clases intactas en grados que sean lo más comparable posible entre sistemas. El diseño ‘edad-grado’ de la IEA se considera generalmente como un compromiso razonable entre estas dos perspectivas.

Los estudios de la IEA que abordan las principales asignaturas del currículo (lectura, matemática y ciencias) se estructuraron fl exiblemente, en largos ‘ciclos’ de aproximadamente 10 a 15 años, con un primer ciclo en la década de los sesenta y comienzos de los setenta (FIMS) (Husén, 1967), en 1966; el Primer Estudio Internacional de Ciencias [First International Science Study] (FISS) en 1971 (Comber y Keeves, 1973) y un primer Estudio de Comprensión de Lectura [Reading Comprehension Study] (RCS) también en 1971 (Thorndike, 1973). Un segundo ciclo se realizó en la década de los ochenta y comienzos de los noventa: el Segundo Estudio Internacional de Matemática [Second International Mathematics Study] (SIMS) (Travers y Westbury, 1989) y el Segundo Estudio Internacional de Ciencias [Second International Science Study] (SISS) en 1982 y 1984, respectivamente (Rosier y Keeves, 1991); y un Estudio sobre la lectura [Reading Literacy Study] (RLS) en 1991 (Elley, 1992). Sin embargo, algunos cambios en las defi niciones de las poblaciones evaluadas, en los instrumentos utilizados y en los conjuntos de países participantes impidieron el desarrollo de comparaciones rigurosas de series temporales. Este aspecto se mejoró en el tercer ciclo de los estudios de la IEA, gracias a la ejecución de reiteradas recolecciones de datos utilizando una pauta de cuatro años, tanto en el Tercer Estudio de Matemática y Ciencias [Third Mathematics and Science Study] (TIMSS en 1995 y TIMSS-Repeat en 1999) como en un nuevo estudio sobre lectura (Estudio Internacional de Competencia en Lectura [Progress in International Reading Literacy Study]) (PIRLS) en 1999 y PIRLS-Repeat en 2004) (Mullis et al., 2004).

El primer ‘ciclo’ de la IEA también incluía evaluaciones de algunos campos conceptual u operacionalmente desafi antes –educación cívica, literatura, lenguas extranjeras (inglés y francés). Un segundo estudio de educación cívica se realizó en el tercer ciclo, mientras que la falta de apoyo fi nanciero impidió completar una nueva evaluación en lenguas extranjeras. En el segundo ciclo se realizó un estudio sobre educación para la utilización


79


de computadoras y en el momento de escribir esta ponencia está en curso un segundo estudio.

Todos estos estudios fueron transversales. Se incluyó un componente estrictamente longitudinal (en el que la misma muestra de estudiantes fue sometida a prueba dos veces, a fi n de evaluar el aumento del rendimiento en un año escolar) como una opción solamente en el SIMS y el TIMSS. Debido a los altos costos de la recolección de datos longitudinales, sólo un pequeño subconjunto de países participó en estas opciones. Sin embargo, estudios transversales -como TIMSS, RLS o PIRLS- utilizaron instrumentos de pruebas basados en muestras sucesivas por edad-grado, que permitieron cálculos razonables del aumento del rendimiento obtenido por los estudiantes en un período dado.

Los estudios de la IAEP La Evaluación Internacional del Progreso Educativo [International

Assessment of Educational Progress] (IAEP) (Lapointe et al., 1989) fue un estudio en dos fases realizado a fi nes de la década de los ochenta por la institución estadounidense Educational Testing Services (ETS). Era una derivación del National Assessment of Educational Progress (NAEP), un estudio que se ejecuta regularmente en los Estados Unidos desde 1969. Recibió un fuerte apoyo fi nanciero de las autoridades federales de los Estados Unidos, en un contexto en el que la publicación del famoso informe titulado Una nación en peligro [A Nation at Risk] (National Commission on Excellence in Education, 1983) provocó un gran alboroto en la opinión pública contra la educación escolar en el país. El informe, basado en datos provenientes de la IEA y la NAEP, así como de los exámenes nacionales, presentó un grave deterioro en el rendimiento en matemática y ciencias de los estudiantes estadounidenses e importantes brechas entre los estudiantes estadounidenses y los de otros países (especialmente el Japón). Por tanto, el Gobierno de los Estados Unidos estaba muy interesado en buscar información adicional comparativa para explorar estos problemas más detalladamente.

Este origen “estadounidense” fue probablemente la mayor debilidad de los estudios de la IAEP, lo que puede explicar por qué se descontinuaron después de la segunda ronda. A diferencia de la mayoría de otras evaluaciones internacionales, en la que los materiales de las pruebas son el producto del aporte cooperativo de varios países y son cuidadosamente revisados para su adecuación cultural y curricular en cada país participante, los ítems de evaluación utilizados en el estudio de la IAEP se obtuvieron


80


del banco de ítems de la NAEP (todos ellos en la IAEP I y una gran mayoría en la IAEP II). En este sentido, el estudio era cuestionable, tanto en términos de la validez del contenido como de la aceptabilidad política por parte de otro país que no fuera los Estados Unidos.

No obstante, algunos aspectos de la IAEP eran innovadores. En particular, fue la primera ocasión en la que los resultados internacionales se presentaron como ‘escalas descriptivas’ basadas en la teoría de la respuesta al ítem (TRI), en lugar de puntajes brutos de pruebas o porcentajes promedio de respuestas correctas (véase más abajo un análisis de esta técnica). Las escalas descritas se utilizaron por primera vez en algunas de las más avanzadas evaluaciones nacionales durante la década de los ochenta. Progresivamente se convirtieron en una forma estandarizada de presentar los resultados del rendimiento en prácticamente todos los estudios internacionales. Otra importante innovación (estrictamente técnica), también aplicada por la IAEP por primera vez en un estudio internacional, fue el uso de los así llamados ‘valores plausibles’, a fi n de mejorar la exactitud de la estimacion de los promedios nacionales y otros parámetros estadísticos. De manera similar, el uso de ‘valores plausibles’ se ha aplicado a la mayoría de los estudios internacionales subsecuentes.

Los estudios del IALS El Estudio Internacional de Alfabetización de Adultos [International

Adult Literacy Study] (IALS) (Tuijnman et al., 1994) fue una encuesta de hogares destinada a evaluar la lectura y la aritmética básica entre adultos de 16 a 65 años. Fue realizada por Statistics Canada (STATCAN) y patrocinada por la Organización para la Cooperación y el Desarrollo Económicos (OCDE). Comprendió dos evaluaciones, una en 1995 y otra en 1998 (Tuijnman, 2000), en la que participaron 20 países.

Las principales características del IALS fueron: (a) focalización en una perspectiva de evaluación orientada hacia el capital humano y el aprendizaje a lo largo de toda la vida (en vez de una evaluación de sistemas escolares) y un fuerte interés en la relación entre el conocimiento y las competencias de las personas y el rendimiento en el mercado de trabajo; (b) la naturaleza funcional de las tareas utilizadas en la evaluación, basadas todas ellas en materiales auténticos obtenidos de situaciones que las personas encuentran en la vida diaria; (c) muestras detalladas de hogares, representativas de la totalidad de la población activa en cada país y (d) a diferencia de las evaluaciones basadas en la escuela –donde a menudo predominan los ítems de elección múltiple–, todos los ítems del IALS


81


fueron abiertos, a fi n de mantener la autenticidad de los materiales de la prueba y del proceso cognitivo evaluado.

El IALS es un ejemplo típico de un estudio internacional que se benefició de los avances teóricos y técnicos logrados durante la implementación de encuestas nacionales anteriores en los Estados Unidos y Canadá. El marco de referencia utilizado para evaluar la lectura, en particular, tuvo importantes fundamentos teóricos y empíricos provenientes de años de investigaciones realizadas en la ETS y STATCAN para la Encuesta Nacional sobre Alfabetización de Adultos [National Adults Literacy Study] (NALS), estudio nacional del cual el IALS fue su prolongación internacional.

Las encuestas de hogares son costosas, emplean mucha mano de obra y son operacionalmente complejas; también son un reto en cuanto a las responsabilidades institucionales. En muchos países, estudios como el IALS no se pueden ejecutar sin una efectiva cooperación entre varios ministerios. A menudo esto impide que algunos países participen, lo que es lamentable. Debido a la amplia cobertura del grupo de edad evaluado, el IALS tiene una característica singular: es el único estudio internacional que permite comparaciones de resultados globales de la educación entre varias generaciones en diversas culturas.

Los estudios del PISA El Programa Internacional de Evaluación de Estudiantes [Programme

for International Student Assessment] (PISA) (OECD, 2001, 2004; OECD-UNESCO, 2003) se elaboró inicialmente como parte de un Plan Estratégico [Strategic Plan] implementado por la Organización para la Cooperación y el Desarrollo Económicos (OCDE), con objeto de suministrar indicadores sobre el rendimiento de los estudiantes hacia el fi nal de la educación obligatoria a su proyecto Indicadores Internacionales de Sistemas Educativos [International Indicators of Education Systems] (INES).

Una especificidad del PISA es que el programa está destinado fundamentalmente a suministrar indicadores a los gobiernos de un grupo específi co de países: los países industrializados miembros de la OCDE. Con la excepcion de dos de los 30 países, todos participaron en la primera evaluación en 2000 y todos lo hicieron en la de 2003. Si bien algunos países que no eran miembros de la OCDE también participaron en las evaluaciones (unos 60 países participaron en la encuesta en 2006), sus


82


delegados se desempeñaban en el Consejo de Administración del PISA como observadores, sin capacidad de decisión.

El PISA utiliza una defi nición “pura” basada en la edad de su población objetivo, objetivo por estudiantes de 15 años, independientemente del grado alcanzado. Este es el grupo mayor en edad y en el que cerca del 100 % de los estudiantes todavía asiste a la escuela en la mayoría de los países de la OCDE.

El PISA fue concebido como un programa periódico, en el que cada ciclo de nueve años incluye tres evaluaciones sobre el rendimiento de los estudiantes en lectura, matemática y ciencias, efectuado en el tercero, sexto y noveno año del ciclo. Cada una de las tres recolecciones de datos incluye las tres áreas, pero con una concentración especial en una de ellas y con instrumentos de prueba más ligeros para las otras dos. En la primera evaluacion del PISA, efectuada en 2000, la lectura fue evaluada como área principal, mientras que matemática y ciencias fueron las áreas menores. En 2003, matemática fue el área principal, siendo lectura y ciencias las áreas menores. En 2006, el foco se concentró en las ciencias, con lectura y matemática como áreas menores. En 2009, se ha propuesto que se inicie un nuevo ciclo, con la lectura como área principal nuevamente. Este diseño permite monitorear regularmente las tendencias del rendimiento en las tres áreas.

Cada evaluación incluye también un área “experimental”, que no es parte de la rotacion descrita previamente. En el PISA 2000, el área experimental fue el aprendizaje autoregulado; en el PISA 2003, la resolución de problemas; en el PISA 2006 el aprendizaje de ciencias asistido por computadora.

Como en el caso de la IEA, los estudios del PISA se hacen a nivel de escuela; pero, como los estudios del IALS, están principalmente orientados hacia la lecto-escritura en lugar del currículo escolar. El propósito es “suministrar información de política pertinente sobre el rendimiento acumulado de los sistemas educativos hacia el fi n de la escolaridad obligatoria, medida en términos de rendimiento de los estudiantes en la aplicación de los conocimientos y competencias que han adquirido en áreas disciplinarias clave”. Los instrumentos de prueba del PISA son similares a los utilizados en el IALS, en el sentido de que focalizan su atención en la habilidad de los estudiantes para aplicar sus competencias en situaciones funcionales y contextos auténticos.


83


Los estudios del SACMEQ El Consorcio del África Meridional y Oriental para el Monitoreo de

la Calidad de la Educación [The Southern and Eastern Africa Consortium for Monitoring Education Quality] (SACMEQ) es una red de cooperación constituida por 15 ministerios de educación. Fue creado en 1995 con la cooperación del Instituto Internacional de Planeamiento de la Educación de la UNESCO (IIPE). Su foco principal de atención es el fortalecimiento de capacidades en el área de investigación en materia de política educativa. Utiliza la participacion en estudios internacionales comparados como una vía para ofrecer programas de formación. Su vasto programa de talleres de formación intensiva incluye diseño de proyectos; elaboración de instrumentos; muestreo; recolección, introducción y depuración de datos; análisis computarizado de datos; producción de archivos de datos y difusión de resultados de investigación. El SACMEQ se propone efectuar el monitoreo y la evaluación continuos de la calidad de la educación y el rendimiento del aprendizaje, planteando sugerencias políticas serias que conduzcan al mejoramiento en la oferta de una educación de calidad mediante: (a) la evaluación del rendimiento del aprendizaje al término de la escuela primaria y los factores que inciden sobre el rendimiento del aprendizaje de los niños en un nivel específi co de educación; (b) la recolección de datos e información para la evaluación de las condiciones de escolarización y cómo se comparan con los estándares de referencia del ministerio, así como informar la política y la planifi cación de la educación; fi nalmente, (c) la determinación de los efectos relativos de los insumos educativos que tienen un impacto significativo sobre el rendimiento del aprendizaje y la determinación de su nivel de distribución (incluyendo textos escolares y material pedagógico).

La primera encuesta del SACMEQ (SACMEQ I), en 1995, se concentró en el rendimiento en lectura. La segunda etapa, 2000-2004 (SACMEQ II), se focalizó en la lectura y la aritmética básica. Una característica interesante del proyecto SACMEQ II fue que las muestras de profesores fueron evaluadas utilizando instrumentos de prueba que se “superponían” con las pruebas de sus propios estudiantes. Esto permitió que se pudieran mapear los resultados de estudiantes y profesores en las mismas escalas de competencia.

El SACMEQ difi ere de otros estudios en que ha creado una estrategia sistemática para consultar a los gobiernos y a los responsables políticos a fi n de identifi car las cuestiones políticas e investigar las preguntas que desean


84


responder. Son estas preguntas relacionadas con la investigación obtenidas por pqrte de responsables de alto nivel en los ministerios de educación las que constituyen la base de los estudios del SACMEQ.

Los estudios del SACMEQ también son innovadores en sus procedimientos de información, que incluyen una combinacion equilibrada de comparaciones internacionales e indicadores nacionales “a medida”. En particular, si bien los estudios utilizan instrumentos estrictamente equivalentes y escalas descritas comunes basadas en la teoría de la respuesta al ítem (TRI) que permiten comparaciones internacionales, también se elaboran procedimientos exactos para mapear las escalas comunes contrapuestas a los estándares específi cos de los países en relación con el rendimiento “aceptable” o “deseable” de los estudiantes, tal y como se defi nen en cada país por grupos de expertos nacionales. Esto representa un modelo bastante efi caz para otros países en desarrollo que se enfrentan a retos educativos similares y que están interesados en aprender de la experiencia de países vecinos.

Retos planteados a la validez de los estudios internacionales comparados

Los estudios de la OCDE, la IEA y el SACMEQ han tenido como fi nalidades: (a) ofrecer información a los responsables de la formulación de política y de la ejecución de programas de educación acerca de sus sistemas educativos en relación con otros sistemas y (b) ayudarlos a comprender las razones de las diferencias observadas en el rendimiento de los estudiantes de diferentes sistemas educativos.

A fi n de cumplir con estas fi nalidades, se ha exigido que estos estudios aseguren la producción de datos válidos que se puedan utilizar para efectuar comparaciones signifi cativas entre países. Algunos críticos de los estudios internacionales comparados generalmente cuestionan la validez de sus datos con respecto a tres dimensiones importantes:

• Las pruebas de rendimiento de los estudiantes: ¿son igualmente adecuadas para todos los países participantes y han sido diseñadas para enfrentarse a las variaciones de cultura y currículo?

• Poblaciones objetivo y muestreo: ¿son consistentes las defi niciones de la población objetivo entre los países y han sido muestreadas estas poblaciones de manera que se evite la parcialidad?

• Presentación de los resultados: ¿se han simplifi cado demasiado los resultados de la investigación en forma de “tablas de clasifi cación” o


85


se han presentado de manera que informen y mejoren la enseñanza en el aula?

Pruebas de rendimiento de los estudiantes

■ Currículos diferentes

Los críticos de los estudios internacionales han sido activos desde que la IEA empezó sus estudios. Los problemas percibidos con los estudios internacionales se han concentrado en la naturaleza de las mediciones, la infl uencia de las variables contextuales, los vínculos del currículo, la validez y fi abilidad de los puntajes, y las inferencias efectuadas como resultado del enfoque común. Russell (1981, 1982, 2004) ha criticado coherentemente el uso de un ‘puntaje absoluto de prueba’, en pruebas que se aplican en muchos países diferentes para presentar el rendimiento de los estudiantes entre esos países. Afi rmó que las pruebas de la IEA no serían válidas debido a que la cobertura del currículo dista mucho de ser perfecta y es desigual entre los países participantes.

Otros investigadores (por ejemplo, Goldstein y Wood, 1999; Blum et al., 2001) se preocuparon por el hecho de que las pruebas quizá no eran mediciones coherentes de los mismos resultados del currículo en cada país participante. Es decir, que los estudiantes de los países participantes tal vez no tenían todos la misma oportunidad de adquirir las competencias que eran evaluadas y que las tareas podían corresponder al currículo de algunos países mejor que al de otros. Esto se trata en las pruebas que se concentran en un cuerpo de conocimientos y competencias convenido por los países participantes.

Russell obtuvo apoyo de la crítica de Freudenthal (1975), basada en la pertinencia y oportunidad del currículo para aprender en el Primer Estudio Internacional de Matemática [First International Mathematics Study] (FIMS) de la IEA (Husén, 1967). Indicó que se había avanzado muy poco en el abordaje de estas cuestiones en el momento de realizar el segundo estudio (SIMS) en 1982 (Travers y Westbury, 1989). En el SIMS se elaboró un solo conjunto comprensivo de ítems para las pruebas de matemática, pero los críticos vieron esto como una agravación del problema de la oportunidad de aprender y de la cobertura del currículo en lugar de una solución. El conjunto comprensivo de ítems contenía ítems que eran pertinentes sólo para dos países.

En el momento en que se efectuaba el TIMSS, nuevas tecnologías relacionadas con el campo de la teoría moderna de la respuesta al ítem suministraban una técnica mediante la cual se podían obtener puntajes de


86


los estudiantes sobre el mismo constructo subyacente (por ejemplo, matemática), incluso si los estudiantes completaban diferentes (pero superpuestos) conjuntos de ítems. Este enfoque eliminó la limitación de que cada estudiante debiera ser evaluado con una misma prueba, a fi n de efectuar comparaciones válidas entre los estudiantes.

Los puntos de vista de Russell han sido rechazados por los investigadores del TIMSS (Beaton et al., 1996). Mostraron que cuando se asignó el puntaje a los países participantes mediante el uso de ítems concentrados en sus propios currículos, había diferencias insignifi cantes entre los puntajes específi cos de estos países y los puntajes de las pruebas del conjunto del TIMSS. De manera similar, se puso de manifi esto que las pruebas del SACMEQ tenían alta validez porque la correlación entre los puntajes de los estudiantes basados en los ítems que cada coordinador nacional del SACMEQ consideró que estaba centrado en su propio currículo nacional y los puntajes obtenidos de todos los ítems utilizados en toda la prueba variaban entre 0,98 y 1,00.

Similares hallazgos de investigación fueron obtenidos por los investigadores del PISA, al comparar los puntajes de los estudiantes en todo el conjunto de ítems internacionales con los puntajes de los estudiantes computados utilizando únicamente el subconjunto de ítems que los expertos nacionales consideraron como “más apropiados en su contexto nacional” . Las correlaciones entre los puntajes se aproximaron a 1,00 para cada país, confi rmando la alta validez de los instrumentos de evaluación entre todos los países participantes.

■ Diferentes idiomas

Los errores de traduccion pueden ser una fuente de problemas de equivalencia en los estudios internacionales comparados sobre la calidad de la educación. La mayoría de los estudios emplean uno de dos enfoques básicos para evitarlos. El enfoque más popular utiliza la traducción directa [forward translation], hecha por dos o más traductores independientemente. Cada traductor traduce los materiales originales (generalmente elaborados en inglés) hacia la lengua meta; después, se comparan las versiones independientes y se armonizan en una versión nacional fi nal. Alternativamente, se completa primero una traducción directa específi ca hacia la lengua meta y luego un segundo traductor la vuelve a traducir a la lengua original. Después se compara el material en la lengua original y la traducción inversa [back translation] y se corrigen posibles desviaciones en la version meta. El PISA introdujo una versión más rigurosa del enfoque de múltiples traducciones


87


directas, en las que versiones originales paralelas de las pruebas en inglés y francés se preparan primero bajo la supervisión del grupo de expertos internacionales en pruebas. Posteriormente, estas dos versiones fuente son entregadas a los equipos de traducción en cada país participante, que producen su versión meta gracias a traducciones independientes de los instrumentos a partir de cada lengua fuente, comparando posteriormente las dos versiones obtenidas y armonizándolas en una versión nacional fi nal.

En algunos estudios en curso (PISA, TIMSS, PIRLS), el proceso de traducción (ya se trate de múltiples traducciones directas o inversas) es seguido de una etapa de verifi cación centralizada, en la que todos los países presentan su versión en la lengua meta a los traductores designados por el centro internacional del estudio, quienes verifi can la equivalencia fi nal de las diversas versiones nacionales en relación con la version fuente. El objetivo es asegurar la coherencia y fi delidad de la traducción entre todos los países participantes.

Sin embargo, incluso con una traducción fi el, los ítems pueden diferir en difi cultad entre las lenguas. Para identifi car los problemas en esta área se utiliza una técnica psicométrica conocida como ‘funcionamiento diferencial del ítem’ [differential item functioning –DIF–], a fi n de identifi car los ítems de las pruebas que son sensibles a las infl uencias lingüísticas y culturales. Estos ítems se excluyen del estudio.

Poblaciones objetivo y muestreo

■ Retención

La mayoría de los estudios nacionales sobre calidad de la educación se han concentrado en poblaciones de estudiantes que asisten obligatoriamente a la escuela, en la educación primaria o en el primer ciclo de educación secundaria. En muchos países (pero no en todos ellos y ciertamente no en la mayoría de los países en desarrollo participantes en estos estudios) esto quiere decir que las poblaciones objetivo corresponden a los grupos de edad que están aún matriculados en las escuelas, al 100 % (o casi), ofreciendo así una base razonablemente sólida para las comparaciones entre países.

Sin embargo, las diferencias entre países en las tasas de retención siguen planteando un serio problema de comparabilidad, tanto en los estudios realizados en el segundo nivel de la educación secundaria en los países industrializados como en todas las poblaciones evaluadas en los países en desarrollo. Los investigadores deben ser muy cuidadosos cuando


88


interpretan las comparaciones en el rendimiento de los estudiantes entre sistemas educativos en los que, por ejemplo, en un sistema educativo sólo el 50 % de los niños del grupo de edad objetivo asiste a la escuela y otro en el que la matrícula es del 95 %.

Es probable que las bajas tasas de retención produzcan una cierta parcialidad hacia el alza en el cálculo del rendimiento promedio global (ya que la muestra evaluada tiende a contener una proporción menor de niños con bajo rendimiento). También produce una estimación distorsionada de la varianza de rendimiento (ya que el grupo matriculado que realiza la prueba es probablemente más homogéneo en su competencia que la población total de esa edad).

En algunos de los primeros estudios de la IEA se desarrollaron fórmulas de ajuste para permitir juicios aproximados acerca de los efectos de las diferencias en la retención sobre la estimación de los promedios de los países. El enfoque posterior del TIMSS, en el segundo ciclo de educación secundaria, consistió en defi nir una submuestra de estudiantes que seguían asignaturas de matemática o ciencias avanzadas (5 horas de curso o más). Pir consiguiente los países podían comparar no sólo el rendimiento medio de la población “general” matriculada, sino también el nivel de competencia logrado por el grupo de estudiantes que en cada sistema se consideraba como el “grupo de élite” que se preparaba para futuras carreras orientadas hacia la matemática y las ciencias. Este enfoque del análisis y la presentacion de resultados suministró información política pertinente, pues es importante que en un país se conozca la magnitud y el desempeño de los estudiantes que conforman sus “grupos de élite”.

■ Diferencias entre las poblaciones basadas en la edad y el grado

Los países tienen políticas diferentes en relación con la edad de ingreso a la escuela, la repetición de grado, la promocion, las tasas de retención, matrícula y graduación. Se puede esperar que las variaciones entre países en relación con la edad y la duración del ciclo escolar infl uyan sobre el rendimiento y, por tanto, constituyan una amenaza en relación con la comparabilidad de las poblaciones objetivo.

Este problema se aborda principalmente en los estudios internacionales comparados mediante una defi nición precisa de la población objetivo de estudiantes sobre una base que es coherente con los propósitos del estudio, es decir, utilizando una defi nición de población objetivo en funcion de la ‘edad-grado’ o ‘solamente el grado’ o ‘solamente la edad’.


89


En el estudio del TIMSS, por ejemplo, se seleccionaron tres poblaciones de estudiantes utilizando dos definiciones ligeramente diferentes de ‘edad-grado’ para los niveles de educación primaria y el primer ciclo de educación secundaria: los estudiantes que estaban en el grado modal en el que se podría encontrar a la mayoría de los estudiantes de 9 años, los estudiantes que estaban en los dos grados contiguos, donde se podrían encontrar a la mayoría de los estudiantes de 13 años, y (utilizando una definición ‘solamente de grado’ para el segundo ciclo de educacion secundaria) estudiantes que estaban en el último año de educación secundaria. En el SACMEQ, las poblaciones objetivo se defi nieron como los estudiantes del 6º grado, una defi nición basada una vez más ‘solamente en el grado’.

En el PISA se utilizó una defi nición basada ‘solamente en la edad’: estudiantes de 15 años en el momento de la prueba. Esta defi nición produjo una selección de estudiantes entre varios grados en algunos países y, en algunos casos, entre niveles de educación primaria y secundaria. Por consiguiente, los resultados del PISA deben interpretarse con cuidado cuando se presenta información acerca del ‘alumno medio’ y cuando se comparan los resultados de la investigación entre países con altos y bajos niveles de repetición de grado. La elección entre una población basada en la edad u otra basada en el grado incide sobre los tipos de análisis que se pueden efectuar y también sobre la interpretación de los análisis de los datos.

■ Diferencias en las “reglas de exclusión”

A veces, algunos países excluyen partes de la población objetivo defi nida por diversas razones. Las defi niciones de ‘discapacidad’ (física, emocional o intelectual), por ejemplo, pueden diferir entre países y producir la exclusión de diferentes porcentajes de estudiantes. En otros, la población objetivo puede excluir a grupos de estudiantes físicamente muy alejados e inaccesibles. Actualmente, la mayoría de los estudios han desarrollado estándares claros que rigen la exclusión de las poblaciones a fi n de reducirla al mínimo (generalmente menos del 5 % de los estudiantes muestreados) y asegurar que todos los países participantes documenten de manera precisa cualquier desviación de su muestra nacional en relación con la población defi nida a nivel internacional.

■ Diferencias en las tasas de respuesta

En la mayoría de las investigaciones educacionales a gran escala, algunas escuelas y algunos estudiantes no desean participar. Esto puede ser un problema para los estudios internacionales comparados, si las tasas de respuesta pueden producir parcialidad en los resultados de la investigación. La mayoría de los estudios (por ejemplo, IEA, PISA,


90


SACMEQ) exigen que los países participantes documenten con precisión las tasas de respuesta obtenidas, así como el efecto de la no respuesta sobre la muestra.

Estos estudios aseguran que las exigencias muestrales son bien conocidas por los países participantes y que los países que no se conforman con los requisitos son excluidos de los informes o sus resultados se presentan con advertencias.

Presentación de los resultados de los estudios internacionales comparados

‘Tablas de clasifi cación’ y “carreras de caballos”

Un aspecto muy criticado de los estudios internacionales comparados es que se considera que estimulan las interpretaciones “carrera de caballos” de los resultados publicados en las ‘tablas de clasifi cación’ en la que los países son ordenados en funcion de los puntajes medios de rendimiento. Esto estimula interpretaciones superfi ciales (y a menudo equivocadas) de los resultados, basadas en el rango en lugar de la magnitud y en el signifi cado estadístico y pedagógico de las diferencias observadas.

Este tipo de presentación se utiliza a menudo, particularamente por los medios de comunicación, para “apoyar” conjeturas injustifi cadas acerca de posibles explicaciones causales de las diferencias entre los países clasifi cados en posiciones “altas” y “bajas”. En algunos casos, estas “explicaciones” se aprovechan de una variable contextual particular y la ponen por delante como si fuera la (única) razón de las diferencias observadas entre los países. Por ejemplo, en la década de los noventa, cuando se publicaron los resultados del primer TIMSS, algunos “expertos” en el Reino Unido sostuvieron que la razón que explicaba el alto rendimiento en matemática y ciencias de los países del Asia Oriental era la utilización de más “enseñanza a clases enteras”.

Si bien la enseñanza a clases enteras puede (o tal vez no) incidir positivamente sobre el aprendizaje, siempre debe reconocerse que el contexto educacional está constituido por una compleja red de insumos, procesos y contextos que no se pueden sintetizar recurriendo simplemente a una explicación unidimensional.


91


Comparaciones múltiples

Para evitar la mala utilización de los puntajes promedio presentados, algunos estudios han hecho un gran esfuerzo en diseñar presentaciones de la información en las que los datos tabulados sobre los niveles de rendimiento de los estudiantes están consignados y los límites de confi abilidad se “incorporan” en la maqueta de la tabla. En el Gráfi co 4.1 se presenta un ejemplo del estudio del TIMSS.

Gráfi co 4.1 Comparaciones múltiples de los puntajes nacionales promedios de la escala en matemática del TIMMS

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲

●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲●

●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲●●

●●●●▼▼●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲●●●

●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲●●●●

●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲●▲●●●

●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲●▲●●●●

●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲●●●●

●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲●●●●●

●●●●●▼●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲●●●●●●●

●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲●●▲●●●●

●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲●●▲●●●●●

●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲●●●●●

●●●●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲●●●●●●

●●●●●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲●●●●●

●●●●●●●●▼●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲●●●●●●●

●●●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲● ●●●●●●

●●●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ●●●●●●●

●●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲●●●●●●

●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲●●●●●●●

●●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲●●●●●●●●

●●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ●●●●●●●●●●●

●●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲●●●●●●●●●●

●●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲●●●●●●●●

●●▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲●●●●●●●●●●●

●▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲●▲▲●●●●●●

▼▼▼▼▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

●●●▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●

●●▼▼▼▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●●

●●●●▼▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●●●

●●●●●●▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●●

●●●▼▼▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●●●

●●●●▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●●●●

●●●▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●●●●

●●▼▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●▲●●●

●●▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●▲●●●●

●▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲●●

▼▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

▼▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

▼

▲▲▲▲▲▲▲▲▲▲▲ ▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

Sing

apur

Rep

úblic

a C

heca

Japó

nC

orea

Bul

gari

aP

aíse

s B

ajos

Esl

oven

iaA

ustr

iaH

ungr

íaIn

glat

erra

Bél

gica

(FI)

Aus

tral

iaR

epúb

lica

Esl

ovac

aFe

dera

ción

de

Rus

iaIr

land

aSu

ecia

Est

ados

Uni

dos

Ale

man

iaC

anad

áN

orue

gaN

ueva

Zel

andi

aT

aila

ndia

Isra

elH

ong

Kon

gSu

iza

Esc

ocia

Esp

aña

Fran

cia

Gre

cia

Isla

ndia

Rum

ania

Let

onia

(Let

ón)

Por

tuga

lD

inam

arca

Litu

ania

Bél

gica

(Fr.)

Irán

, Rep

. Isl

ámic

aC

hipr

eK

uwai

tC

olom

bia

Sudá

fric

a

País

SingapurRepública ChecaJapónCoreaBulgariaPaíses BajosEsloveniaAustriaHungríaInglaterraBélgica (FI)AustraliaRepública EslovacaFederación de RusiaIrlandaSueciaEstados UnidosAlemaniaCanadáNoruegaNueva ZelandiaTailandiaIsraelHong KongSuizaEscociaEspañaFranciaGreciaIslandiaRumaniaLetonia (Letón)PortugalDinamarcaLituaniaBélgica (Fr.)Irán, Rep. IslámicaChipreKuwaitColombiaSudáfrica

Fuente: Beaton et al., 1996.


92


Tablas similares se utilizan en el PISA y el PIRLS. En estas tablas, denominadas de ‘multicomparación’, se utilizan iconos específi cos para mostrar, para cada par de países, si el puntaje promedio del país X era signifi cativamente más alto (triángulo hacia arriba ▲) o signifi cativamente más bajo (triángulo hacia abajo ▼) que el puntaje promedio del país Y, o si la diferencia no era estadísticamente signifi cativa (círculo ●).

Esta manera de presentar los resultados de los países ayuda a indicar que las posiciones o puntajes medios solos no cuentan toda la historia, es decir, que si bien se pueden observar diferencias entre las posiciones de los países, éstas se podrían atraibuir sólo a incertidumbres asociadas con la estabilidad del muestreo y, por consiguiente, el uso de las posiciones o clasifi cación puede ser cuestionable.

Es importante notar que en algunos estudios nacionales e internacionales comparados el uso inadecuado de aplicaciones estadísticas estandarizadas (en las que la opción por defecto asume que los datos se recolectaron utilizando un muestreo simple al azar) condujo a subestimar seriamente de los errores estándar. Por consiguiente, las diferencias entre los países o entre regiones dentro de los países, o entre grupos específi cos de estudiantes, se podrían haber considerado signifi cativas, cuando en realidad no lo eran.

Presentaciones gráfi cas

En la presentación de los estudios internacionales se utilizan otras presentaciones gráficas sofisticadas para presentar las diferencias (o similitudes) entre los puntajes nacionales medios de modo que atraigan la atención sobre las diferencias (o similitudes) en su dispersión y su precisión como estimaciones de los valores de la población. En el Gráfi co 4.2 se presenta un ejemplo del estudio del TIMSS.

El Gráfi co 4.2 muestra diversos fragmentos de información. Fuera del promedio y el error estándar en el puntaje escalonado, también indica el grado alcanzado, la edad media de los estudiantes y la distribución de los puntajes. La zona negra en el centro de cada barra representa el valor promedio y el rango del error estándar. La zona sombreada gris que la rodea representa las localizaciones del 50 % de los valores medios de los estudiantes y los límites de la barra representan el rango de 5 % al 95 % de la muestra para cada país.


93


Escalas descritas

Si bien ha habido una tendencia constante a presentar las distribuciones y los errores estándar de los puntajes de las pruebas, también existe una tendencia emergente para presentar las distribuciones en forma de niveles de competencia. Esto tiene una mayor utilidad en relación con el desarrollo político..

Se defi nen continuos de competencia utilizando la modelización de la respuesta al ítem y obteniendo luego de los expertos en el área una descripción detallada de las competencias requeridas para contestar los

Gráfi co 4.2 Comparación de los resultados nacionales en matemática en el TIMSS, que ilustra el uso de la distribucion de los puntajes como base para la comparación

Fuente: Beaton et al., 1996.

607574571565554552550544538538535534531527525522522517498494485480476470463

545558471565560517

411531486560

478497525

524430326

SingapurRepública ChecaJapónCoreaHungríaInglaterraBélgiuca (FI)República EslovacaFederación de Rusia IrlandaSueciaEstados UnidosCanadáNoruegaNueva ZelandiaHong KongSuizaEspañaFranciaIslandiaLetonia (Letón)PortugalLituaniaIrán, Rep. Islámica ChiprePaíses que no satisfacen los requisitos para las tasas muestrales de participación (véase el Apéndice A para más detalles)AustraliaAustriaBélgica (Fr)BulgariaPaíses BajosEscociaPaíses que no reúnen las especificaciones de edad y grado (alto porcentaje de estudiantes mayores; véase el Apéndice A para más detalles)ColombiaAlemaniaRumaniaEsloveniaPaíses con procedimientos de muestreo no aprobados a nivel de aula (véase el Apéndice A para más detalles)DinamarcaGreciaTailandiaPaíses con procedimientos de muestreo no aprobados a nivel de aula y que no reúnen otros requisitos (véase el Apéndice A para más detalles)IsraelKuwaitSudáfrica

(5,5)(4,3)(1,6)(1,9)(2,8)(3,3)(4,2)(3,2)(4,0)(4,5)(3,0)(4,7)(2,6)(1,9)(4,4)(4,7)(2,5)(1,7)(2,5)(4,0)(2,7)(2,3)(3,4)(2,4)(1,9)

(3,9)(3,7)(2,8)(5,3)(5,0)(5,1)

(4,1)(4,8)(4,7)(2,5)

(3,1)(2,2)(3,7)

(5,7)(3,7)(6,6)

88888988

7 u 887887

8,5-9,58

7 u 888888888

8 o 988889

8888

788

898

14,514,414,414,214,314,014,114,314,014,413,914,214,113,914,014,214,214,314,313,614,314,514,314,613,7

14,214,314,314,014,313,7

15,714,814,614,8

13,913,614,3

14,115,315,4

Años de educación formal

País Promedio Escala del puntaje del rendimiento en cienciasEdad promedio


94


ítems de pruebas que correpsonden a diversos puntajes en el continuo. Estos “mapas de ítems” permiten una interpretación de la variable subyacente medida por las pruebas. Al colocar puntos de corte en la escala se pueden establecer niveles de competencia y los resultados se pueden presentar de manera mucho más signifi cativa. Este enfoque ofrece a los responsables políticos información sobre los porcentajes de estudiantes de su población que son competentes en cada nivel de competencia, así como información sobre el conocimiento y las competencias que los estudiantes de cada nivel manejan efectivamente.

Desde fi nes de la década de los ochenta, la mayoría de los estudios internacionales han utilizado las escalas descritas (desde el IAEP hasta la IEA/RLS, el IALS, el TIMSS, el SACMEQ y el PISA) para presentar los niveles de rendimiento o competencia. Esta presentación hace hincapié en que hay un enfoque de presentación complementario al uso de promedios y errores estándar, y que el uso de escalas referenciadas estándar es un método para comunicar a los responsables políticos que los “programas de intervención basados únicamente en promedios pueden ser tergiversados”.

En el estudio del SACMEQ, los profesores fueron evaluados utilizando una prueba que se superponía con la prueba aplicada a sus propios estudiantes. Esto permitió que sus resultados fueran mapeados en la misma escala, una fuente muy importante de información para las autoridades del país. Los porcentajes de los estudiantes y de los profesores en cada nivel de competencia de lectura se presentan en el Gráfi co 4.3.

El principal objetivo del SACMEQ fue ayudar al fortalecimiento de capacidades en cada país y a formular una política destinada a mejorar los rendimientos. Se han puesto en circulación archivos de datos de los proyectos SACMEQ I y SACMEQ II. Se han previsto comparaciones intranacionales y algunas están empezando a aparecer. Además, los estudios nacionales están utilizando escalas descriptivas.

En el Recuadro 1 se presenta como ejemplo adicional la escala descriptiva utilizada en el estudio de la IAEP como base para la presentación de los resultados comparados entre países en ciencias.

Esta forma de presentación de resultados posibilita refl exiones más interesantes sobre las relaciones entre rendimiento y enseñanza. Se pueden defi nir los puntos de referencia, pero, más importante aún, se pueden formular estrategias de intervención para los estudiantes en cada nivel y


95


Gráfi co 4.3 Niveles de competencia de los estudiantes y profesores del 6º grado en el proyecto SACMEQ II

0 10 20 30 40 50 60 70

Prelectura

Lectura emergente

Lectura básica

Lectura para obtener el significado

Lectura interpretativa

Lectura inferencial

Lectura analítica

Lectura crítica

EstudiantesProfesores

Fuente: Ross et al., 2005.

no sólo para los estudiantes que están por debajo de los niveles esperados de rendimiento. Esto tiene considerables implicaciones para los encargados de elaborar el currículo y formular política.

La manera en que se presentan los resultados de los estudios internacionales puede tener un impacto signifi cativo al generar opinión pública y decisiones políticas. También es importante reconocer que, a pesar de todos los esfuerzos desplegados en las ingeniosas presentaciones de los datos, poco se puede hacer para evitar que los medios de comunicación concentren su atención en los resultados más “visibles” de las comparaciones internacionales, es decir, los aspectos “carrera de caballos”. No obstante, estudios bien realizados aportan información que va más allá de las clasifi caciones espectaculares y su impacto con poca visión de futuro sobre los egos nacionales. Un mérito de las comparaciones es que, al ilustrar los altos niveles de rendimiento alcanzados en algunos de los países participantes, los investigadores son capaces de aportar pruebas empíricas de que esos niveles están “al alcance de otros sistemas educativos”. En este sentido, los resultados comparados a menudo han probado ser poderosos incentivos para estimular que en los países se investigue por qué sus estudiantes son


96


Recuadro 1. Los niveles de competencia en ciencias de la IAEP

Nivel 700 Integración de la información científi ca y las pruebas experimentales

Los estudiantes que se encuentran en este nivel pueden interpretar datos experimentales que incluyen diversas variables. También pueden interrelacionar información presentada de diversas formas –textos, gráfi cos, cuadros y diagramas–. Los estudiantes pueden formular predicciones basándose en los datos y las observaciones, y son conscientes de las limitaciones de las extrapolaciones. Los estudiantes demuestran una mayor comprensión de conocimientos y conceptos científicos más avanzados, tales como la definición de ‘caloría’ o de ‘cambio químico’.

Nivel 600 Comprensión y aplicación de conocimientos y principios científi cos intermedios

Los estudiantes que se encuentran en este nivel muestran la comprensión de hechos y principios científi cos intermedios, y pueden aplicar esta comprensión en el diseño de experimentos y la interpretación de datos. También pueden interpretar cuadros y diagramas utilizados para transmitir información científi ca. Los estudiantes que se encuentran en este nivel pueden inferir relaciones y derivar conclusiones a partir de hechos y principios, especialmente de la física.

Nivel 500 Utilización de procedimientos científi cos y análisis de datos

Los estudiantes que se encuentran en este nivel comprenden los procedimientos experimentales utilizados en la ciencia, tales como el diseño de experimentos, el control de variables y el uso de equipos. Pueden identifi car en un gráfi co las conclusiones más adecuadas derivadas de los datos y la mejor explicación de los fenómenos observados. También comprenden algunos conceptos en diversas áreas científi cas, incluyendo las ciencias de la vida, la física, las ciencias de la tierra y el espacio.

Nivel 400 Comprensión y aplicación de principios científi cos simples

Los estudiantes que se encuentran en este nivel muestran un mayor conocimiento en ciencias de la vida, especialmente del sistema biológico humano, y pueden aplicar algunos conceptos básicos de la física, incluyendo el de fuerza. También muestran una comprensión elemental de algunos de los métodos básicos de razonamiento utilizados en la ciencia, incluyendo la clasifi cación e interpretación de enunciados.

Nivel 300 Conocimiento de hechos coditianos

Los estudiantes que se encuentran en este nivel identifi can algunos fenómenos a partir de experiencias de la vida cotidiana. Por ejemplo, muestran que tienen algunos conocimientos rudimentarios relacionados con el medio ambiente y los animales.

Fuente: Lapointe et al., 1989.

menos competentes y mostrar lo que se podría hacer para mejorar su sistema educativo.


97


Conclusión En algunos países, los resultados de los estudios internacionales

(como los efectuados por la IEA y la OCDE) han tenido un fuerte impacto sobre el público al traer el tema de la excelencia al foro. En muchos sistemas educativos, las personas tienden a sostener una opinión cómoda, en el sentido de que su sistema educativo es “el mejor del mundo” y cuando las pruebas empíricas indican que éste es quizá un punto de vista cuestionable, se produce una conmoción. Como indican Beaton et al. (1999) y Postlethwaite (2004), los estudios internacionales a menudo han desempeñado un papel signifi cativo al estimular mejoras en la inversión en educación, la ejecución de revisiones de los currículos, la construcción de nuevos estándares, la revisión de los programas de formación docente y, frecuentemente, han forzado una mayor consideración de las desigualdades en los recursos de las escuelas, la organización escolar y las prácticas docentes.

Por ejemplo, el impacto de los estudios de la IEA en Suecia y los Estados Unidos produjeron cambios en el currículo y las prácticas en la escuela. La participación de Hungría en los estudios de la IEA condujo a una reforma del currículo en lectura y el hallazgo de qué factores ligados al hogar tenían más infl uencia que los factores escolares condujo a examinar las ideologías curriculares en varios países de Europa Oriental. En Noruega, los resultados del TIMSS informaron la política relativa al currículo del segundo nivel de educación secundaria, generando una mayor atención a las directrices destinadas a responder a las diferencias de género en el rendimiento y produjeron revisiones del currículo destinado a la formación del personal docente, porque se percibió que se necesitaba fortalecer la formación de los profesores en matemática y ciencias.

En el nivel de la educación primaria, las diferencias entre escuelas son muy grandes en los países en desarrollo, donde se observan enormes desigualdades en las condiciones de escolarización, califi cación del personal docente, disponibilidad de textos escolares y otros materiales pedagógicos. En los países industrializados, donde los insumos y recursos pedagógicos tienden a ser uniformes en las escuelas de educación primaria de un sistema dado, variables tales como la ‘califi cación del personal docente’ o la ‘disponibilidad de textos escolares’ generalmente están asociadas con variaciones insignifi cantes en el rendimiento.

La exploración comparada entre países de los factores asociados con el rendimiento cuestionaron progresivamente el famoso hallazgo del


98


Coleman Report, en el sentido de que “los recursos y procesos escolares tienen poco impacto sobre el rendimiento de los estudiantes, una vez que se toma en cuenta las diferencias atribuibles a las características del hogar del estudiante”. Ciertamente, las características del hogar siguen siendo un determinante universal de las diferencias de rendimiento, tanto en los países industrializados como en desarrollo. Sin embargo, la fuerza de las correlaciones entre el origen socioeconómico de los estudiantes y el rendimiento varía entre países, indicando que algunos sistemas pueden ser más efi caces que otros en la moderación de los efectos de la desventaja y brindando más igualdad de oportunidades de aprendizaje a los diferentes grupos sociales que constituyen su población.

De manera semejante, la magnitud y las pautas de la brecha de género en el rendimiento difi ere entre países y parece depender de diferencias culturales y organizativas. Si bien las desigualdades masculino-femenino han disminuido con el tiempo en matemática (y, en menor medida, en ciencias), han surgido nuevas preocupaciones en lo que se refi ere a la lectura, un área en la que los niños tienden a tener un menor rendimiento que las niñas en la mayoría de países. En algunos casos se ha mostrado que programas específi cos destinados a reducir la brecha de género han sido efi caces (Keeves, 1995).

Mientras que los estudios internacionales han identifi cado algunas variables de la escuela que parecen “funcionar” para producir niveles más altos de competencia (por ejemplo, se ha encontrado que el rendimiento de los estudiantes está positivamente relacionado con el tiempo asignado al estudio de la asignatura en la escuela y el tiempo asignado a las tareas en casa), el mensaje más importante transmitido a los responsables políticos por las comparaciones internacionales parece ser que, en general, el impacto de cualquier variable relacionada con la escuela considerada individualmente es pequeño y a menudo está vinculado a una variedad de otros aspectos del contexto educacional. No es dable esperar ningún progreso considerable en el rendimiento implementando simplemente alguna innovación “milagrosa”, copiada de algún aspecto específi co hallado en los sistemas educativos con alto rendimiento. Por el contrario, se puede aprender mucho mediante el análisis cuidadoso de cómo importantes factores positivos y negativos interactúan en una variedad de otros sistemas, a fi n de rediseñar las reformas nacionales.

Los gobiernos han manifestado un interés creciente y otorgado apoyo fi nanciero a estos esfuerzos de investigación basándose en el presupuesto


99


general de que el progreso en alfabetización y aritmética básica en la población activa produciría una mejor calidad de vida y mejoraría la competitividad económica. Por ejemplo, la OCDE y el Banco Mundial frecuentemente han basado sus argumentos en favor de un mejor monitoreo de la educación en la relación entre rendimiento educativo y crecimiento de la productividad a nivel nacional (OECD, 1989). Sin embargo, si la naturaleza de esta relación es causal o no constituye un tema muy debatido. McKenzie y Wurzburg (1998) han argumentado que las pruebas se sustentan en comparaciones entre países en diferentes etapas de desarrollo y las relaciones podrían ser espurias. Las publicaciones de la IEA indican que hay “pocas pruebas contundentes para apoyar la ampliamente difundida visión de que existe una conexión causal fuerte y directa entre los puntajes nacionales promedio de los estudiantes en las pruebas y su competitividad económica” (Beaton et al., 1999).

Los autores de una síntesis reciente de la literatura relacionada con el tema (Hannum y Buchman, 2003) propusieron una visión más equilibrada. Concluyeron que las pruebas acerca de los efectos de la educación sobre el crecimiento económico de los países son, en efecto, una mezcla: algunos estudios muestran efectos positivos y otros no indican efectos a corto plazo. A nivel individual, los efectos son casi universalmente positivos, si bien con grandes variaciones en la magnitud de los retornos económicos por año adicional de escolarización, dependiendo de una variedad de factores nacionales. Además, existen fuertes indicios de que la educación tiene efectos positivos globales sobre la salud, la disminución de la mortalidad y la moderación del crecimiento demográfi co. También parece haber algunas pruebas claras de que la educación contribuye a reducir la desigualdad de género, pero no otros tipos de desigualdad, como las desventajas socioeconómicas o étnicas.

Así, el debate sobre los resultados a largo plazo de la educación a largo plazo parecen lejos de estar concluídos y muy probablemente continuará alimentando –en lugar de disminuir– el interés de los responsables políticos en las comparaciones internacionales de los resultados de sus sistemas educativos.


100


Bibliografía Beaton, A.; M. Martin; I. Mullis; E. Gonzalez; T. Smith; D. Kelly. 1996.

Science achievement in the middle school years, Boston: IEA, TIMSS International Study Center.

Beaton, A.; T.N. Postlethwaite; K.N. Ross; D. Spearritt; R. Wolf. 1999. The benefi ts and limitations of international educational achievement studies, Paris: IIEP-UNESCO.

Blum, H.; H. Goldstein; F. Guérin-Pace. 2001. “IALS: An analysis of international comparisons of adult literacy”, Assessment in Education, vol. 8, n.° 2, pp. 225-246.

Coleman, J.S. 1966. The equality of educational opportunity study, Washington, DC: U.S. Department of Health, Education, and Welfare, Offi ce of Education.

Comber, L.C.; J.P. Keeves. 1973. Science education in nineteen countries, Stockholm: Almquist & Wiksell.

Elley, W. 1992. How in the world do students read?, Hamburg: International Association for the Evaluation of Educational Achievement (IEA).

Freudenthal, H. 1975. “Pupils’ achievements internationally compared”, Educational Studies in Mathematics, n.º 6, pp. 126-186.

Goldstein, H.; R. Wood. 1989. “Five decades of response modelling”, British Journal of Mathematical and Statistical Psychology, n.º 42, pp. 139-167.

Griffi n, P. 2004. “Total test-score variable. An approach to the validity issue: A comment on Russell’s zero-sum hypothesis”, Curriculum Inquiry, vol. 34, n.º 1, pp. 319-340.

Griffi n, P. October 2001. New directions in the measurement of literacy and numeracy: The SACMEQ tests and their linkages to levels of competence. Paper presented at the UNESCO Policy Forum for the SACMEQ Assembly of Ministers. Paris: IIEP-UNESCO.

Hannum, E.; C. Buchmann. 2003. The consequences of global educational expansion, Cambridge, MA: American Academy of Arts and Sciences.


101


Husén, T. (Ed.). 1967. A comparison of twelve countries: international study of achievement in mathematics, vols. 1-2, Stockholm: Almquist & Wiksell.

Keeves, J. 1995. The World of School Learning: Selected Key Findings from 35 years of IEA research, The Hague: The International Association for the Evaluation of Educational Achievement (IEA).

Lapointe, A.; N.A. Mead; G.W. Phillips. 1989. A world of differences: An international assessment of mathematics and science, Princeton, NJ: Educational Testing Service.

Martin, M.O.; D.L. Kelly (Eds.). 1996. TIMSS technical report: vol. 1. Design and development, Chestnut Hill, MA: Boston College.

McKenzie, P.; G. Wurzburg. 1998. “Lifelong learning and employability”, OECD Observer, n.º 207, pp. 13-17.

National Commission on Excellence in Education. 1983. A nation at risk: The imperative for educational reform superintendent of documents, Washington, DC: U.S. Government Printing Offi ce (Publication n.º 20402).

Mullis, I.V.S.; A.M. Kennedy; M.O. Martin; M. Sainsbury. 2004. PIRLS (Programme in International Reading Literacy Study) 2006: Assessment framework and specifi cations, Chestnut Hill, MA: International Association for the Evaluation of Educational Achievement (IEA).

OECD. 1989. Employment outlook, Paris: OECD. OECD. 1996. Lifelong learning for all, Paris: OECD. OECD. 2001. Knowledge and skills for life: First results from PISA 2000,

Paris: OECD. OECD. 2004. Learning for tomorrow’s world: First results from PISA 2003,

Paris: OECD. OECD-UNESCO. 2003. Literacy skills for the world of tomorrow: Further

results from PISA 2000, Paris: OECD/UNESCO-UIS. Peaker, G. 1975. An empirical study of education in 21 countries: A

technical report, Stockholm: Almqvist & Wicksell. Plomp, T. 1999. The relevance of IEA type international comparative

assessments of educational achievement. Paper presented at the 40th General Assembly of IEA, Oslo, August.


102


Postlethwaite, T.N. 2004. What do international assessment studies tell us about the quality of school systems? Acceso: 5 de julio de 2005 en: http://portal.unesco.org/education/en/ev.php-URL_ID=36356&URL_ DO=DO_PRINTPAGE&URL_SECTION=201.html

Rosier, M.J.; J.P. Keeves. 1991. Science education and curricula in twenty-three countries: The IEA study of science, Oxford: Pergamon Press.

Ross, K.; M. Saito; S. Dolata; M. Ikeda. 2005. SACMEQ data archive, Paris: IIEP-UNESCO.

Russell, H. 1981. Validity patterns and the total test score variable, Toronto: OISE (mimeo.).

Russell, H. 1982. Total score. Subscore group: Comments, Wellington: Department of Education [Memorandum IEA (Maths-NZ) A./362].

Russell, H. 2004. “Connections among factors in education”, Curriculum Inquiry, vol. 34, n.º 3, pp. 353-362.

Thorndike, R.L. 1973. Reading comprehension education in fi fteen countries, Stockholm: Almqvist & Wiksell.

Travers, K.J.; I. Westbury (Eds.). 1989. The IEA study of mathematics: Analysis of mathematics curricula, Oxford: Pergamon.

Tuijnman, A. 2000. Benchmarking adult literacy in America: An international comparative study, Ottawa: Statistics Canada.

Tuijnman, A.; I.S. Kirsch; S. Jones; T.S. Murray. 1994. Literacy, economy, and society: Results of the fi rst International Adult Literacy Survey, Paris: OECD.

WCEFA. 1990. Declaración mundial sobre educacion para todos, Nueva York: WCEFA.

UNESCO. 2000. Education for all. Status and trends 2000. Assessing learning achievement, Paris: UNESCO.

United Nations. 2000. United Nations millennium declaration, New York: United Nations (Resolution adopted by the General Assembly A/RES/55/2). Existe versión en español: Declaración del milenio de las Naciones Unidas, Nueva York: Naciones Unidas (Resolución aprobada por la Asamblea General A/RES/55/2). Cf.:

http://daccessdds.un.org/doc/UNDOC/GEN/N00/559/54/PDF/N0055954.pdf?OpenElement


http://portal.unesco.org/education/en/ev.php-URL_ID=36356&URL_

http://daccessdds.un.org/doc/UNDOC/GEN/N00/559/54/PDF

103

Estudio Dominios evaluados

Países Poblaciones objetivo Principales publicaciones

1964. IEA/FIMSPrimer Estudio Internacional de Matemática[First International Mathematics Study]

Matemática 12 países:Alemania (RFA), Australia, Bélgica, Escocia, Estados Unidos, Finlandia, Francia, Inglaterra, Israel, Japón, Países Bajos y Suecia.

Estudiantes que cursan el grado modal para los alumnos de 13 años (11 países); estudiantes que cursan el último año de educación secundaria (10 países).

Husén, T. (Ed.). 1967. A comparison of twelve countries: International study of achievement in mathematics, vols. 1-2, Stockholm: Almquist & Wiksell.

1970-1971. IEA/FISSPrimer Estudio Internacional de Ciencias [First International Science Study]

Ciencias 19 países: Alemania (RFA), Australia, Bélgica (fl amenca), Bélgica (francesa), Chile, Escocia, Estados Unidos, Finlandia, Francia, Hungría, India, Inglaterra, Irán, Italia, Japón, Nueva Zealandia, Países Bajos, Suecia y Tailandia.

Pob. I: estudiantes de 10 años (16 países). Pob. II: estudiantes de 14 años (18 países). Pob. IV: estudiantes que cursan el último año de educación secundaria (18 países).

Comber, L.C. y J. P. Keeves. 1973. Science education in nineteen countries, Stockholm: Almquist & Wiksell; New York: John Wiley & Sons.

1970-1971. IEA/RCSEstudio sobre Comprensiónde Lectura [Reading ComprehensionStudy]

Lectura 15 países: Bélgica (fl amenca), Bélgica (francesa), Chile, Escocia, Estados Unidos, Finlandia, Hungría, India, Inglaterra, Irán, Israel, Italia, Nueva Zelandia, Países Bajos y Suecia.

Pob. I: estudiantes de 10 años (14 países). Pob. II: estudiantes de 14 años (I5 países). Pob. IV: estudiantes que cursan el último año de educación secundaria (15 países).

Thorndike, R.L. 1973. Reading comprehension education in fi fteen countries: An empirical study, Stockholm: Almquist & Wiksell.

1970-1971.IEA/Estudio sobre Literatura[IEA/Literature Study]

Literatura 10 países: Bélgica (fl amenca), Bélgica (francesa), Chile, Estados Unidos, Finlandia, Inglaterra, Irán, Italia, Nueva Zelandia y Suecia.

Pob. II: estudiantes de 14 años. Pob. IV: estudiantes que cursan el último año de educación secundaria.

Purves, A.C. 1973. Literature education in ten countries, Stockholm: Almquist & Wiksell; New York: John Wiley & Sons.

1970-1971.IEA/Estudio del francés como lengua extranjera [IEA/French as a foreign language Study]

Francés como lengua extranjera

8 países: Chile, Escocia, Estados Unidos, Inglaterra, Nueva Zelandia, Países Bajos, Rumania y Suecia.


Carrol, J.B. 1975. The teaching of French as a foreign language in eight countries, Stockholm: Almquist & Wiksell; New York: John Wiley & Sons.

Apéndice: estudios internacionales publicados desde la década de los sesenta


104




1970-1971.IEA/Estudio sobre el inglés como lengua extranjera[IEA/English as a foreign language Study]

Inglés como lengua extranjera

10 países: Alemania (RFA), Bélgica (francesa), Chile, Finlandia, Hungría, Israel, Italia, Países Bajos, Suecia y Tailandia.


Lewis, E.G. y C.E. Massad. 1975. The teaching of English as a foreign language in ten countries, Stockholm: Almquist & Wiksell; New York: John Wiley.

1971.IEA/Primer Estudio de Educación Cívica [IEA/First Civic Education Study]

Conocimientos y actitudes en educación cívica

10 países: Alemania (RFA), Estados Unidos, Finlandia, Irán, Irlanda, Israel, Italia, Nueva Zelandia, Países Bajos y Suecia.

Pob. II: estudiantes de 10 años. Pob. IV: estudiantes que cursan el último año de educación secundaria (18 países).

Farnen, R.F., A.N. Oppenheim y J. Torney. 1976. Civic education in ten countries: An empirical study, Stockholm: Almqvist & Wiksell; New York: John Wiley.

1982. IEA/SIMSSegundo Estudio Internacional de Matemática [Second International Mathematics Study]

Matemática 20 países: Bélgica (fl amenca), Bélgica (francesa), Canadá (British Columbia y Ontario), Escocia, Estados Unidos, Finlandia, Francia, Hong Kong, Hungría, Inglaterra y Gales, Israel, Japón, Luxemburgo, Nigeria, Nueva Zelandia, Países Bajos, Swazilandia, Suecia y Tailandia.

Pob. A: estudiantes que cursan el grado modal para los alumnos de 13 años. Pob. B: estudiantes que cursan el último año de educación secundaria y tienen cerca de 5 horas de cursos de matemática por semana.

Robitaille, D.F. y R.A.Garden (Eds.). 1989. The IEA study of mathematics II: Context and outcomes of school mathematics, Oxford: Pergamon Press.

1983-1984.IEA/SISSSegundo Estudio Internacional de Ciencias [Second International Science Study]

Ciencias 23 países: Australia, Canadá, China, Corea, Estados Unidos, Filipinas, Finlandia, Ghana, Hong Kong, Hungría, Inglaterra,Israel, Italia, Japón, Nigeria, Noruega, Países Bajos, Papua Nueva Guinea, Polonia, Singapur, Suecia, Tailandia y Zimbabwe.

Pob. 1 (15 países): estudiantes que cursan el grado modal para los alumnos de10 años. Pob. 2 (17 países): estudiantes que cursan el grado modal para los alumnos de 13 años. Pop. 3 (13 países): estudiantes que cursan el último año de educación secundaria

Postlethwaite, T.N. y D.E. Wiley, (Eds.). 1992. Science achievement in twenty-three countries: The IEA study of science II, Oxford: Pergamon Press.


105

¿Cuáles son los principales estudios internacionales com

parados?



1988.ETS/IAEP-1 Primera Evaluación Internacional del Progreso Educativo (IAEP-1, matématica y ciencias) [First International Assessment of Educational Progress (IAEP-I, Mathematics and Science)]

Matemática, ciencias

6 países: Canadá (4 provincias), Corea, España, Estados Unidos, Irlanda y el Reino Unido.

Estudiantes de 13 años de edad.

Lapointe, A.E., N.A. Mead y G.W.Phillips. January 1989. A world of differences: An international assessment of mathematics and science. Report of the First International Assessment of Educational Progress, Princeton, New Jersey: Educational Testing Service (Report n.º 19-CAEP-01).

1991.ETS/IAEP-2 Segunda Evaluación Internacional del Progreso Educativo (IAEP -2, matématica y ciencias) [Second International Assessment of Educational Progress (IAEP-II, Mathematics and Science)]

Matemática,cienciasgeografía

20 países: Brasil (2 ciudades), Canadá (9 provincias) China (20 provincias), Corea, Escocia, Eslovenia, España (escuelas en español), Estados Unidos, Francia, Hungría, Inglaterra, Irlanda, Israel (hebreo), Italia (Emilia-Romaña), Jordania, Mozambique (2 ciudades), Portugal, Suiza (15 cantones), Taiwán y la Unión Soviética.

Pob. 1 (14 países): estudiantes de 9 años . Pob. 2 (20 países): estudiantes de 13 años

Lazer, S. June 1992. Learning about the world. Report of the international assessment of educational progress, Princeton, New Jersey: Educational Testing Service (Report n.º 22-CAEP-05).

1990-1991.IEA/RLS Estudio sobre la Lectura [Reading Literacy Study]

Lectura 32 países: Alemania (occidental), Alemania (oriental), Bélgica (francesa), Botswana, Canadá (British Columbia), Chipre, Dinamarca, Eslovenia, España, Estados Unidos, Finlandia, Filipinas, Francia, Grecia, Hong Kong, Hungría, Indonesia, Irlanda, Islandia, Italia, Nigeria, Nueva Zelandia, Noruega, Países Bajos, Portugal, Singapur, Suecia, Suiza, Tailandia, Trinidad y Tobago, Venezuela y Zimbabwe.

Pob. A (28 países): estudiantes que cursan el grado modal para alumnos de 9 años. Pob. B (31 países): estudiantes que cursan el grado modal para alumnos de 14 años.

Elley, W.B. 1992. How in the world do students read? IEA study of reading literacy, The Hague: IEA.


106




1988-1992. IEA/COMPED Estudio sobre las Computadoras en la Educacion [Computers in Education Study]

Educación en TIC Familiaridad y actitudes en relación con las TIC

Fase 1: 22 paísesFase 2: 12 paísesAlemania, Austria, Bélgica (fl amenca), Bélgica (francesa), Bulgaria, Canadá (British Columbia) China, Eslovenia, Estados Unidos, Francia, Grecia, Hungría, India, Israel, Italia, Japón, Letonia, Luxemburgo, Nueva Zelandia, Países Bajos, Polonia, Portugal, Suiza y Tailandia.

Pob. 1: estudiantes que cursan el grado modal para alumnos de 10 años. Pob. 2: estudiantes que cursan el grado modal para alumnos de 13 años. Pob. 3: estudiantes que cursan el penúltimo grado de educación secundaria.

Pelgrum, W.J. y T. Plomp. 1991. The use of computers in education worldwide: Results from the IEA computers in education survey in 19 education systems, Oxford, UK: Pergamon Press.

1994-1998 OCDE-STATCAN/IALS Estudio Internacional sobre Alfabetización de Adultos (IALS) [International Adult Literacy Study]

Lectura, aritmética básica

20 países: Alemania, Australia, Bélgica (fl amenca), Canadá , Chile, Dinamarca, Eslovenia, Estados Unidos, Finlandia, Hungría, Irlanda, Nueva Zelandia, Países Bajos, Polonia, Portugal, Reino Unido, Suecia y Suiza.

Adultos entre 16 y 65 años OECD-STATCAN. 2000. Literacy in the information age: fi nal report of the international adult literacy survey, Paris and Ottawa: OECD and Statistics Canada.

1994-1995 IEA/TIMSS Tercer Estudio Internacional de Matemática y Ciencias (TIMSS) [Third International Mathematics and Science Study]


46 países: Alemania, Argentina, Australia, Austria, Bélgica (fl amenca), Bélgica (francesa), Bulgaria, Canadá, Chipre, Colombia, Corea, Dinamarca, Escocia, Eslovenia, España, Estados Unidos, Federacion de Rusia, Finlandia, Filipinas, Francia, Grecia, Hong Kong, Hungría, Indonesia, Inglaterra, Irán, Irlanda, Islandia, Israel, Italia,

Pob. 1: estudiantes matriculados en los dos grados que tienen la proporción más grande de alumnos de nueve años (29 países). Pob. 2: estudiantes matriculados en los dos grados que tienen la proporción más grande de alumnos de 13 años (46 países).Pob. 3: estudiantes que cursan el último año de educación

Beaton, A.E., M.O. Martin, I.V.S. Mullis, E.J. Gonzales, T.A. Smith y D.L. Kelly. 1996. Science achievement in the middle school years: IEA’s TIMSS, Chestnut Hill, MA: Boston College.

Beaton, A.E., I.V.S.Mullis, M.O. Martin, E.J. Gonzales, D.L. Kelly y T.A.Smith. 1996. Mathematics achievement in


107


parados?



Japón, Kuwait, Letonia, Lituania, México, Nueva Zelandia, Noruega, Países Bajos, Portugal, República Checa, República Eslovaca, Rumania, Singapur, Sudáfrica, Suecia, Suiza y Tailandia.

secundaria (población general: 22 países; estudiantes que llevan cursos avanzados de matemática: 17 países; estudiantes que llevan cursos avanzados de física: 18 países)

the middle school years: IEA’s TIMSS, Chestnut Hill, MA: Boston College.

1997-1998.IEA/TIMSS-R Tercer Estudio Internacional en Matemática y Ciencias – Réplica [Third International Mathematics and Science Study-Repeat]


Albania, Australia, Bélgica (fl amenca), Bulgaria, Canadá, Chile, Taipei Chino, Chipre, Corea, Eslovenia, Estados Unidos, Federación de Rusia, Finlandia, Filipinas, Hong Kong (RAE) , Hungría, Inglaterra, Israel, Italia, Japón, Jordania, Letonia, Lituania, Malasia, Marruecos, Moldova, Nueva Zelandia, Noruega, Países Bajos, República Checa, República Eslovaca, República de Irán, República de Macedonia, República de Túnez, Rumania, Singapur, Sudáfrica, Tailandia y Turquía.

Estudiantes del 8º grado Martin, M.O, I.V.S. Mullis, E.J. Gonzales, K.D. Gregory, T.A. Smith, S.J. Chrostowski, R.A. Garden y K.M. O’Connor. 2000. TIMSS 1999 international science report: f ndings from IEA’s repeat of the third international mathematics and science study at the eighth grade, Chestnut Hill, MA: Boston College.

Mullis, I.V.S., M.O. Martin , E.J. Gonzales, K.D. Gregory, R.A. Garden, K.M. O’Connor, S.J. Chrostowski y T.A. Smith. 2000. TIMSS 1999 international mathematics report: fi ndings from IEA’s repeat of the third international mathematics and science study at the eighth grade. Chestnut Hill, MA: Boston College.


108




1999. IEA/CIVED Segundo Estudio de Educación Cívica [Second Civic Education Study]

Conocimientos y actitudes en educación cívica

28 países: Alemania, Australia, Bélgica, (francesa), Bulgaria, Chile, Chipre, Colombia, Dinamarca, Eslovenia, Estados Unidos, Estonia, Federacion de Rusia, Finlandia, Grecia, Hong Kong (RAE), Hungría, Inglaterra, Italia, Letonia, Lituania, Noruega, Polonia, Portugal, Rumania, República Checa, República Eslovaca, Suecia y Suiza.

Fase 1: estudios de caso cualitativos en 24 países. Fase 2: evaluación en 28 países: Pob. 2: estudiantes que cursan el grado modal para los alumnos de 14 años. Población opcional de mayor edad: estudiantes del segundo ciclo de educación secundaria.

Torney-Purta, J., R. Lehmann, H. Oswald y W. Schulz. 2001. Citizenship and education in twenty-eight countries: civic knowledge and engagement at age fourteen, Amsterdam: International Association for the Evaluation of Educational Achievement (IEA).

2001. IEA/PIRLS Estudio Internacional de Competencia en Lectura [Progress in International Reading Literacy Study]

Lectura 35 países: Alemania, Argentina, Belice, Bulgaria, Canadá, Colombia, Chipre, Escocia, Eslovenia, Estados Unidos, Federación de Rusia, Francia, Grecia, Hong Kong (RAE), Hungría, Inglaterra, Irán, Islandia, Israel, Italia, Kuwait, Letonia, Lituania, República Checa, República Eslovaca, República de Macedonia, Marruecos, Moldova, Nueva Zelandia, Noruega, Países Bajos, Rumania, Singapur, Suecia y Turquía.

Estudiantes que cursan el 4º grado

Mullis, I.V.S., M.O.Martin, E.J. Gonzalez y A.M. Kennedy. 2003. PIRLS 2001 international report: IEA’s study of reading literacy achievement in primary schools, Chestnut Hill, MA: Boston College.


109


parados?



2000. OCDE/PISA Programa Internacional de Evaluación de Estudiantes [Programme for International Student Assessment]

Lectura, matemática, ciencias

Fase 1 (PISA): 32 países: Alemania, Australia, Austria, Bélgica, Brasil,* Canadá, Corea, Dinamarca, España, Estados Unidos, Federación de Rusia,* Finlandia, Francia, Grecia, Hungría, Irlanda, Islandia, Italia, Japón, Letonia,* Liechtenstein, Luxemburgo, México, Nueva Zelandia, Noruega, Países Bajos, Polonia, Portugual, Reino Unido, República Checa, Suecia y Suiza. Fase 2 (PISA+): 11 países adicionales: Albania, Argentina, Bulgaria, Chile, Hong Kong, Indonesia, Israel, ERY Macedonia, Perú, Rumania y Tailandia.

Estudiantes de 15 años OECD. 2001. Knowledge and skills for life: First results from PISA 2000, Paris: OECD.

OECD-UNESCO. 2003. Literacy skills for the world of tomorrow: further results from PISA 2000, Paris: OECD/UNESCO-UIS.

2003. OCDE/PISA 2003Programa Internacional de Evaluación de Estudiantes [Programme for International Student Assessment]

Lectura, matemática,ciencias,resolución de problemas

41 países: Alemania, Australia, Austria, Bélgica, Brasil,* Canadá, Corea, Dinamarca, España, Federación de Rusia,* Finlandia, Francia, Grecia, Hong Kong, Hungría, Indonesia, Irlanda, Islandia, Italia, Japón, Letonia,* Liechtenstein, Luxemburgo, Macao, México, Nueva Zelandia, Noruega, Países Bajos, Polonia, Portugal, Reino Unido, República Checa, República Eslovaca, República Serbia de Yugoslavia, Suecia, Suiza, Tailandia, Túnez, Turquía y Uruguay.

Estudiantes de 15 años OECD. 2004. Learning for tomorrow’s world. First results from PISA 2003, Paris: OECD.


110




1997-1999. SACMEQ Consorcio del África Meridional para el Monitoreo de la Calidad de la Educación [Southern Africa Consortium for Monitoring Educational Quality]

Lectura, matemática

15 países: Botswana, Kenya, Lesotho, Malawi, Mauricio, Mozambique, Namibia, Seychelles, Sudáfrica, Swazilandia, Tanzania (continental), Tanzania (Zanzíbar), Uganda, Zambia y Zimbabwe.

Estudiantes del 6º grado Kulpoo, D. 1998. Mauritius: The quality of education: some policy suggestions based on a survey of schools, Paris: IIEP-UNESCO (SACMEQ Policy research: Report n.º1). Machingaidze, T. P. Pfukani y S. Shumba. 1998. Zimbabwe: the quality of education: some policy suggestions based on a survey of schools, Paris: IIEP-UNESCO (SACMEQ Policy research: Report n.º 3). Milner, G., J. Chimombo, T. Banda y C. Mchikoma.2001. The quality of education: some policy suggestions based on a survey of schools: Malawi, Paris: IIEP-UNESCO (SACMEQ Policy research: Report n.º 7).Nassor, S y K.A. Mohammed. 1998. Zanzibar: the quality of education: some policy suggestions based on a survey of school, Paris: IIEP-UNESCO. (SACMEQ Policy research: Report n.º 4.Nkamba, M. y J. Kanyika. 1998. Zambia: the quality of education: some policy suggestions based on a survey of schools, Paris: IIEP-UNESCO (SACMEQ Policy research: Report n.º 5).Nzomo, J., M. Kariuki y L. Guantai. 2001. The quality of education: some policy suggestions based on a survey of schools: Kenya, Paris: IIEP-UNESCO. (SACMEQ Policy research: Report n.º 6). Voigts, F. 1998. Namibia: the quality of education: some policy suggestions based on a survey of schools, Paris: IIEP-UNESCO (SACMEQ Policy research: Report n.º.2).


111

Capítulo 5

¿Qué es un “buen” estudio internacional comparado?

T. Neville Postlethwaite

Introducción En las últimas décadas ha habido un importante aumento del interés hacia estudios internacionales comparados sobre la calidad de la educación. Esta tendencia ha sido alimentada por la creencia extendida de que la comparación de los niveles relativos de rendimiento de los estudiantes entre países es altamente predictiva en cuanto al futuro desarrollo económico de un país. Desafortunadamente, sin embargo, algunos estudios internacionales comparados de la calidad de la educación tienen limitaciones asociadas ya sea a su diseño técnico e implementación o a su capacidad para aportar información que se pueda utilizar para la toma de decisiones informada. Resultado: es importante que investigadores (especialmente los técnicos de la división de investigación y planifi cación de los ministerios de educación) y responsables de la toma de decisiones (especialmente los ministros y el personal de alto nivel de los ministerios de educación) sean capaces de juzgar si el país debe participar en un estudio determinado. Esos juicios requieren que ellos sean capaces de identifi car las principales características de un “buen” estudio internacional comparado.

Aquí surge un problema, porque estos dos grupos de personas –investigadores y responsables de la toma de decisiones– generalmente basan sus juicios de lo que es “bueno” en diferentes series de criterios diferentes. El análisis que sigue tiene como fi nalidad listar, comentar y, ocasionalmente, responder a las cuestiones más signifi cativas que surgen entre los miembros de cada grupo. Este marco de referencia se ha adoptado con la esperanza de que una mejor elaboración y comprensión de las preocupaciones por parte de investigadores y responsables de la toma de decisiones permitirá que estos actores: (a) trabajen juntos más efi cazmente; (b) hagan juicios sólidos respecto de la participación en estudios internacionales comparados y (c) hagan que esos estudios respondan mejor a las exigencias políticas y científi cas.


112


Desde el punto de vista de un responsable de la toma de decisiones

El personal de alto nivel de los ministerios tiene que sopesar las aspiraciones y necesidades de una amplia variedad de actores y, a fi n de cuentas, mantener la credibilidad personal y la confi anza sostenidas en las políticas y programas gubernamentales. Ésta es una tarea desafi ante y, desde la perspectiva de la cotidianidad, a veces puede parecer una suerte de “gestión de crisis”. Por consiguiente, en los ministerios se debe estar justamente interesados en las ramifi caciones políticas de los resultados de los estudios internacionales comparados sobre la calidad de la educación, así como en las reformas políticas y la práctica que pueden derivar de los resultados de la investigación.

¿Se basan los resultados en datos válidos y análisis sólidos de datos?

La principal preocupación de los responsables de la toma de decisiones será que los resultados que emanen de un estudio internacional comparado sobre la calidad de la educación se basen en datos de alta calidad y que el análisis de datos se realice sólidamente. A menudo sucede que los funcionarios de alto nivel rechazan parte de una investigación cuando los hallazgos contradicen: (a) lo que “generalmente se cree” en el ministerio o (b) lo que “actualmente se considera la política ofi cial del gobierno”. Por consiguiente, incumbe a los investigadores mostrar que los datos y los resultados de la investigación son fi ables. Esto se logra, generalmente, cuando los investigadores demuestran que durante la investigación se han aplicado estándares técnicos apropiados.

En algunos casos, resulta difícil para los investigadores convencer al personal de alto nivel de los ministerios de la exactitud de los resultados de la investigación. Unos cuantos ejemplos reales basados en la experiencia reciente del autor ilustrarán este punto.

En un ministerio se había defi nido una política según la cual habría 18 libros por alumno en la biblioteca de una escuela primaria. Sin embargo, los resultados de la investigación mostraron que en una región sólo había un promedio de dos libros por alumno en la biblioteca escolar promedio. No es de extrañar que los funcionarios declararan que “los datos eran erróneos”. Esta conclusión ilógica exigió que el equipo de investigadores visitara un gran número de escuelas de la región y efectuara una escrupulosa “contabilidad” de los libros de las bibliotecas. El oneroso y prolongado


113


seguimiento de la recolección de datos produjo los mismos resultados que la encuesta original y, fi nalmente, los funcionarios del ministerio aceptaron que los datos de la investigación eran exactos.

En otro ministerio, los funcionarios se quedaron conmocionados porque el puntaje promedio en lectura de los estudiantes de ese país era mucho más bajo que el esperado, y mucho más bajo que en otros países cuyos sistemas educativos eran considerados menos efi caces. Asumieron que esos otros países habían excluido a ciertos grupos de estudiantes menos capaces de las sesiones en las que se aplicaron las pruebas. Un juicio científi camente fundado sobre la calidad de los datos en esta áreas requiere, entre otras cosas, que el informe de investigación de un estudio contenga una muy clara descripción de la “población objetivo defi nida” para el programa de pruebas, incluyendo una defi nición precisa de qué estudiantes fueron “excluidos” antes de la selección de la muestra fi nal del estudio.

¿Están los datos relacionados con las principales preocupaciones de política del ministerio?

Los ministros de educación siempre están interesados en conocer cómo se comparan los estudiantes de su propio sistema educativo con los de países “similares”, en relación con el rendimiento en diferentes áreas disciplinarias y actitudes hacia el aprendizaje en diferentes asignaturas y hacia la escuela en general.

La mayoría de los ministros también están interesados en los niveles de oferta educativa, y si éstos se han distribuido equitativamente o no entre las regiones del país y entre las escuelas de las regiones. En un estudio internacional comparado, estos “intereses” deben conocerse con anticipación, de modo que la recolección de datos pueda tomarse en consideración tanto como sea posible. El mejor enfoque en esta área es comenzar un estudio internacional comparado con una “fase preliminar de entrevistas” en la que se pregunta al ministro y a la mayoría de los funcionarios de alto nivel cuáles son sus inquietudes políticas en relación con las condiciones de escolarización y de calidad de la educación. Si la recolección de datos se concentra en estas preocupaciones, es más probable que el informe fi nal de la investigación y las recomendaciones sean leídas y utilizadas por los responsables de la toma de decisiones.

En algunos estudios internacionales comparados es común que los investigadores formulen “sugerencias de política” que esbocen programas de acción basados en los hallazgos de la investigación. Por ejemplo, los informes de investigación producidos por el Consorcio del África


114


Meridional y Oriental para el Monitoreo de la Calidad de la Educación (SACMEQ). Los investigadores del SACMEQ aportan listas de sugerencias de política (basadas en pruebas) que se clasifi can en función de marcos de referencia temporales para la implementación: corto plazo (unos seis meses), medio plazo (alrededor de uno o dos años) o a largo plazo (más de dos años). También se clasifi can en función del costo: bajo costo, costo intermedio y costo alto. Antes de publicarse, estos tipos de sugerencias siempre deben verifi carse respecto de su factibilidad mediante debates con las personas apropiadas dentro del ministerio.

¿Se entregan oportunamente los resultados de la investigación? Puede suceder que en el parlamento o en la opinión pública surja

rápidamente un problema acerca de algún aspecto de la educación. Por consiguiente, los resultados de la investigación sólo por azar podrán echar alguna luz sobre el problema en cuestión. No obstante, si el diseño de la investigación se ha guiado por las inquietudes políticas del ministro y su personal de alto nivel, entonces los resultados de la investigación estarán disponibles para informar los debates políticos.

Cuando se puede aportar información precisa rápidamente a los responsables de la toma de decisiones, existe siempre una alta probabilidad de que se usará para tomar decisiones bien fundadas. Por consiguiente, cuando se planifi ca un estudio sobre la calidad de la educación, hay que prestar debida consideración al aporte de sufi cientes recursos para entregar los datos oportunamente. La experiencia muestra que muchos estudios pierden una gran cantidad de tiempo en las fases de incorporación, depuración y gestión de los datos, justo antes del análisis principal de los datos. Es necesario que los investigadores sean conscientes de este riesgo y planifi quen en consecuencia.

¿Son los resultados de la investigación útiles para orientar acciones concretas de reforma? Los funcionarios de alto nivel de los ministerios que tienen un

conocimiento limitado de las complejidades de la investigación educacional, a menudo buscan soluciones unidimensionales como vías para la reforma de la educación. Algunas veces esto lo pueden agravar los investigadores, que presentan los resultados de la investigación internacional comparada en forma de cuadros con tabulaciones agregadas de los porcentajes nacionales o los puntajes promedio. Esas tabulaciones a menudo ignoran los peligros asociados con la ‘Falacia ecológica’ (Ross, 1997), según la cual, por ejemplo, una relación entre dos variables a nivel


115


del promedio nacional del análisis de datos podría ser muy diferente (o incluso inversa) en un país en que el análisis de datos se efectúa a nivel de estudiante.

Los investigadores también necesitan proponerse la presentación de resultados que reconozcan la complejidad del entorno educacional y, al mismo tiempo, que no dejen de ser accesibles a los responsables de la toma de decisiones debido a la jerga técnica y las complejidades analíticas. Lograr ese equilibrio no es tarea fácil.

¿Son los resultados de la investigación “peligrosos” para el gobierno? El personal de alto nivel del ministerio debe ser advertido e informado

previamente si algún resultado de la investigación puede llegar a ser “peligroso”, en el sentido de que muestra, por ejemplo, que una promesa del gobierno no se ha cumplido o que la oferta educativa o el rendimiento de los estudiantes es mucho más bajo que lo esperado para el país como un todo o en algunas partes de él. Diferentes ministros reaccionan de distinta manera a las “malas noticias” recibidas de los resultados de un estudio internacional comparado. Estas reacciones pueden producirse por una insatisfacción general ante la crítica, el sentimiento de que el rendimiento del sistema de educación en su conjunto es un termómetro de sus capacidades intelectuales, incertidumbres entre los colegas del ministerio acerca de las próximas elecciones generales, etc.

Durante la última década, han habido varios ejemplos, tanto en los países desarrollados como en los países en desarrollo, en que los ministros retiraron los datos de sus países de un estudio porque no les gustaban los resultados o prohibieron la publicación de los resultados de la investigación porque consideraban que las comparaciones hechas en el informe de investigación retrababan pobremente a su país. En un famoso incidente en la década de los noventa, un ministro retiró a su país de un estudio internacional comparado justo antes de que se imprimiera el primer informe de investigación. En este caso, los datos de este país tuvieron que ser eliminados del conjunto de datos internacionales, todos los análisis basados en los datos agrupados tuvieron que rehacerse y el informe fi nal de investigación tuvo que reescribirse completamente. Esta decisión tuvo un gran costo en términos de tiempo adicional y dinero. Cuando se emprenden estudios internacionales comparados, ahora se pide generalmente a los ministros que acepten la publicación de los resultados y los datos antes de que el estudio comience.


116


Los investigadores en esta área necesitan una estrategia que no esté sujeta a “sorpresas” con respecto al ministro cuando se publique el informe fi nal de la investigación. Esto quiere decir que si incluso las noticias “no son tan buenas”, es mejor prever una presentación clara y factual con el ministro con sufi ciente antelación a la difusión amplia de los resultados de la investigación. Esta presentación debe incluir explicaciones diplomáticamente planteadas, así como sucintas y técnicamente sólidas respecto de los hallazgos de la investigación.

¿Son de alta calidad las muestras de estudiantes y escuelas? Cuando se obtienen resultados de investigación ‘muy buenos’ o ‘muy

malos’ o ‘inesperados’ para un país, es común que el personal de alto nivel del ministerio cuestione los procedimientos del muestreo. Responder a tales cuestionamientos puede estar lleno de difi cultades, porque las respuestas correctas pueden ir “contra el sentido común”. Por ejemplo, es difícil explicar a mucha gente que “el tamaño de la muestra no es necesariamente un punto de referencia para la precisión del muestreo” o que “para la mayoría de los países, el tamaño de la población estudiantil no tiene impacto sobre el tamaño de la muestra que se debe seleccionar” (porque el factor población fi nita es insignifi cante para la mayoría de los países) o que “en los países en desarrollo pobres (donde las variaciones entre las escuelas primarias tienden a ser grandes) el tamaño requerido de la muestra para un nivel dado de exactitud es generalmente mucho más alto que en los países desarrollados ricos” o que “una muestra aleatoria simple de escuelas seguida de una selección dentro de la escuela de una muestra aleatoria simple de un número fi jo de estudiantes, trae como consecuencia una muestra sesgada” (porque los estudiantes en las escuelas grandes tienen una menor probabilidad de selección).

El único punto de referencia científi co para una muestra es la magnitud del error muestral (o incertidumbre muestral), para una estadística que es generada a partir de datos muestrales como un estimado del valor de una población. El error muestral establece límites a la incertidumbre en la estimación de muestras, y éstas, en la mayoría de los casos, son muy signifi cativas para la mayoría de las personas, formadas o no en el campo de la estadística.

¿Son “justas”las pruebas?

Cuando el ministro pregunta si las pruebas son “justas”, él o ella está preguntando si las pruebas son “válidas para los propósitos para los que fueron concebidas”. En muchos estudios internacionales comparados sobre la calidad de la educación, los niveles de validez de las pruebas están


117


determinados por el grado en que las pruebas se construyen a partir de ítems de pruebas que tienen una cobertura representativa del contenido del currículo ofi cial y la descripción ofi cial de las competencias que se supone que los estudiantes deben demostrar en una edad o grado particulares.

Antes, los estudios internacionales comparados trataban de tener en cuenta este requerimiento mediante la elaboración de pautas nacionales de comparación de “contenidos por competencias”, que refl ejaban lo que era común en el currículo de los países participantes. Este enfoque tendía a rechazar aspectos interesantes, pero no universales, de los diversos currículos. En años recientes, con la aparición de técnicas modernas de pruebas de escalonamiento, ha sido posible utilizar cuadernillos de pruebas “rotatorias” que permiten la utilización de un mayor número de ítems y posibilitan que cada sistema escolar sea puntuado separadamente en todos los marcos de referencia curriculares entre todos los países participantes.

Desde el punto de vista de un investigador Sería posible escribir una “Guía para investigadores” muy detallada

acerca de todos los estándares técnicos que se deberían respetar cuando se ejecuten estudios internacionales comparados sobre la calidad de la educación. En efecto, podría justificarse que se escribiera un libro semejante en benefi cio de todos esos estudios. Sin embargo, lo que sigue sólo es una selección de las características técnicas más importantes de un “buen” estudio internacional comparado sobre la calidad de la educación.

Se ha elaborado una lista de diez características, que fueron preparadas teniendo en mente dos propósitos. El primero, ofrecer un marco de referencia para juzgar el valor científi co de un estudio que ha sido completado y publicado. El segundo, sensibilizar a los responsables nacionales de la demanda y gestión de investigaciones internacionales comparadas sobre las cuestiones técnicas que hay que abordar, si un país desea obtener información válida para planificar la calidad de la educación.

Hay que reconocer que toda investigación internacional comparada en gran escala difiere en relación a sus objetivos y métodos. Por consiguiente, es imposible abordar los requisitos técnicos en términos de prescripciones detalladas. Por el contrario, el enfoque ha sido más bien identifi car las áreas clave de preocupación y luego plantear (y, donde es


118


adecuado, comentar) cuestiones que deben abordar los investigadores, tales como el diseño, la implementación y el informe de un estudio internacional comparado.

¿Cuáles son los propósitos de la investigación?

¿Cuáles son los propósitos específi cos de un estudio internacional comparado sobre la calidad de la educación? ¿Han sido claramente formulados? ¿Se han presentado pruebas en documentos o informes que muestren que las interrogantes formuladas objeto de investigación abordan importantes cuestiones de política y teoría en muchos de los sistemas educativos participantes? (Si no es el caso, existe el peligro de que las preguntas objeto de investigación sean los temas favoritos de los investigadores y no de los profesionales). ¿Hay pruebas para mostrar que el diseño del estudio se desarrolló específi camente para posibilitar la respuesta a interrogantes de política y teoría?

¿Se han utilizado las cuestiones de política especifi cadas en el estudio para guiar la preparación de las tabulaciones “fi cticias” o en “blanco” que pueden constituir un “marco de referencia para la presentación de los resultados” de las variables que se requieren y los análisis de datos que hay que efectuar? Un enfoque semejante establece conexiones sólidas entre las inquietudes políticas y las recomendaciones que surgen de la investigación.

A veces se afi rma que los intereses de los ditintos sistemas de educación son muy diferentes como para poder especifi car un conjunto de interrogantes de investigación para guiar un estudio internacional comparado. Sin embargo, la experiencia muestra que hay muchas inquietudes políticas en el campo de la educación que pueden ser simultáneamente permanentes y compartidas por la mayoría de los sistemas educativos. Por ejemplo, casi todos los ministerios de educación se interesan en los niveles de oferta y logro educacional, así como en la equidad de estos niveles entre las unidades administrativas, tales como las regiones en el seno de un país, así como entre las escuelas.

¿Se han articulado con su diseño los propósitos del estudio?

¿Fue adecuado el diseño de la investigación de un estudio internacional comparado para responder a las interrogantes planteadas? ¿Cubrieron los instrumentos de recolección de datos (cuestionarios, pruebas y escalas de actitud) todas las preguntas de la investigación? ¿Se


119


evitaron las interrogantes innecesarias en los instrumentos de recolección de datos?

En algunos casos, es posible ver que en los instrumentos de recolección de datos hay preguntas que no están relacionadas con las interrogantes planteadas por el estudio, lo que puede signifi car que los investigadores han insertado preguntas basadas en sus propios intereses de investigación. Un gran desajuste entre las inquietudes políticas del personal superior del ministerio de educación y el foco de atención del diseño de una investigación puede conducir con casi total seguridad a que el informe de investigación se quede en el escritorio.

Los especialistas en investigación que desean que se utilicen los resultados de su investigación en la evaluación y la formulación de política, deben reconocer la importancia que tiene mejorar el diálogo entre los productores y los consumidores de información. Esto quiere decir que ofrecer pruebas a los responsables de la toma de decisiones representa una “comunicación signifi cativa” sólo cuando el responsable de la decisión está escuchando y refl exionando activamente sobre un problema afín. Los investigadores que ignoran esta lección a menudo presentan pruebas y respuestas a una audiencia que puede estar planteando preguntas desconectadas.

¿Cuáles son las defi niciones de las poblaciones objetivo?

Cuando se contrastaron los países en un estudio internacional comparado, ¿se comparó lo comparable? Por ejemplo, si los estudiantes de un grado específi co eran comparados por sus rendimientos, ¿estaban incluidos todos los alumnos de ese grado en la población objetivo o fueron excluidos algunos estudiantes? Es usual excluir a algunos alumnos, ya sea por su escaso número (y sería muy caro recolectar datos sobre ellos, por ejemplo, en áreas muy aisladas) o porque están en escuelas de educación especial (por ejemplo, para ciegos o sordos). Estos estudiantes son designados generalmente como ‘población excluida’. Es normal tener una ‘población excluida’ que sea menos del 5 % del número total de estudiantes en la ‘población objetivo deseada’. Lo que no es deseable es tener situaciones en las que, por ejemplo, en algunos países se haya excluido al 2 % y en otros al 15 %.

¿Fueron dadas a conocer las diferentes amplitudes de los niveles de exclusión de escuelas y estudiantes, y se discutió el probable impacto de estas exclusiones sobre las comparaciones de los promedios y las


120


distribuciones entre los países? Lo que suscita mucha sospecha en el lector es que no se dé cuenta de los estudiantes excluidos. El investigador experimentado siempre dará cuenta de la amplitud de la población excluida con las razones de dicha exclusión. Si no se brinda información sobre esta materia, es probable que no se le haya prestado atención y que, por tanto, el lector no sepa qué se compara con qué. Este es un signo de que los resultados de la investigación pueden ser cuestionables.

El mismo argumento se aplica cuando se comparan los grupos de edad. Un argumento para utilizar grupos de edad en lugar de grupos de grado para el muestreo en el seno de la escuela es descubrir el nivel de rendimiento de los estudiantes que nacieron en ciertas fechas (por ejemplo, un año calendario). Este enfoque trata de examinar cómo los sistemas educacionales han enfrentado la educación de una cohorte de edad.

Ahí donde los sistemas escolares tienen altas tasas de repetición de grado es posible tener estudiantes de una edad específi ca dispersos en varios grados. En relación con algunos sistemas educativos, se sostendrá que en este caso las pruebas son muy difíciles para los estudiantes que están tres grados por detrás de los otros y que, por tanto, estos estudiantes deben ser ‘excluidos’. Estas cuestiones deben abordarse en asociación con los procedimientos de construcción de la prueba, porque hay buenas razones de carácter ético y técnico por las que los estudiantes que están en grados inferiores no deberían estar sometidos a la experiencia de rendir una prueba que, de un modo poco realista, está más allá de sus capacidades.

¿Se han utilizado procedimientos científi cos de muestreo? ¿Ha utilizado el estudio procedimientos científi cos de muestreo (que

incluyen la aplicación del muestreo probabilístico, el uso de ponderaciones de muestreo para evitar sesgos y el cálculo de errores de muestreo, que permiten afrontar las complejidades del diseño muestral)?

Todos los estudios internacionales comparados de alta calidad se basan en muestras probabilísticas científi camente establecidas, en las que cada miembro de la población objetivo defi nida tiene una oportunidad conocida de selección, que no es nula. El muestreo probabilístico es necesario a fi n de ser capaces de calcular las mediciones correctas del error de muestreo asociado con las estimaciones de las características de la población. Por consiguiente, la primera cuestion en el área del muestreo es preguntar: ¿se ha aplicado un verdadero muestreo probabilístico?

Un segundo aspecto importante es la cuestión de las ponderaciónes del muestreo, que se requieren en la mayoría de las encuestas “verdaderas”


121


a fi n de ajustarse a: (a) las variaciones en las probabilidades de selección (por ejemplo, debidas al empleo de diferentes tasas de muestreo entre los estratos) y/o (b) a la pérdida de datos debida a tasas de respuestas poco menos que perfectas.

Las estimaciones de la población derivadas de las muestras deben tener errores “aceptables” en relación con las decisiones políticas basadas en los resultados. Desde mediados de la década de los sesenta, muchos de los principales estudios internacionales adoptaron el estándar que consiste en disponer de diseños muestrales que tienen la misma o una mejor presición muestral que una muestra aleatoria simple de 400 estudiantes para las principales mediciones de los resultados educacionales. Este nivel de precisión de la muestra posibilita errores de muestreo de los resultados de los ítems de las pruebas (porcentaje correcto) de no más de 2,5 % para un error estándar y no más de 5 % para dos errores estándar. Esto quiere decir, por ejemplo, que para una estimación muestral de 50 %, uno puede estar seguro 19 veces de 20 que el valor de la población se sitúa entre 45 y 55 %. Dado que en casi todos los países la muestra es una muestra bifásica o en dos etapas (primero una muestra de las escuelas y luego una muestra de los estudiantes dentro de las escuelas), es importante que el error estándar se calcule para tener esto en cuenta. Muchas personas cometen el error de utilizar programas estadísticos “estándar” para computadoras que producen errores estándar que asumen que la muestra era una muestra aleatoria simple. Este supuesto puede llevar a subestimar signifi cativamente los errores estándar.

En algunos estudios, en los que las comparaciones internacionales directas son menos importantes, un nivel más bajo de precisión muestral puede ser aceptable. Éste es a menudo el caso cuando se requiere un amplio análisis del currículo. Dichos estudios a menudo pretenden descubrir objetivos ‘bien logrados’, ‘regularmente logrados’ y ‘pobremente logrados’. En este caso, bastaría decir que ‘bien logrados’ signifi ca que cerca del 80 % o más de los estudiantes lograron dominar un objetivo específico o unidad del currículo; ‘regularmente logrado’ significa alrededor del 50 % y ‘pobremente logrado’ signifi ca cerca del 20 % o menos. En este caso, dos errores estándar del 10 % para la corrección del porcentaje de los ítems de las pruebas podría ser adecuado para los propósitos del estudio.

La pregunta para el lector es, entonces: “¿Se realizó el muestro de tal manera que se produjeran errores estándar de muestreo aceptables para


122


los propósitos del estudio?” A menudo sucede que investigadores que son expertos en el área del muestreo aportan una descripción detallada de los pasos del muestreo y los errores de muestreo correctos. Si no se ha suministrado esta información, existe una clara posibilidad de que las muestras sean sospechosas. También es usual que los errores estándar del muestreo se presenten en los cuadros de los resultados. Si no fi guran ahí, entonces el lector debe estar alerta.

También es necesario tener cuidado cuando se verifican las ‘diferencias estadísticamente signifi cativas’. En algunos casos, puede parecer que una muestra muy grande produzca esas diferencias, porque los cálculos del error muestral se basan en el supuesto de una muestra aleatoria simple.

¿Se han utilizado procedimientos sistemáticos (y modernos) para la elaboración de los instrumentos?

La elaboración de instrumentos para la recolección de datos es un campo complejo y en rápido desarrollo, especialmente en lo que se refi ere al diseño y la elaboración de pruebas para los estudiantes. Se pueden plantear muchas interrogantes en esta área, pero las respuestas a algunas de las preguntas más importantes no son siempre completamente “científi cas”, porque la cuestión de los valores puede entrar en la discusión. Por ejemplo, la construcción de pruebas válidas para los estudiantes debe basarse en la disponibilidad de descripciones claras y unívocas de los propósitos centrales de la enseñanza y el aprendizaje en relación con el currículo escolar. En muchos sistemas escolares, estos propósitos no se explicitan o se presentan de manera tan general que no ofrecen una guía para la construcción de pruebas.

Ahí donde los estudios se proponen medir lo que los estudiantes han aprendido en la escuela, los instrumentos de las pruebas deben cubrir el currículo propuesto por los países participantes. Generalmente, esto supone un proceso en dos etapas.

En primer lugar, se emprende un análisis de contenido del currículo en los diversos países (mediante las guías curriculares, textos, exámenes y de lo que los profesores dicen que enseñan). En segundo término, este primer paso se utiliza para construir un “plan internacional” para las pruebas. Si bien muchos de los objetivos curriculares serán comunes entre los países, algunos objetivos serán comunes a un subconjunto de países. La matemática y las ciencias son áreas disciplinarias clave en las que existe una considerable variación curricular entre los países.


123


En algunos casos, el propósito de un estudio internacional comparado se concentrará en otros resultados, tales como si los estudiantes pueden leer lo sufi ciente como para “desempeñarse en la sociedad” o “pasar al grado siguiente”. En estos casos, primero se deben emprender ejercicios en cada país para tener paneles que defi nan lo que se necesita para estos tipos de resultados. Éste es un proceso laborioso, pero debe ser convincente.

Existe mucha menos variación entre los países en los objetivos curriculares de asignaturas tales como la lectura y las lenguas extranjeras. Sin embargo, debe haber acuerdo en el plan internacional y éste debe cubrir el grueso del currículo en todos los países, si la intención del estudio se concentra en los contenidos comunes de los currículos nacionales.

Los ítems de las pruebas deben escribirse para cubrir todas las células que tienen objetivos en el plan. Los formatos de los ítems deben ser objeto de acuerdo y estar justifi cados. Los ítems deben ser sometidos a prueba y analizados. Cuando se utilizan ítems de opciones múltiples, los distractores deben ser aceptables, no sólo en términos de contenido, sino también de poder de distracción. Las preguntas con respuestas abiertas, que requieren que los estudiantes construyan respuestas, deben ser sometidas a una prueba previa para asegurar que producen respuestas que pueden ser objeto de puntuación fi able. Cuando se utiliza el escalonamiento, debe haber acuerdo sobre el signifi cado esencial de la escala en lo que se refi ere al rendimiento del estudiante en tareas especifi cadas y en puntos especifi cados en la escala. Debe haber acuerdo en la adecuación de los ítems y la prueba debe parecer fi able. Cuando se trata de medir el cambio en el tiempo, debe haber sufi cientes ítems comunes entre los puntos temporales a fi n de permitir una medición fi able del cambio.

Los ítems deben ser sometidos a prueba para determinar el sesgo del ítem en cada país. Las propiedades psicométricas de los ítems de la pruebas deben ser similares en un número sufi cientemente grande de países. Ahí donde haya que utilizar pruebas superpuestas, debe mostrarse en la etapa de ensayo que los ítems comunes utilizados para posibilitar la calibración en la misma escala cumplen su propósito.

En algunos casos se pueden considerar necesarias las tareas “prácticas” [hands-on] de evaluación del rendimiento (a menudo utilizando herramientas especiales) para cubrir la gama completa de objetivos en un área disciplinaria. El diseño de esas tareas debe tener en cuenta la cantidad de tiempo disponible para la aplicación de la prueba, la necesidad de usar herramientas simples y disponibles, y que no estén fuera del alcance de


124


los recursos de los países participantes, y la necesidad de producir respuestas que puedan ser objeto de puntuación fi able entre los países.

Los cuestionarios deben inclulir preguntas que cubran todos los indicadores necesarios para responder a las cuestiones de política planteadas al inicio del estudio. Varios de los indicadores tendrán que ser lo que normalmente se llama ‘variables derivadas’, que se construyen a partir de la información obtenida de diversas preguntas. Las preguntas se deben escribir en lenguaje simple, fácilmente comprensible para todos los estudiantes (capaces y menos capaces) que deben responderlas. Todas las preguntas deben ser sometidas a prueba y analizadas para asegurar que ofrecen información precisa y confi able.

Los instrumentos relativos a las actitudes –que generalmente son parte de los cuestionarios– miden dimensiones actitudinales seleccionadas. Los ítems de actitudes se recolectan algunas veces mediante estudios especiales restringidos entre los miembros de la población objetivo y luego sometidos a prueba y revisados para su forma fi nal. Para el ensayo, a menudo se necesitan tres veces tantos ítems como para la escala fi nal de medición de las actitudes. Debe mostrarse que la escala fi nal es confi able en relación con los propósitos enunciados.

¿Permiten los procedimientos de traducción comparaciones válidas entre países?

La traducción de los instrumentos de recolección de datos no es un tema fácil y la pregunta más imporante es: ¿se verifi có cuidadosamente la traducción? Hay que instaurar procesos que aseguren la adecuación cultural, así como la equivalencia lingüística y psicométrica de los instrumentos entre los países participantes. Esta tarea requiere la asistencia de especialistas en investigación bilingüe y generalmente requiere la verifi cación comparada de los instrumentos originales de recolección de datos con los que fueron traducidos a una segunda lengua y luego retraducidos a la lengua original.

¿Se planifi có bien la logística de la recolección de datos?

Muchos estudios internacionales comparados sobre la calidad de la educación en gran escala son caros y experimentan problemas en la etapa de recolección de datos. Dos cuestiones que se deben abordar en esta área incluyen: “¿son sufi cientemente claros los manuales de recolección de datos como para asegurar la validez sobre el terreno?” y “¿se han utilizado efi cazmente los registros adecuados de escuelas y estudiantes?”


125


La fase de recolección de datos en cada uno de los países es crucial. El propósito de la recolección de datos es que los estudiantes respondan a cada pregunta del cuestionario y a todos los ítems de las pruebas que estén en condiciones de responder. Generalmente, en cada país se escribe un manual destinado a las personas a cargo de la recolección de datos a nivel nacional. Se busca que este manual asegure que los procedimientos de la recolección de datos permitan recoger datos válidos, en condiciones que sean uniformes en cada sitio donde se recolecten.

El manual de recoleccion de datos debe cubrir cada detalle que deba tenerse en cuenta al llevar a cabo la recolección. Esto incluye “formularios para las escuelas” y “formularios para los estudiantes”, para asegurar que se seleccionen las escuelas apropiadas, se examinen los estudiantes adecuados (y no otros) y se seleccionen a los profesores indicados (ahí donde se aplican cuestionarios o pruebas a los profesores). Este manual debe especifi car: (a) lo que cada administrador de la prueba tiene que hacer y decir durante las sesiones reales de administración de las pruebas; (b) los procedimientos y el tiempo impartido para la aplicación de los instrumentos y (c) cómo empaquetar y reenviar los instrumentos al punto central indicado.

¿Se han depurado los datos?

En la mayoría de los estudios internacionales comparados se emplea mucho más tiempo en la preparación de los datos con propósitos de cómputo que en la realización misma del análisis de los datos. Esto se debe a que el registro y la depuración de los datos requieren una combinación sitemática de la computadora y el trabajo manual, en el que un simple error puede requerir varias horas para ser detectado y corregido. Aquí se pueden plantear muchas preguntas. Por ejemplo: ¿se han verifi cado todos los “códigos rebeldes” (es decir, los códigos fuera del rango), de tal manera que se puedan combinar los datos de los estudiantes, los profesores y las escuelas? ; ¿se han efectuado todos los cruces lógicos de verifi cación entre las variables apropiadas?; ¿se han hecho todos los esfuerzos posibles para evitar la incidencia de datos faltantes?

En general, los datos se registran en computadoras de centros nacionales de investigación. Normalmente, el estudio ofrece aplicaciones para la entrada de datos que se utilizan en todos los países. Las buenas aplicaciones para la entrada de datos ofrecen varias posibilidades de verifi cación inicial de los datos, que se pueden corregir inmediatamente durante el proceso de entrada. Siempre hay errores adicionales en la entrada de datos, independientemente de la calidad del programa de entrada de


126


datos, y éstos deben ser identifi cados y corregidos, utilizando procedimientos de depuración de datos. Por ejemplo, es necesario verifi car que los códigos de identifi cación de las escuelas que se utilizan para los estudiantes, profesores y escuelas son exactos, porque se necesitan estos códigos a fi n de “combinar” datos antes de su análisis. Los errores o problemas se reportan a los centros nacionales; seguidamente, ellos contactan a las escuelas para elucidar la situación y remiten la información corregida al centro internacional de procesamiento de datos. A continuación se efectúan los cambios necesarios. Este proceso de depuración puede tomar mucho tiempo, especialmente cuando hay muchos países en el estudio.

También es importante hacer que el lector de los informes de investigación tome conciencia de las variables para las cuales se carece de muchos datos, por lo que no pueden ser utilizadas en los análisis. Además, es importante ver qué datos faltantes fueron imputados y cómo.

¿Abordan los análisis de datos los principales propósitos de la investigacion?

Debería asegurarse que el objetivo sea que los análisis de datos seleccionados estén claramente centrados en responder a las principales preguntas planteadas al diseñar el estudio. Los análisis de datos para un estudio deben ser guiados por las “tablas fi cticias” [dummy tables] que se prepararon durante el diseño de la investigación.

Hay que tener cuidado de incluir los errores estándar del muestreo junto con cada síntesis estadística que se presenta, de modo que el lector pueda tener alguna información sobre la “estabilidad” de cada estimado de muestra. Se pueden preparar tabulaciones básicas utilizando paquetes estándar de aplicaciones estadísticas, pero a veces estos programas para computadoras no aportan las estimaciones correctas del error de muestreo.

Los informes que surgen del estudio

Los informes deben escribirse con claridad y abordar una a una cada cuestión política. Siempre debe estar clara la fuente de los datos objeto de análisis, así como los argumentos relativos a la interpretación de los análisis.

El uso de “tablas de clasifi cación” [league tables] para dar cuenta de los resultados debe hacerse con mucho cuidado, de modo que las listas con los puntajes promedio no se conviertan en el único fundamento de la política educativa. El principal objetivo aquí es esforzarse a fi n de preparar


127


informes accesibles que puedan brindar información en formatos adecuados, utilizables en diferentes niveles de decisión del sistema educativo.

Es necesario estimular enfoques nuevos y muy prometedores para mostrar el rendimiento educacional de los estudiantes en forma de descripciones de “niveles de competencia”, porque esas técnicas optimizan la capacidad de la investigación para cambiar y mejorar a los profesores que son responsables de guiar y gestionar el aprendizaje de los estudiantes. Además, es necesario hacer hincapié en los métodos gráfi cos de síntesis de datos (de los que son pioneros los informes internacionales del PISA y sus resúmenes ejecutivos), a fi n de presentar síntesis más comprensibles de análisis complejos.

ConclusiónPara un ministerio de educación es de gran importancia conocer –y

monitorear– las condiciones del aprendizaje y la calidad de la educación en las escuelas. La participacion en estudios internacionales comparados sobre la calidad de la educación puede ofrecer esta importante información. Sin embargo, hay que tener en cuenta que la información generada en los estudios internacionales comparados es más útil si brinda pruebas sólidas para informar el debate y la toma de decisiones de manera signifi cativa para todos los actores interesados.

Para que un estudio internacional comparado aporte pruebas sólidas, es necesario que haya confi anza del “lado de la investigación” y del “lado de la toma de decisiones” en que el estudio satisfaga criterios que no siempre se superponen. En este artículo se ha buscado enumerar, analizar y cuestionar algunos de estos criterios con el propósito de ofrecer a los “productores de información” (investigadores) y a los “usuarios de información” (responsables de la toma de decisiones) una visión que les lleve a entender las preocupaciones clave de ambos lados, cuando se somete a juicio la capacidad de un estudio para ofrecer pruebas sólidas que se puedan utilizar para guiar las decisiones políticas destinadas a mejorar un sistema educativo.

Bibliografía Ross, K.N. 1997. “Research and policy: A complex mix”, IIEP Newsletter,

vol. XV, n.º 1, pp. 1 y 4. Existe versión en español: “Investigación y política: una mixtura compleja”, Carta Informativa del IIPE, vol. XV, n.º 1, pp. 1 y 4. Cf.:

www.unesco.org/iiep/news/spanish/jans197.htm


http://www.unesco.org/iiep/news/spanish/jans197.htm

128

Capítulo 6

¿Qué es lo que “piensan realmente” los ministros de educación sobre

los estudios internacionales comparados? Saul Murimba, Centro Coordinador del SACMEQ, Harare (Zimbabwe)

Introducción Durante el último decenio, muchos ministros de educación de los países desarrollados y en desarrollo se han interesado en que sus sistemas educativos participen en estudios internacionales comparados sobre la calidad de la educación. Esta tendencia apareció independientemente de los hechos o percepciones existentes sobre el desempeño de sus sistemas de educación en términos absolutos o relativos. Estos ministros habían sido preparados para invertir signifi cativamente en estudios internacionales comparados, pues tenían la convicción de que la participación en esos estudios tenía el potencial de producir benefi cios para sus sistemas educativos.

Naturalmente, esa participación suscita tanto expectativas como lpreocupación, dado que los resultados de los estudios internacionales comparados pueden aportar buenas o malas noticias. En algunos casos, los resultados pueden dar “sorpresas”, como cuando el desempeño sobrepasa largamente o cae muy por debajo de lo esperado.

En este artículo se examinan diversas cuestiones relacionadas con las percepciones de los ministros acerca de los estudios internacionales comparados. Se basa en la experiencia obtenida participando en los programas de investigación y formación efectuados por el Consorcio del África Austral y Oriental para el Monitoreo de la Calidad de la Educación (SACMEQ). Las fuentes clave de información fueron: (a) las percepciones expresadas por los ministros en las reuniones de la Asamblea de Ministros del SACMEQ, que se organizan a fi n de debatir acerca de los programas de investigación y formación del SACMEQ; (b) informes de los Coordinadores Nacionales de Investigación (CNI) del SACMEQ y sus colegas, y (c) las visitas a los ministerios de educación que participan en el SACMEQ.


129

¿Qué es lo que “piensan realmente” los ministros de educación?

Comprender el papel y la posición de los ministros de educación

A fi n de comprender las percepciones de los ministros sobre los estudios internacionales comparados tenemos que examinar su posición y papel dentro de sus ministerios, así como en el marco nacional más amplio. Su papel está asociado con las expectativas que son ampliamente compartidas entre una variedad de actores sociales. La posición que ocupan también defi ne los límites de su infl uencia sobre el desarrollo de su propio sistema educativo y aquello de lo que pueden ser considerados responsables.

Los ministros se perciben a sí mismo, antes que nada, como políticos; y esto es cierto tanto para quienes son elegidos como para quienes son desginados. Los ministros que son miembros elegidos del parlamento generalmente se perciben a sí mismos como representantes de sus circunscripciones electorales, mientras que los que son designados tienden a verse a sí mismos como depositarios de un “estatus especial” en la vida política del país. Ambos tienen el mandato de encabezar el desarrollo del sector de la educación de sus países y, por consiguiente, son responsables frente al país en su conjunto.

En el contexto africano, la mayoría de ministros asegura su portafolio mediante sus partidos políticos, cuyo programa de desarrollo se enuncia generalmente en los manifi estos del partido. El hilo común que caracteriza los manifi estos de los partidos gobernantes en los países poscoloniales es la promesa de ofrecer educación “gratuita” y, en algunos casos, “obligatoria”, de alta calidad para todos los educandos. Por tanto, estos ministros esperan que los estudios internacionales comparados demuestren que este objetivo se ha logrado más o menos, o que se está avanzando hacia su logro. Ahí donde ese avance no se ha registrado, los estudios internacionales comparados pueden generar sugerencias y propuestas prácticas sobre cómo se puede lograr este objetivo. Cuando los resultados de los estudios internacionales no logran esto, sino que, por el contrario, destacan las debilidades del sistema, esto se puede percibir como una crítica directa a la competencia del ministro.

El hecho de que los ministros se perciben a sí mismos como actores políticos saltó a la vista cuando un ministro respondió a una cuestión controvertida planteada por los resultados del SACMEQ II en la Cuarta Reunión de la Asamblea de Ministros celebrada en 2003. Su observación fue la siguiente: “Lo que ustedes, investigadores, olvidan algunas veces


130


es que nosotros somos políticos. ¿Qué va a pensar el presidente cuando se entere de esa información? ¿Cree que me va a mantener en el próximo gabinete?” Lo que quería decir es que cuando los investigadores no logran tener una visión adecuada de las sensibilidades políticas respecto de ciertos problemas, podrían ser percibidos como personas irresponsables o peligrosamente temerarias.

La educación es una empresa gigantesca en la que convergen los intereses de una diversidad de actores y representa un área primordial de inversión de las personas, los hogares, las comunidades y los países. Por tanto, los ministros desean ver que los estudios internacionales comparados refl ejan una comprensión del contexto político más amplio del país. En este sentido, juicios absolutos acerca de la “calidad de la educación” pueden generar reacciones muy emotivas, ya que las concepciones de la calidad pueden variar considerablemente de un contexto a otro y lo que pueda contribuir a su logro puede ser incluso más evasivo.

Preocupaciones de los ministros sobre los estudios internacionales comparados

A fi n de “comprender realmente” lo que los ministros de educación piensan acerca de los estudios internacionales comparados sobre la calidad de la educación, debemos tener en cuenta que sus percepciones pueden estar infl uenciadas por diferentes criterios, en distintos momentos, en diversas situaciones y sobre cuestiones disímiles. Por ejemplo, por mucho que los ministros deseen explotar el capital político que les ofrecen los resultados de los estudios internacionales comparados, tratan de evitar cuidadosamente basarse en información que no les brinde una evaluación cabal de la calidad. Lo que quieren realmente es información que les ofrezca una visión estratégica de sus sistemas de educación, y lo que se debe hacer para lograr y sustentar esta visión.

Los ministros son fi guras políticas cuyas acciones están sujetas a escrutinio público. La decisión de participar en estudios internacionales comparados de la calidad es un riesgo, debido a que la publicación de los resultados puede consolidar su imagen pública o erosionar la confi anza del público en ellos como dirigentes. Por ende, tienen que lidiar con las tensiones creadas por la necesidad de conocer la verdad (positiva o negativa) y la necesidad de proteger su imagen contra mensajes potencialmente perjudiciales contenidos en los resultados. Los estudios internacionales comparados deben ser sensibles a estas tensiones y pueden hacerlo abordando las áreas de interés que se destacan a continuación.


131


Foco de atención de los estudios internacionales comparados

Cuando se emprenden estudios internacionales comparados sobre la calidad de la educación, los investigadores están frecuentemente motivados por la curiosidad y enfrentan el reto de ajustar sus propios intereses con los problemas y preocupaciones de orden individual y colectivo de los ministerios de educación participantes. En este sentido, los ministros tienen poco interés y serán reacios a invertir en estudios internacionales comparados, si éstos han sido formulados por extraños y representan un programa de investigación dirigido desde el exterior. La manera en que los estudios del SACMEQ fueron diseñados muestra que es posible que los estudios internacionales comparados aborden las cuestiones educativas y las cuestiones políticas que son consideradas de muy alta prioridad por los ministros, al mismo tiempo en que satisfacen los intereses de los investigadores (Saito, 1999: p. 108).

Rendición de cuentas

Los ministros reconocen que ofrecer una educación de calidad a todos los ciudadanos es una responsabilidad primordial del Estado. Por esta razón, su posición es que la educación escolar debe ser fi nanciada en gran medida por el Estado. Tiene sentido que los ministros acepten la responsabilidad de movilizar los recursos del Estado y de otras fuentes para sostener la educación y que se responsabilicen de la transformación efi ciente de estos recursos en programas educativos que amplíen las oportunidades de aprendizaje de los niños. Esto se percibe como un vector potente para el logro de los objetivos nacionales.

Los ministros han cumplido muy bien con la tarea de la movilización de recursos, y esto se confi rma por el hecho de que en la mayoría de los países miembros del SACMEQ y en otros países africanos el sector de la educación está a cargo de la proporción del presupuesto nacional más grande. Sin embargo, la disponibilidad de recursos para el sector de la educación no siempre se acompaña del correspondiente aumento de la calidad de la educación ofrecida. Por consiguiente, los ministros quieren que los estudios internacionales comparados les brinden retroalimentacion sobre los beneficios de una inversión semejante y asimismo sobre cómo están cumpliendo con sus responsabilidades.

Para los ministros, los resultados de los estudios internacionales comparados son valiosos de muy diversas maneras. Cuando los resultados de los estudios muestran que la provisión de recursos a las escuelas está por debajo de los puntos de referencia estándar, ellos les ofrecen al ministro el ventajoso argumento de la asignación de mayores recursos para la


132


educación. También pueden ser útiles para asegurar la fi nanciación externa o donaciones. Esto, sin embargo, plantea otro desafío a los ministros, porque cuando poco o nada se ha logrado con recursos adicionales, ellos se inquietan. En un país, los resultados del proyecto SACMEQ mostraron una disminución en el rendimiento del aprendizaje comparado con el proyecto SACMEQ I y la reacción del ministro en relación con el personal de alto nivel del ministerio fue la siguiente: “Estos resultados parecen indicar que lo hemos hecho peor que antes, lo que me hace más difícil que pueda defender en el Gabinete un mayor presupuesto para la educación año tras año”.

Lograr el equilibrio

Uno de los más grandes retos para quienes están a cargo de los estudios internacionales comparados es cómo comunicar los resultados positivos y negativos de una manera equilibrada que constituya una “retroalimentación positiva”. La experiencia del SACMEQ es que, invariablemente, cada sistema educativo nacional tiene algunos atributos positivos de los que se puede estar orgulloso, y enfrenta algunos desafíos que se pueden abordar aprovechando la experiencia de sus vecinos. Los ministros se preocupan cuando los estudios internacionales comparados no lo reconocen. Cuando el foco está constituido por los aspectos negativos de sus sistemas, se sienten “endemoniados” y cuando sólo reciben buenas noticias, se sienten privados de la oportunidad de mejorar aún más el sistema.

El caso del ministro cuyo país mostró resultados inferiores en el SACMEQ II ilustra cómo se puede aportar una “retroalimentación equilibrada”. En este caso, el coordinador nacional de investigación del SACMEQ preparó una hábil nota de información en la que destacó tanto las “malas noticias” como las “buenas noticias”. Explicó que si bien los puntajes del rendimiento promedio de los estudiantes en el SACMEQ II eran ligeramente inferiores, había logros impresionantes en la asignación equitativa de los recursos, y que si bien había menos niños con niveles de desempeño muy altos, había grandes proporciones de niños que habían logrado los niveles básicos de alfabetización. Esto confi rmó, en efecto, el hecho de que el país había efectuado un buen avance al abordar algunos de los retos clave afrontados por el sector de la educación, en particular las desigualdades en la asignación de los recursos y los bajos niveles de alfabetización.


133


Este ejemplo ilustra la necesidad de que los estudios internacionales comparados busquen un cuidadoso equilibrio tanto en lo que se refi ere a la recolección de la información como a la presentación de los resultados, así como entre la oferta de información adecuada sobre las fortalezas y logros del sistema, como de los retos que hay que enfrentar a fi n de fortalecer el sistema y, por tanto, ayudar a diseñar el camino a seguir.

Más allá de las comparaciones

Una preocupación fundamental que tienen los ministros es que los estudios internacionales comparados frecuentemente elaboran “tablas de clasifi cación” que presentan a los países según rango, como si hubieran participado en una “Olimpiada cognitiva”. Esas tablas usualmente se centran en los resultados del aprendizaje y son vistas por los ministros como una base injusta para evaluar su propio rendimiento y el de su sistema escolar en conjunto. A nivel retórico, los ministros están dispuestos a decir que no les importa mucho que el rendimiento de sus países sea bajo si se lo compara con el de otros países, sino que –como sostuvo coherente y repetidamente uno de los ministros del SACMEQ– lo que molestaba era que los estudios internacionales comparados a menudo se utilizaran burdamente para “comparar lo incomparable”.

Una pregunta pertinente a plantear es si realmente es posible efectuar estudios internacionales comparados sin realizar comparaciones indirectamente entre los países. Cuando los resultados de los países en relación con cualquier variable relacionada con la calidad se presentan unos al lado de los otros (por ejemplo, en una tabla) hay un elemento inherente de comparación. Si bien esto no se puede evitar totalmente, la experiencia del SACMEQ muestra que es posible presentar resultados de tal manera que desvíe la atención de los lectores de comparaciones demasiado simplifi cadas.

Por ejemplo, cuando en 2003 se presentaron los niveles de rendimiento de diferentes paíse en el proyecto SACMEQ II, el ministro de uno de los países del SACMEQ dijo:

Somos un país pobre y hemos estado luchando para ofrecer educación a todo nuestro pueblo. De hecho, hemos ampliado signifi cativamente el acceso a la educación a toda nuestra población y es gratuita. A partir de las cifras presentadas, se puede ver que hemos realizado grandes progresos en este respecto. Por consiguiente, sabíamos que la calidad, defi nida en términos de puntaje ‘promedio’ iba a disminuir, pero en eso es en lo que nos estamos concentrando ahora. Cómo


134


podemos hacerlo es justamente lo que esperamos aprender de nuestros vecinos.

Este comentario sugiere que los ministros se sienten más seguros con estudios internacionales comparados sobre calidad cuando las “comparaciones” no son el aspecto central de la atención. Esto es, las “comparaciones” se deben considerar como el punto de partida para mensajes de política más importantes. Análisis adicionales, más allá de comparaciones simples, son necesarios para ofrecer percepciones más perspicaces de las cuestiones estratégicas en las que se debe concentrar el país. Los ministros aceptarán “sus” resultados más fácilmente si los estudios internacionales comparados les permiten tomar decisiones independientes en lo que respecta a los problemas y prioridades que deben abordar mientras tratan de lograr los objetivos más ampliamente compartidos. Un ejemplo de cómo se puede lograr esto se presentó en el artículo “Different pathways to EFA for different school systems” [Diferentes vías para lograr la ETP en diferentes sistemas educativos] (Dolata et al., 2004). Este artículo presentó datos comparativos de 14 sistemas escolares y luego mostró cómo cada sistema podría utilizar diferentes “vías” políticas a fi n de lograr los mismos objetivos de la “Educación para Todos”.

Los problemas que se deciden priorizar en un momento dado en cada sistema educativo dependen del contexto nacional. La presentaciòn de los resultados de los estudios internacionales comparados es menos amenazante para los ministros cuando se presta sufi ciente atención a los problemas del contexto nacional. Algunos elementos de este contexto se relacionan con el desempeño económico del país, las características demográficas, las características socioculturales de su población, el impacto de la historia y la política en el proceso de desarrollo que ha seguido, cualquier desventaja de carácter natural y reveses signifi cativos acaecidos (naturales o provocados por el hombre) y otros factores semejantes. Los ministros quieren estudios internacionales comparados en los que se haga un esfuerzo por comprender todas las circunstancias de sus países, pues consideran que es esencial para valorar las difi cultades y los retos que tienen que afrontar en el esfuerzo por mejorar sus sistemas educativos.

Fortalecimiento de capacidades

Los ministros se alarman cuando los estudios internacionales comparados se interesan en la búsqueda de resultados excluyendo otros benefi cios que puedan derivar del propio proceso de investigación. Los ministros están muy interesados, por ejemplo, en las oportunidades que la


135


participación en un estudio internacional comparado puede tener sobre el fortalecimiento de las capacidades del personal del ministerio. La participación en esos estudios ofrece formacion práctica que instrumenta al personal al adquirir competencias valiosas relacionadas con el diseño y la ejecución de investigaciones en gran escala, el diseño y la utilización de instrumentos de recolección de datos, la gestión y el análisis de datos mediante la utilización de computadoras, el análisis y la formulación de política, así como la preparación de informes. Todas estas competencias se requieren a fi n de efectuar una investigación política de carácter educativo que brinde información que se pueda utilizar para efectuar una planifi cación informada de decisiones en áreas importantes, tales como el desarrollo curricular, la mejora de las prácticas pedagógicas, el monitoreo de los estándares de la calidad, la mejora de la equidad en la asignación de recursos y la identifi cacion de necesidades de formación del personal docente.

Cuestiones metodológicas

Un supuesto que a menudo tienen los investigadores es que los ministros no se interesan en las cuestiones metodológicas y carecen de competencia para valorarlas. Estos supuestos son erróneos. Si bien los ministros pueden no estar interesados en los tecnicismos en áreas tales como muestreo, análisis de ítems de pruebas, gestión de datos mediante computadora, etc., sí están interesados en conocer: (a) si se han aplicado métodos científi cos aceptables; (b) la naturaleza de cualquier “debilidad” técnica en los métodos que se han utilizado y (c) qué tan confi ables y válidos son los principales hallazgos de la investigación. Comentarios tales como: “Como profesor de educación tengo derecho a...” o “como especialista en lenguaje...” algunas veces han precedido las observaciones de ministros a fi n de disipar el supuesto errado de que no están interesados o no son competentes en cuestiones de orden metodológico.

Todo ministro desea asociarse con estudios internacionales comparados de alta calidad, metodológicamente bien fundados y, por lo tanto, que puedan afrontar la prueba del escrutinio público. Se muestran orgullosos y confi ados cuando sus países han participado en iniciativas de investigación que satisfacen estándares de categoría mundial. Es frecuente que, cuando se apela a ellos para que defi endan decisiones basadas en los resultados de estudios internacionales comparados, la credibilidad de los ministros se vea reforzada por la integridad global de la metodología de los estudios internacionales comparados.


136


Cuando los estudios internacionales comparados no presentan los resultados de manera que sean sensibles a los contextos, necesidades y prioridades nacionales, a veces los ministros pueden atacar la integridad de la metodología y el SACMEQ ha tenido esta experiencia. En casos extremos, los ministros pueden asumir una postura defensiva, haciendo vaga referencia a “resultados de otras iniciativas de investigación con igual o mayor rigor metodológico”. Estos ataques –dirigidos evidentemente a los “defectos” metodológicos– pueden ser, en realidad, un refl ejo o expresión de otras preocupaciones más profundas, o una forma de protesta contra la manera en que se presentaron los resultados. Sobre todo, la presentación de los estudios internacionales comparados debe tener en cuenta las diferentes necesidades de información de distintos actores sociales y los ministros constituyen una categoría de actor cuyas necesidades de información se deben abordar cuidadosamente (Ross y Mählck, 1990).

La cuestion de la “propiedad”

Los ministros desean sentir que ellos y los funcionarios son actores activos en los estudios internacionales comparados en los que sus países toman parte. Este sentido de propiedad se adquiere de muy diversas maneras. Para comenzar, debe haber participación plena y genuina de los funcionarios en todos los niveles de los estudios internacionales comparados, desde el diseño hasta la presentación del informe. Los estudios que sólo permiten una participación limitada de los funcionarios difícilmente fortalecen el sentido de propiedad, por muy sólidos que sean técnicamente.

Ciertamente, el nivel de participación requerido puede lentifi car el ritmo de las actividades de investigación, a menudo requiriendo la formación del personal del ministerio a fi n de prepararlos para la ejecución de muchas tareas de investigación; pero es una inversión que vale la pena. Otra forma de participación del personal del ministerio que fortalece el sentido de propiedad es asegurar que asume el liderazgo en decisiones clave relativas a la investigación (por ejemplo, sobre la naturaleza del marco del muestreo, la selección de los ítems de las pruebas y la defi nición de estándares de rendimiento). Otro benefi cio que surge de esa participación es que, cuando se hace de manera dinámica, los ministros están menos dispuestos a cuestionar los resultados del estudio internacional comparado.

Otra área destacada en la que la participación del ministro es importante es la de recomendaciones políticas. Lo que puede aparecer


137


como una sugerencia de política basada en “pruebas” sólidas a un foráneo, podría ser impracticable para los del interior, que entienden mejor la cultura predominante y sus normas, la manera en que funciona el sistema y las limitaciones que afronta. Al mismo tiempo, si bien las recomendaciones políticas deben tomar en cuenta los insumos de los funcionarios, esto no implica de ninguna manera que se deban eliminar recomendaciones políticas “difíciles” basadas en pruebas empíricas. Por el contrario, los ministros a menudo han dado la bienvenida a recomendaciones políticas “difíciles”, porque dan una base defendible para acciones “radicales” que podrían emprender.

Evitar “sorpresas” Los resultados de estudios internacionales comparados pueden

parecer muy negativos, y los investigadores del ministerio quizá duden de compartirlos con el ministro y el personal de alto nivel del ministerio. Esto puede ser muy peligroso, porque los ministros detestan las “sorpresas”.

En la experiencia del SACMEQ, los ministros necesitan evaluar los hallazgos a medida que aparecen, de modo que puedan tener una buena noción de los principales “mensajes” de los resultados, y tener sufi ciente tiempo para digerirlos y buscar consejo en caso de que necesiten “explicar” los resultados. Nada es más irritante para un ministro que tener un informe de investigación que ha sido dado a conocer (o se ha “fi ltrado”) al público sin su consentimiento y conocimiento de su contenido.

En la experiencia del SACMEQ también se ha encontrado que los resultados controvertidos son capaces de generar debates interesantes que pueden acelerar las reformas políticas. La cuestión consiste en asegurar que cualquier “dura verdad” sea comunicada en el lenguaje adecuado. En un ministerio, un informe de investigación del SACMEQ indicaba que la amplitud de las clases particulares de los estudiantes –hecho desconocido por los responsables de la formulación de política– había más que excedido los límites aceptables, incluso aunque estuvieran asociadas con altos rendimientos. Sin embargo, dado que esto surgió como una “sorpresa”, provocó una reacción desagradable contra el equipo nacional que la presentó. Posteriormente, sin embargo, los hallazgos de la investigacion relacionados con las clases particulares generaron un saludable debate nacional que dio inicio a reformas políticas constructivas.


138


Defi nir los programas de acción Los ministros quieren que los estudios nacionales les aporten

programas de acción claros. Sin embargo, muchos ministros, durante muchos años, han recibido informes de investigación que ignoran la necesidad de sugerir un programa político claro y basado en los hallazgos de la investigación. El resultado ha sido que algunos ministros se han vuelto un tanto escépticos respecto al valor de la investigación y esto puede crear barreras para el desarrollo de una cultura que emplea “pruebas” para guiar las reformas políticas. A veces, ellos ven las investigaciones como actividades “aisladas” que solicitan, y requieren, poca o ninguna acción de seguimiento.

Los investigadores deben comprender que los ministros quieren que se les propongan “programas de acción en materia de política” que: (a) se basen en resultados de la investigación (y no en especulaciones); (b) sean realistas en términos de costos, tiempo y logística; (c) estén vinculados con las personas o grupos responsables de la ejecución de la acción y (d) se presenten en forma de “opciones” que permitan a los ministros considerar soluciones alternativas a las cuestiones políticas. Una investigación de este tipo brinda automáticamente un marco de referencia para el diseño de futuras investigaciones de evaluación política, porque enumera las áreas que requieren una reforma y defi ne las áreas en las que se espera una accion de seguimiento y los actores específi cos dentro de las unidades o direcciones del ministerio que pueden ser responsables de esas acciones.

Conclusión Este artículo se elaboró basándose en la experiencia recogida durante

el trabajo efectuado con ministros cuyos sistemas educativos participaron en estudios internacionales comparados. Esta experiencia muestra que los ministros ocupan posiciones difíciles en sus países al ser los responsables de sus sistemas educativos y sentirse personalmente responsables del desarrollo de sus sistemas. Quienes diseñan y ejecutan las evaluaciones deben comprender que los ministros caminan sobre una cuerda fl oja, política y profesional, porque el temor de que esos estudios internacionales comparados puedan favorecer o arruinar sus carreras como políticos y profesionales está bien fundado.

La lección más importante recogida de esta experiencia es que los investigadores que diseñan y ejecutan estudios internacionales comparados


139


sobre la calidad de la educación deben “incorporar a los ministros en los estudios”, vinculándolos al desenvolvimiento de un estudio desde su concepción hasta la difusión de sus resultados. Existen pruebas sufi cientes provenientes del programa de investigación del SACMEQ que muestran que este tipo de asociación produce frutos en forma de reformas políticas basadas en la investigación.

Bibliografía Dolata, S.; M. Ikeda; S. Murimba. 2004. “Different pathways to EFA for

different school systems”, IIEP Newsletter, Vol. XXII, No. 1, January-March, pp. 8-9. Existe versión en español: “EPT: Distintas vías para diferentes sistemas educacionales”, Carta Informativa del IIPE, vol. XXII, n.º 1, enero-marzo, pp. 8-9.

Lockheed, M.E.; A.M. Verspoor. 1991. Improving primary education in developing countries, Washington, DC: World Bank.

Ross, K.N.; L. Mählck (Eds.). 1990. Planning the quality of education: The collection and use of data for informed decision-making, Paris-Oxford: IIEP-UNESCO/ Pergamon Press.

Saito, M. 1999. “A generalisable model for educational policy research in developing countries”, Journal of International Cooperation in Education, Vol. 2, No. 2, pp. 107-117.


PARTE II Planifi cación del diseño de estudios

internacionales comparados sobre la calidad de la educación


143

Capítulo 7

¿Qué se debe medir en un estudio internacional comparado?

Rainer Lehmann

Introducción La mayoría de los ministerios de educación son instituciones complejas que albergan divisiones y ofi cinas en las que trabajan centenares –y a veces millares– de personas. Consecuentemente, asumir que una entidad llamada ‘el Ministerio’ pueda actuar sobre la base de un conjunto de propósitos claramente defi nidos, parecería una burda simplifi cación, incluso en un dominio relativamente limitado como el de apoyar y efectuar estudios internacionales comparados. El hecho mismo de que la invitación para participar en un determinado estudio internacional comparado pueda provocar importantes controversias políticas en el seno mismo del Ministerio –ni qué decir entre rivales de políticas educativas de carácter partidario–, basta para demostrar y, hasta cierto punto explicar, las ambigüedades respectivas en el mundo real. Asumir esta perspectiva empírica de los propósitos ministeriales podría considerarse como una aplicación de la subdisciplina administración pública de las ciencias políticas al campo muy especializado de la formulación de política educacional.

La cuestión sobre las medidas que un ministerio debería solicitar, y por qué, en un mundo ideal, se refi ere a un tema totalmente distinto. Aquí se asume un concepto de «elección racional», según el cual el ministerio, en su calidad de órgano rector de un sistema educativo, logra adquirir toda la información necesaria para justifi car plenamente sus decisiones. Sin embargo, el problema con este enfoque normativo reposa en el hecho de que sus supuestos difi eren no sólo de la experiencia cotidiana, sino que crean igualmente dudas considerables respecto de su solidez fi losófi ca. Esto se debe a que pocos de esos conceptos, basados de hecho en la noción platónica del «rey fi lósofo», tienen en cuenta las limitaciones esenciales de la información que está a mano, sumadas a las restricciones temporales inherentes al proceso de la toma de decisiones.

En vez de elaborar una extensa descripción (y una posible explicación) sobre el tema de cómo diferentes ministerios de educación enfocan los


144


estudios internacionales comparados o de plantear una propuesta sumamente normativa acerca de lo que los ministerios deberían exigir a los investigadores en el campo de las encuestas internacionales comparadas, en este capítulo trataremos de analizar las cuestiones metodológicas de los estudios internacionales comparados desde la perspectiva de su benefi cio potencial para la formulación de políticas educativas.

Una taxonomía de los estudios internacionales comparados: benefi cios y justifi caciones

La aparición de una metodología para los estudios internacionales comparados en educación no es un proceso simple y lineal, sino un “camino largo y sinuoso” de objetivos cambiantes y de condiciones estructurales de posibilidad. Podría ser útil comenzar con un breve esbozo de las opciones que se han elegido hasta ahora, de los benefi cios que se espera de ellas o en relación con ellas, así como de las pautas correspondientes para justifi car la investigación comparada en educación entre países.

Comparaciones de los logros promedio, basándose en la suposición de características variables del sistema y relaciones fi jas contexto-producto

Históricamente, el primer enfoque de los estudios internacionales comparados sobre logros educacionales –vinculados con los primeros estudios realizados por la Asociación Internacional de Evaluación del Rendimiento Escolar (IEA)– consistió en identifi car “prácticas idóneas” o “puntos de referencia” en un marco de referencia internacional. Aunque ninguno de esos términos era usual en aquella época, los argumentos en los cuales se basaron tanto la concepción como la fi nanciación de estos estudios fueron, básicamente, los asociados a estos dos conceptos. Esto se evidencia en la famosa propuesta de Torsten Husén (presidente fundador de la IEA), según la cual los sistemas educativos del mundo se podrían considerar colectivamente como un laboratorio natural en el que es posible estudiar la efi cacia de las modalidades alternativas de educación nacional.

Una de las cuestiones clave en las primeras comparaciones internacionales fue la del rendimiento relativo de los sistemas escolares no selectivos, por oposición a los sistemas articulados tradicionales. Obviamente, un elemento clave para justificar este enfoque de las comparaciones entre países fue la concordancia sufi ciente en relación con los criterios que debían emplearse, invariable ante entornos culturales específi cos, incluyendo la infl uencia de la lengua de instrucción. Por


145


consiguiente, según esta justifi cación, no se debió al azar que la primera materia elegida para un estudio internacional comparado sistemático del logro escolar fuese la matemática (Husén, 1967).

Por supuesto, había otros supuestos latentes involucrados para que la metáfora del “mundo como un laboratorio natural” pudiese considerarse válida. Por ejemplo, se debía asumir que la variabilidad entre países en relación con los diversos factores que describen las condiciones de escolarización (por ejemplo, las expectativas sociales en relación con el papel de la educación pública), podría ser sufi cientemente controlada a fi n de justifi car tal perspectiva cuasi experimental. En cualquier caso, es probable que al menos algunos de los ministerios que participaron en esos estudios decidieran hacerlo porque estaban convencidos de que obtendrían “pruebas de cotas de rendimiento” [benchmark evidence] favorables a una reforma educativa prevista o ya en curso. Resulta interesante que algunas de las justifi caciones subyacentes en este enfoque hayan resurgido en el discurso que acompaña al más reciente ciclo de estudios para el Programa Internacional de Evaluación de Estudiantes (PISA), emprendido por la Organización para la Cooperación y el Desarrollo Económicos (OCDE).

Comparaciones de productividad basadas en el supuesto de objetivos fi jos y relaciones fi jas insumo-producto A condición de que exista un núcleo curricular internacional

claramente establecido, que describa los objetivos principales que predominan en todos los sistemas educativos que se compara, resulta tentador medir no sólo las diferencias entre los países, en términos de logros promedio, sino tratar de determinar también las diferencias entre las normas curriculares (internacionales) y los niveles de rendimiento alcanzados como una función de los insumos variables (manipulables). El objetivo, en este caso, es determinar la efi cacia global de la educación en un país o sistema dados, generalmente en relación con ciertas áreas, tales como lectura, matemática o ciencias que, según se ha comprobado, se rigen por normas curriculares universales. Es en este punto que la distinción fundamental entre currículo previsto, implementado y logrado constituye la premisa en función de la cual las comparaciones internacionales de este tipo pueden reclamar la pertinencia para la política educativa. Una notable aplicación de estos principios se encuentra en la computación de las llamadas ‘curvas de rendimiento’ [yield-curves], que describen el porcentaje de una población objetivo que alcanza o supera cualquier nivel definido en un conjunto de elementos curriculares clasifi cados por grado de difi cultad.


146


Más importante aún en este enfoque es la identifi cación de aquellas variables o factores que tienen efectos verifi cables en la formación de una distribución de rendimiento favorable. El objetivo que consiste en la determinación de la importancia relativa de los factores determinantes del rendimiento escolar fue una característica de la segunda generación de estudios de la IEA (tales como el Six-Subject-Survey –Passow et al., 1976; Walker, 1976–) y lo ha sido igualmente en los estudios recientes de la IEA (Torney-Purta et al., 2001; Amadeo et al., 2002). Como estrategia de investigación, este enfoque se ha desarrollado posteriormente hasta convertirse en un complejo paradigma, debido principalmente a la labor del grupo dirigido por Walberg (1990).

Comparaciones de las distribuciones relativas a la alfabetización, basadas en el supuesto del rendimiento educativo comoun determinante del crecimiento económico

En los paradigmas anteriores, los criterios que se debían medir fueron aceptados como “universales”. Recientemente, por el contrario, algunos trabajos comparativos internacionales han tratado de justifi car la elección de criterios en relación con su pertinencia económica. Esta perspectiva se utilizó por primera vez en gran escala en encuestas sobre alfabetización de adultos (NCES, 1993; 1998) y se transfi rió posteriormente al área de las comparaciones internacionales del rendimiento escolar por la OCDE (2001). Estaba igualmente vinculada con trabajos anteriores efectuados por economistas de la educación (Becker, 1964; Schultz, 1961), quienes habían sugerido que el logro en educación se debería considerar como un importante insumo que explica el crecimiento económico. Sin embargo, en vez de sustitutos [proxies] burdos, tales como años de escolaridad, ahora se aplican mediciones del rendimiento de la educación –agrupando a menudo las califi caciones fundamentales bajo el término ‘alfabetización’– que se introducen como predictores en las ecuaciones utilizadas para explicar las situaciones y tendencias económicas.

El desafío inherente en esta perspectiva educativa, más bien reciente, se encuentra obviamente en el vínculo entre un resultado educativo y un resultado económico mensurables. Dado que los estudios internacionales comparados existentes sobre la calidad de la educación escolar no incluyen aún investigaciones longitudinales hasta los niveles de la formación vocacional o profesional, empleo y trabajo, esta perspectiva se encuentra actualmente más en el dominio de la investigación deseable que en el campo de los estudios reales. Debe notarse, sin embargo, que los argumentos correspondientes,


147


aunque sean plausibles, se esgrimen frecuentemente para justificar la implementación de estudios internacionales comparados y motivar la participación de los países en ellos.

Comparaciones con criterios múltiples basadas en el supuesto del rendimiento de la educación como un determinante de la cohesión social y la paz

A pesar de la fuerte atención que se presta actualmetne a las cuestiones económicas, muchos educadores sostienen que la educación no debería reducirse a un proceso de capacitación económicamente provechoso. Mientras que la versión individualista de este argumento –la educación como un proceso que conduce a la autonomía y la autorealización– no se presta fácilmente a comparaciones entre países, es innegable que el mantenimiento y el desarrollo intergeneracional de las sociedades humanas requiere que los valores esenciales respectivos se transmitan a través de la educación, si no informalmente en el seno de las familias y el entorno social inmediato, entonces de manera institucionalizada mediante sistemas formales de educación. Aparentemente, existe consenso a nivel mundial en el sentido de que las competencias en historia (y no simplemente “el conocimiento histórico”) y en civismo, así como algunas actitudes deseables y características de comportamiento, se encuentran entre los objetivos que trascienden la esfera de la “utilidad” económica.

En efecto, desde muy temprano la educación cívica ha sido una disciplina objeto de comparaciones entre países (Torney et al., 1975). En relación con las comparaciones internacionales, la historia también ha sido un campo más bien comprensivo en el estudio que lleva el título Youth and history [Juventud e historia] (Angvik y von Borries, 1997). Estos dos campos se destacan debido a que no es razonable suponer que los objetivos educativos que hay que evaluar tengan validez universal. Muy por el contrario, es casi seguro que varias nociones “importantes” del civismo no se aplican en todas las sociedades conocidas y, en el caso de la historia, es aún más evidente que los currículos nacionales o regionales son muy específi cos, pues se espera que contribuyan y conduzcan a la formación de una identidad colectiva.

Comparaciones de equidad basadas en el supuesto de relaciones variables contexto-producto

Mientras que los cuatro primeros enfoques discutidos aquí tienen en común el supuesto de que los países compiten entre sí para maximizar los criterios seleccionados, una tendencia reciente en materia de estudios


148


internacionales comparados consiste en concentrarse alrededor de la idea de minimizar la influencia de las características del contexto en el rendimiento de la educación. Aquí se supone que la equidad, entendida como una estructura de oportunidad educativa equilibrada para todos los grupos sociales, se logra en forma diferenciada en distintos sistemas de educación. Si bien esta perspectiva tiene notables predecesores en la investigación de las (des) igualdades de las oportunidades educativas en los países considerados individualmente, parecería que el PISA es el primer estudio comparativo internacional signifi cativo en el que este aspecto se trata como un criterio importante. El concepto utilizado es el de «gradiente social», defi nido como la línea de regresión que vincula los antecedentes sociales y el rendimiento educativo individual, incluyendo las implicaciones de la proporción de varianza explicada en estos términos (OECD, 2001: p.184).

Vale la pena notar que esta perspectiva difi ere sustancialmente de las ideas anteriores, orientadas a investigar la relación entre los antecedentes sociales y la fi liación institucional (tipo de escuela o rama escolar). De hecho, pese a las correlaciones entre antecedentes sociales y la pertenencia a una rama escolar o tipo de escuela, que a menudo son muy altas, y a pesar de las altas correlaciones entre la pertenencia a una rama escolar o tipo de escuela y el rendimiento educativo, no ocurre necesariamente que uno de estos efectos sea simplemente un duplicado del otro. Puede muy bien resultar que existan diferencias signifi cativas entre los dos rangos jerárquicos así generados para los sistemas, incluso si operan en el marco de estructuras internas comparables (por ejemplo, los 16 estados federados o Länder de Alemania).

Variables explicativas que se deben medir La taxonomía presentada más arriba ha mostrado que las comparaciones

entre países difieren en los supuestos relativos a los componentes explicativos pertinentes. En particular, los progresos en estadística durante las últimas décadas han facilitado las distinciones analíticas de los múltiples niveles de antecedentes del rendimiento de la educación.

Variables explicativas a nivel del sistema

Quienes proponen el enfoque de la productividad en las comparaciones entre países tienden a creer que el gasto en la educación es un determinante importante del rendimiento educativo agregado, al menos potencialmente, cuando no efectivamente. Lo mismo es cierto para muchos economistas


149


de la educación, quienes calculan las tasas de retorno de las inversiones en educación. Por consiguiente, la recolección de datos estandarizados sobre el gasto en educación se ha convertido en una práctica rutinaria, pues se supone que las inversiones adicionales en educación deben acompañarse de niveles más altos del rendimiento de la educación (OECD, 1992). Obviamente, deberá aplicarse un mayor grado de diferenciación en este aspecto, porque no es razonable suponer que se obtendrán iguales retornos de inversiones en edifi cios, material pedagógico o salarios de los maestros, por citar sólo algunas de las opciones disponibles.

En el caso del gasto en personal (maestros), puede haber diferencias dependiendo de los efectos deseados. Por ejemplo, un aumento del número del personal docente destinado a mejorar la relación maestro-alumno (o a disminuir el número promedio de alumnos por clase) o un aumento del salario para atraer candidatos mejor cualifi cados a la profesión docente. Otra medida, que está más directamente relacionada con el proceso de aprendizaje, sería la asignacion ofi cial de horas de clase para una asignatura o tema dados, con la expectativa de que un mayor número de horas de enseñanza esté correlacionado con un mejor rendimiento.

Este último ejemplo muestra que tales expectativas no tienen que sustentarse en pruebas disponibles a nivel del sistema. Así es como diversos análisis del conjunto de datos del Third International Mathematics and Science Study [Tercer Estudio Internacional de Matemática y Ciencias] (TIMSS), no han confirmado esta expectativa a nivel del sistema (Baumert et al., 2000), pero bien podría ser que las variaciones internas del sistema (grado y nivel) en las relaciones entre horas asignadas ofi cialmente y tiempo realmente utilizado sean responsables de la atenuación del efecto esperado. Este caso podría contribuir a demostrar la necesidad de distinguir escrupulosamente los niveles de análisis con respecto a cualquiera de los predictores mencionados aquí (Ross, 1997).

Los ministerios que se encuentran en el proceso de seleccionar las variables explicativas potenciales a nivel del sistema a fi n de establecer un sólido sistema de monitoreo educacional, harían bien en consultar las listas respectivas de indicadores que han ido surgiendo con el tiempo. Los informes anuales de la OCDE Education at a glance [La educación en una mirada] ofrecen un buen ejemplo.

Análogamente, la Unión Europea (2001) ha defi nido (con cierta circunspección) una lista de indicadores educacionales. Estos incluyen seis variables a nivel de sistema que podrán adoptarse para fungir como


150


antecedentes de la “productividad” educacional: (a) cooperación de los padres; (b) evaluación y gobernanza del sistema; (c) gasto en educación por alumno; (d) formación de maestros antes y durante el servicio; (e) participación en la educación preescolar y (f) número de alumnos por computadora en la escuela.

Variables explicativas a nivel de la escuela y la clase

La mayoría de las comparaciones entre países ha utilizado variables a nivel de la escuela a fi n de ofrecer descripciones precisas del contexto en el que tienen lugar los procesos de enseñanza-aprendizaje investigados. Sin embargo, siempre ha sido difícil establecer una relación entre esta información y el rendimiento agregado. La incorporación de datos a nivel de clase –en particular los datos relacionados con los maestros– ha conducido a difi cultades aún mayores en términos de formulación de sólidos argumentos explicativos que puedan generalizarse a todos los sistemas de educación. Gran parte de esta experiencia ha derivado de los primeros estudios de la IEA y aparentemente ha sustentado la decisión de no incluir cuestionarios para los profesores en el programa de investigación PISA.

Existe, sin embargo, un considerable cuerpo de pruebas resultantes de la investigación, acumuladas bajo la etiqueta ‘investigación sobre la efi cacia escolar’ (Scheerens y Bosker, 1997).

A partir de una serie de meta-análisis en esta línea de investigación, han surgido constructos prometedores, tales como: (a) explicitar y ordenar los objetivos y contenidos; (b) estructurar y clarificar el contenido; (c) utilizar material de evaluación de los resultados logrados por los estudiantes (incluyendo la oferta de retroalimentación e instrucciones correctivas); (d) dominar lo aprendido; (e) disponer de material pedagógico diferenciado; (f) gestionar efi cazmente la clase; (g) hacer uso de tareas para la casa y (h) esperar más de los maestros (Creemers et al., 2000).

En la situación actual, sería muy aconsejable recolectar este tipo de información, a la que se puede acceder razonablemente mediante cuestionarios, e incorporarla en el nivel apropiado de los análisis internacionales comparados.

Variables explicativas a nivel individual

A nivel individual, los rendimientos educacionales superiores parecen derivar de experiencias previas sólidas que han probado ser indispensables para cualquier análisis teórico signifi cativo. Por tanto, es necesario incluirlas en la recolección y el análisis de datos correspondientes. Dado


151


que existe un alto grado de coincidencia entre las comparaciones entre países disponibles en este respecto, bastará incluir aquí una lista de indicadores agrupados en categorías adecuadas:

• Demografía básica: (a) edad; (b) sexo; (c) antecedente étnico (o migratorio) y (d) situación familiar.

• Antecedentes socioculturales y socioeconómicos: (a) nivel de educación de los padres; (b) ocupación de los padres; (c) idiomas hablados en el hogar; (d) recursos educativos pertinentes en el hogar (por ejemplo, libros) y (e) posesiones o recursos en el hogar.

En el caso de los indicadores socioculturales y socioeconómicos, éstos se combinan frecuentemente en una construcción simple, enunciado generalmente como ‘índice socioeconómico’.

Productos educacionales que se deben medir En su catálogo de indicadores educacionales, la Unión Europea

enumera los seis campos siguientes: (a) matemática; (b) lectura; (c) ciencias; (d) lenguas extranjeras; (e) aprendizaje independiente en el campo de las tecnologías de la información y la comunicación (TIC) y (f) educación cívica. Si se compara esta lista con la de la secuencia de los estudios de la IEA realizados desde la década de los sesenta, resulta obvio que esta asociación ha establecido, sin lugar a dudas, la viabilidad de construir tales indicadores. Por el contrario, se puede observar que la OCDE no ha incluido todas estas áreas en su propio programa PISA, a pesar de que algunos hallazgos de la IEA, que van más allá que los del PISA, se han presentado en Education at a glance [La educación en una mirada].

No se debe al azar que el núcleo del programa PISA incluya la noción de «alfabetización» (en el sentido de competencia básica) aplicada a los tres primeros campos: matemática, lectura y ciencias. Esto no sólo es congruente con el hecho de que estas tres asignaturas se enseñan y cultivan en todos los sistemas escolares, ramas y en casi todos los grados, sino que alude, igualmente, al supuesto de que estas competencias son necesarias y conducen al éxito económico a nivel nacional. Ya se ha mencionado, sin embargo, que el concepto de «alfabetización» (en el sentido de competencia básica) tiende a debilitar el vínculo entre asignaturas escolares particulares en favor de una supuesta relación estrecha entre situaciones “auténticas” de la vida cotidiana (adulta).


152


Si bien algo similar (aunque más general) podría ocurrir respecto de las tecnologías de la información y la comunicación (TIC) y las competencias y actitudes cívicas, la OCDE no ha llegado muy lejos en la elaboración de diseños de evaluación correspondientes. Sin embargo, parece seguro predecir que las TIC serán fi nalmente parte integrante del programa de evaluación de la OCDE y ya ha habido diversas iniciativas para incluir también la educación cívica (clasificada a veces como ‘competencia curricular transversal’).

Resulta aún más sorprendente descubrir que las competencias en lenguas extranjeras no haya recibido mucha atención después de los estudios de la IEA sobre el inglés como lengua extranjera (Massad y Lewis, 1975) y el francés como lengua extranjera (Carroll, 1975), realizados a principios de la década de los setenta. Esto contradice la creencia inherente a los curriculos de varios países europeos, en el sentido de que los ministerios deberían emprender o apoyar los esfuerzos destinados a enseñar e investigar en esta área. Por ejemplo, la Conferencia Permanente de Ministros de Educación de Alemania ha decidido convocar (y fi nanciar) un estudio destinado a complementar el de PISA en los campos del inglés como lengua extranjera y el alemán como lengua de enseñanza (Deutsch Englisch Schülerleistungen International –DESI–: “Eine Längsschnittstudie zur Untersuchung des Sprachunterrichts in deutschen Schulen” [Un estudio longitudinal para investigar la enseñanza de lenguas en las escuelas alemanas] (cf. Beck y Klieme, 2003).

La inclusión del alemán como lengua de enseñanza, en este ejemplo, apunta al hecho de que las referencias y argumentaciones de orden curricular respecto de la importancia creciente de las lenguas extranjeras (especialmente el inglés) en el proceso hacia una sociedad global, no son las únicas fuentes de justifi cación –y tal vez ni siquiera las más relevantes– para los estudios internacionales comparados, centrados en el lenguaje, más allá de la lectura [reading literacy]. Debido a la falta de atención (y recursos) durante las últimas décadas, la medición de las competencias lingüísticas no ha alcanzado el nivel técnico de las mediciones en otros campos. Sin embargo, la existencia de sistemas escolares con múltiples lenguas de instrucción (como por ejemplo Bélgica y Suiza) y la existencia de movimientos migratorios importantes acompañados del surgimiento de minorías lingüísticas muestra claramente la necesidad de pruebas empíricas y una mejor comprensión teórica de los fenómenos correspondientes. Se puede inferir con seguridad que la existencia de una lengua ofi cial como el inglés, el francés o el castellano, que exige que los


153


alumnos la utilicen en la escuela en vez de su lengua nativa, implica problemas comparables en muchos países africanos y algunos latinoamericanos.

En esta situación, parece ser oportuno que el Consejo de Europa (1998) haya desarrollado una clasifi cación jerárquica de las competencias lingüísticas que se debería aplicar tanto a las lenguas maternas como a las extranjeras. Si los actuales intentos destinados a validar esta jerarquía de competencias y demostrar su utilidad para evaluar la efi cacia de la enseñanza tienen éxito, la metodología correspondiente se podría desarrollar y convertir en un instrumento muy valioso para todos los ministerios de educación cuyos sistemas deben abordar, de una manera u otra, problemas de la enseñanza de lenguas.

‘Capacidades mentales de orden superior’ que se deben medir

Fundamentos conceptuales y teóricos

En contextos en los que el simple conocimiento fáctico está perdiendo importancia –porque está sometido a cambios rápidos, se puede acceder a él fácilmente debido a la ubicuidad de las diversas modalidades de acceso a la información y a que las exigencias para el empleo han cambiado correlativamente–, el término ‘capacidad mental de orden superior’ ha ganado en signifi cación y atractivo público. Sin embargo, no siempre está muy claro qué es lo se quiere decir con esto.

Uno de los enfoques más conocidos para distinguir entre las capacidades de pensamiento simple y más complejo o ‘de orden superior’ fue introducido en el campo de la medición educacional y, de hecho, en la evaluación internacional comparativa del rendimiento de la educación, por Benjamin Bloom en Taxonomy of educational objectives: cognitive domain (Bloom et al., 1956). Aquí se sostenía que en el campo de cualquier disciplina es necesario que el individuo domine tres niveles básicos antes de dominar un nivel superior de actividades mentales: conocimiento-memoria, comprensión, y aplicación, en este orden. Es decir, se afi rma que las tres competencias de orden superior –‘análisis’, ‘síntesis’ y ‘evaluación’– exigen el dominio de los tres niveles inferiores.

Durante las primera décadas de las encuestas comparadas del rendimiento de los estudiantes, esta taxonomía mostró ser de gran utilidad como marco de referencia para diseñar “proyectos de pruebas”. El examen de estos instrumentos de prueba muestra, efectivamente, que se pueden y


154


deben generar ítems signifi cativos de pruebas, orientándose hacia procesos mentales de orden superior en vez de concentrarse en ítems que ponen a prueba la capacidad de rememorar fragmentos aislados de información. Debe notarse, sin embargo, que la teoría de las pruebas –en su forma clásica– ha brindado poco apoyo a los instrumentos diseñados para operar bajo esquemas de niveles de difi cultad que varían sistemáticamente.

A medida que se desarrollaron modelos de pruebas que eran adaptados específi camente a tales marcos de referencia, se hizo evidente que el dominio de las ‘capacidades de orden superior’ en una disciplina no indicaba necesariamente competencias ‘generales’ o ‘transdisciplinarias’. La capacidad de transferencia era limitada y la probabilidad de resolver un ‘problema de orden superior’ en un campo dado se hallaba altamente correlacionada con la capacidad para evocar conocimientos –tanto declarativos como procedimentales– en dicho campo, acompañada de un nivel demostrable de comprensión, así como la capacidad de aplicar dichos conocimientos en un contexto nuevo o distinto. La expectativa ampliamente generalizada de que la escuela sería capaz de desarrollar un sistema de “resolución de problemas generales” no ha sido satisfecha (Weinert, 2001).

Lo que sí emerge del análisis de la difi cultad de los ítems en las pruebas modernas es un incremento en las exigencias de rapidez y complejidad de las operaciones mentales a medida que los ítems bien diseñados de las pruebas se hacen más difíciles. Otra manera de expresar este hecho, dentro de un campo determinado, es que la complejidad y difi cultad de un ítem no es independiente de las exigencias de inteligencia general. Aún así, el dominio de los niveles básicos de las competencias es un buen predictor, si no un requisito indispensable, para que una persona encuentre la respuesta a un ítem difícil. En este sentido, el aprendizaje escolar genera importantes predisposiciones en los estudiantes para que éstos destaquen en áreas específi cas, aun cuando no todos los procesos mentales implicados sean directamente transmisibles mediante la enseñanza.

Pruebas disponibles

El diseño de las pruebas del PISA 2000 incluye un ítem sobre capacidades metacognitivas que tiene pertinencia en este contexto. Si bien estas competencias fueron medidas sólo mediante informes de los propios estudiantes, ellas estaban sumamente correlacionadas con las mediciones disponibles del rendimiento –sobre todo en lectura comprensiva–. Estratégicamente considerado, éste es un resultado importante, que sugiere la necesidad de una más amplia


155


investigación en esta área. Suponiendo que las capacidades metacognitivas adecuadas se puedan adquirir mediante la formación, puede suceder un día que programas adecuados faciliten más eficazmente el aprendizaje institucionalizado. Las interacciones entre las capacidades metacognitivas y el rendimiento diferencial, según los niveles de difi cultad de las tareas, serían aquí de particular interés.

El PISA ha experimentado, igualmente, con la capacidad para resolver problemas, así como lo han hecho también algunos estudios regionales previos. Más específi camente, el término ‘resolución de problemas’ se refi ere aquí a la capacidad de adoptar decisiones aceptables bajo condiciones más o menos complejas, en secuencias de acción predefinidas. Las ampliaciones actuales tratan de vincular tales capacidades con las competencias adquiridas en la escuela y las extracurriculares, tales como la capacidad de manipular y utilizar computadoras. Si los experimentos correspondientes tuviesen éxito y sus resultados se pudieran generalizar a nivel nacional, el próximo paso importante será investigar su relación con competencias más específi cas relacionadas con la escuela. Un estudio conducido en un contexto muy particular de escuelas para alumnos con rendimiento muy bajo parece indicar –tal como lo sugieren los resultados de una prueba de matemática– que las competencias básicas en lectura y la comprensión estructurada actúan como condiciones necesarias para procesar exitosamente este tipo de ejercicios de resolución de problemas.

Áreas afectivas que se deben medir Actitudes como variables de criterio

Se ha mencionado anteriormente que las evaluaciones a nivel nacional de las competencias en civismo e historia incluyen mediciones afectivas como criterios. Algunos ejemplos incluyen: la tolerancia con los inmigrantes, el apoyo a los derechos de la mujer, actitudes de solidaridad hacia los oprimidos en contextos históricos, y lealtad a los símbolos nacionales y los principios de la narrativa constituyente de la nacionalidad (por ejemplo, relatos de las guerras de 1812 en los casos de Rusia y los Estados Unidos). A pesar de que estas áreas disciplinarias han recibido relativamente poca atención en el curso de las comparaciones del rendimiento de los estudiantes entre países, existen valiosos indicios que muestran la aplicabilidad de técnicas complejas de escalonamiento a este tipo de datos. Estas técnicas han sido utilizadas para investigar la existencia de efectos de la interacción ítem por país, llamados ‘funcionamiento diferencial de ítems’, a fi n de responder a la pregunta de si estas actitudes son comparables a nivel


156


internacional o no (Schulz, 2004). Hasta el momento se han descubierto pocos indicios que puedan inducir a un escepticismo signifi cativo en este respecto.

Actitudes como covariables La tradición consistente en incluir variables ligadas a las actitudes

como predictores o, para decirlo con mayor precisión, como covariables del rendimiento en educación, se refi ere a una práctica totalmente diferente. Generalmente, esta estrategia de evaluación se basa en la sólida relación entre las variables de motivación y rendimiento, y hay numerosas escalas (que “funcionan”, como lo muestran estudios previos) que se pueden utilizar con este propósito. La siguiente es una lista de dimensiones que se podrían considerar aquí: (a) interés relacionado con la asignatura; (b) efi cacia personal relacionada con la asignatura; (c) confi anza general en sí mismo; (d) motivación general para estudiar; (e) satisfacción general con la escuela; (f) ansiedad ante las pruebas; (g) percepción del clima escolar y (h) percepción del aula y la instrucción. La posibilidad de comparar tales medidas entre los países se ha supuesto generalmente, aunque rara vez haya sido puesta a prueba. También en este caso se deberán efectuar análisis dimensionales destinados a establecer la validez de los fundamentos de estas medidas, así como investigaciones sobre las propiedades psicométricas de los ítems y las escalas, incluyendo el posible funcionamiento diferencial de los ítems.

Nuevas tendencias en evaluación Métodos de escalonamiento Comenzando con la International Assessment of Educational Progress

(IAEP) (Lapointe et al., 1992a, 1992b) y el estudio de la IEA Reading Literacy Study (Elley, 1994), la aplicación de modelos probabilísticos de pruebas derivados de la teoría de la respuesta al ítem (TRI) [Item Response Theory –IRT–] se ha estandarizado en el campo de las comparaciones del rendimiento de los estudiantes entre países. Si bien esta técnica fue sugerida por primera vez ya en 1960 (Rasch, 1960), y a pesar de que permaneció ampliamente ignorada durante años, hay varias razones que explican el por qué de este cambio de paradigma: • Los puntajes de la TRI expresan las capacidades de los estudiantes en

términos de probabilidades para resolver ítems de difi cultad conocida. La difi cultad de los ítems y las capacidades de la persona se defi nen en la misma escala.


157


• Las pruebas que hay que escalonar con la TRI se pueden adaptar para grupos con capacidades específi cas, si existe alguna superposicion de ítems entre las versiones utilizadas de la prueba (‘anclaje horizontal’), y también se pueden utilizar longitudinalmente para monitorear los cambios en el transcurso del tiempo, si se cumple esta condición (‘anclaje vertical’).

• La TRI ofrece diversas opciones para tratar con datos incompletos, incluyendo el caso de datos omitidos sistemáticamente en diseños rotatorios [rotated designs]. La más completa de estas técnicas, hasta la fecha, es el denominado ‘enfoque de valores plausibles’ [plausible-values approach] (Beaton, 1987), en el que incluso la información sobre los antecedentes se toma en cuenta cuando se calculan las estimaciones óptimas de las distribuciones de capacidades.

• Los modelos de la TRI se pueden utilizar en una considerable variedad de condiciones, distinguiendo, por ejemplo, los casos de variables dicotómicas y politómicas. En el caso de las variables dicotómicas, el modelo clásico de Rash (es decir, el modelo logístico de un solo parámetro) estima sólo los parámetros de difi cultad del ítem, mientras que el modelo logístico de dos parámetros de Birnbaum (Lord y Novick, 1968) añade un parámetro adicional para la discriminación de ítems. El modelo logístico de tres parámetros (3PL) calcula, igualmente, un término de corrección para las conjeturas.

• Por encima de la estimación de los ‘rasgos latentes’ (tales como las capacidades de los estudiantes) se han propuesto modelos que indican igualmente la existencia de ‘clases latentes’ con pautas específi cas de respuestas (McCutcheon, 1987).

Ciertamente, éste no es el lugar para discutir los méritos relativos de cada uno de estos modelos. La decisión en favor o en contra de un modelo particular depende parcialmente de ciertos índices psicométricos de adaptación que podrían excluir una o más de las opciones disponibles. Al mismo tiempo, un analista de datos podría decidirse por un modelo particular, en función de las ventajas secundarias de una opción dada, entre otras igualmente justifi cables en principio. Una consideración semejante podría fundarse en la solidez de las estimaciones entre las repeticiones, un punto que merece ciertamente una atención signifi cativa en un contexto internacional. La última consideración conduce generalmente a decidir en favor de modelos relativamente simples, sólidos y parsimoniosos.


158


Un punto especialmente importante en este aspecto se refi ere a la construcción de ‘jerarquías de competencias’ o ‘escalas de rendimiento’ (Kelly, 2002), como se las llama a veces. Esta área particular se encuentra actualmente en pleno desarrollo, con diversos enfoques para la defi nición de ‘niveles de competencia’. Una vez más, el TIMSS ha desempeñado el papel de pionero en este campo de desarrollo. Parece ser una experiencia que podría generalizarse, que la defi nición de tales niveles amplía notablemente la difusión de los resultados de la evaluación y ofrece un importante punto de partida para la formulación de teorías que expliquen las estructuras cognitivas requeridas en las respectivas áreas disciplinarias.

Tipos de evaluación

Debido parcialmente a estos nuevos enfoques para analizar los datos de las pruebas, se empiezan a popularizar en este campo métodos de evaluación del rendimiento de los estudiantes raramente aplicados hasta ahora o totalmente nuevos: • Cada vez más frecuentemente, las pruebas de rendimiento presentan

formatos variables de ítems, incluyendo formatos cerrados –tales como los de opciones múltiples– y formatos abiertos –con respuestas breves o amplias–, como fue en el caso del TIMSS. En el caso de tales combinaciones, y en virtud de las técnicas de escalonamiento de la TRI, los ítems dicotómicos y politómicos (para que se les asigne un puntaje en la ‘modalidad de crédito parcial’) se pueden combinar libremente.

• Las pruebas estandarizadas pueden complementarse con tareas más fl exibles, tales como asignaciones del tipo ‘ensayo’. Existen enfoques prometedores para combinar técnicas de puntuación elaboradas por expertos con métodos basados en la TRI a fi n de establecer las calidades psicométricas de los estándares de puntuación implícitos. Al mismo tiempo, se pueden codifi car datos relativos a los textos en forma dicotómica e incluirlos en el análisis.

• Cada vez más se utilizan pruebas prácticas para mejorar el carácter de autenticidad en el uso de la evaluación. Aquí también el TIMSS ha desempeñado un papel importante al introducir este tipo de elementos en el campo de las comparaciones del rendimiento entre países. Si bien los aspectos pragmáticos podrían indicar, en algunos casos, lo contrario –el costo, por ejemplo, o las difi cultades implícitas para garantizar puntajes o códigos comparables en los resultados o productos del trabajo de los estudiantes–, no cabe duda de que esta área merece seguir siendo explorada.


159


• Es de especial interés acompañar los experimentos en los que las técnicas convencionales con papel y lápiz se complementan o se sustituyen con pruebas que utilizan computadoras (Lietz y Kotte, 2000). A medida que se facilita la disponibilidad de computadoras, su uso podría convertirse en una opción asequible y efi caz, incluso en los países menos desarrollados. El aspecto ventajoso de la utilización de este enfoque para mejorar el acceso a los segmentos más remotos del sistema educativo no necesita desarrollarse aquí.

Validez del currículo frente a validez del contexto Se ha analizado previamente que los estudios sobre la alfabetización

de adultos y, subsecuentemente el PISA, han desacoplado, hasta cierto punto, la evaluación del rendimiento de la educación de las más limitadas consideraciones de la validez del currículo, las cuales habían caracterizado de manera tan dominante las primeras comparaciones internacionales, sobre todo en los primeros estudios de la IEA.

En este respecto, el TIMSS desempeñó un papel de intermediario: a fi n de poner a prueba los efectos de las desviaciones de la equivalencia curricular entre los países, se diseñó una rutina de comprobación especial llamada Test-curriculum matching analysis [Análisis de la prueba de correspondencia curricular] (TCMA), (Beaton y Gonzales, 1997). Dentro de esta rutina especial se escalonó el rendimiento de cada país de acuerdo con un vector que representaba el currículo propio del país, así como con todos los vectores que representaban a los otros países participantes. Los resultados mostraron que, al menos en el campo de la matemática, había pocas diferencias que pudiesen ser atribuidas a tales distinciones. Es posible, por supuesto, que en otras áreas de comparación estos efectos puedan ser más grandes.

En el caso del estudio de la IEA sobre la educación cívica, se había supuesto que la prueba cognitiva evidenciaría considerables efectos de las interacciones de ítem por país, debido a la infl uencia diferencial de las culturas políticas del entorno. De hecho, se esperaba encontrar ejemplos tales que se podrían haber tomado como pruebas empíricas de la variación de las culturas políticas entre países. En realidad, apenas fue posible identifi car algunos efectos de este tipo. Allí donde éstos se pudieron notar, no fueron lo sufi cientemente amplios como para justifi car la exclusión de los ítems correspondientes de los análisis relacionados con el país.


160


Países con diferentes subsistemas educativos o diferentes lenguas de instrucción se encuentran, en principio, en una situación que no difi ere de aquéllas halladas en las comparaciones internacionales. Varias décadas de experiencia en este campo han producido una profusión de métodos y técnicas que facilitan comparaciones justas, tomando en cuenta toda clase de infl uencias contextuales. Sin embargo, podría llegar a ser evidente que la noción de «comparación» tiene un carácter secundario en relación con los objetivos primordiales, consistentes en identifi car puntos de referencia aceptables del rendimiento del estudiante y de la productividad del sistema, así como mecanismos con los que se puedan mejorar la efi cacia y la efi ciencia del sistema educativo. Indudablemente, la mayoría de los ministerios de educación suscriben estos objetivos y están dispuestos, por esta razón, a continuar invirtiendo en la realización de estudios internacionales comparados de la calidad de la educación.

ConclusiónNinguna investigación puede, por sí sola, responder a todas las

interrogantes, preocupaciones e intenciones latentes en la iniciativa del ministerio de educación para realizar una evaluación. Esto se debe no sólo a la posible divergencia de intereses en cualquier ministerio determinado, sino más aún debido al amplio conjunto de posibilidades que deben ser consideradas y fi nalmente implementadas por los investigadores. Una lección que se deriva de la taxonomía de los estudios presentada anteriormente podría consistir en que la elección que se debe realizar probablemente no será fácil. Se requiere, sobre todo, que los responsables de la toma de decisiones del ministerio especifi quen con un máximo de precisión las interrogantes que se deben investigar. Obviamente, este es un paso necesario antes de que se pueda defi nir racionalmente cualquier diseño.

Mientras que las suposiciones básicas de algunos de los antiguos modelos –por ejemplo, que las relaciones entre el contexto y el producto son invariables entre los países, o que hay relaciones fi jas entre los insumos y los resultados– parecen estar simplifi cadas y ser optimistas en demasía, enfoques más recientes, que enfatizan la heterogeneidad contextual y la multiplicidad de criterios, presentan un desafío signifi cativo respecto al conocimiento del contexto y el juicio metodológico. Por tanto, los responsables de la toma de decisiones en los ministerios deberán familiarizarse tanto con las cuestiones políticas que son parte de su ámbito de responsabilidad, como con el potencial de los enfoques actuales de investigación educacional.


161


Quizá sea realista asumir que esta familiaridad no incluye necesariamente un alto nivel de competencias especializadas relativas a la teoría de pruebas y análisis de datos. Lo que parece ser más relevante en este contexto es una conciencia clara de los factores que infl uyen potencialmente sobre los criterios examinados. Esta conciencia será crucial en la selección de construcciones pertinentes e indicadores válidos, respectivamente, y, por consiguiente, es esencial para la utilidad del estudio emprendido.

Bibliografía Amadeo, J.A.; J. Tourney-Purta; R. Lehmann; V. Husfeldt; R. Nikolova. 2002.

Civic knowledge and engagement. An IEA study of upper secondary students in sixteen countries, Amsterdam: IEA.

Angvik, M.; B. von Borries. 1997. Youth and history. A comparative European survey on historical consciousness and political attitudes among adolescents, Hamburg: Körber-Stiftung.

Baumert, J.; W. Bos; R.L. Lehmann. 2000. TIMSS/III. Dritte Internationale Mathematik- und Naturwissenschaftsstudie – Mathematische und naturwissenschjaftliche Bildung am Ende der Schullaufbahn. 2 Bde, Oplade: Leske + Budrich.

Beaton, A.E. 1987. Implementing the new design: The NAEP 1983-84 technical report, Princeton, NJ: Educational Testing Service, National Assessment of Educational Progress.

Beaton, A.E.; E.J. Gonzales. 1997. “TIMSS test curriculum matching analysis”, en Martin, M.O.; D.L. Kelly (Eds.), Third international mathematics and science study. Technical report, vol. II: Implementation and analysis, Chestnut Hill, MA: Boston College, pp.187-193.

Beck, B.; E. Klieme. 2003. “DESI – Eine Längsschnittstudie zur Untersuchung des Sprachunterrichts in deutschen Schulen”, Empirische Pädagogik, Vol. 17, No. 3, pp. 380-395.

Becker, G.S. 1964. Human capital, New York: National Bureau of Economic Research. Existe versión en español: El capital humano: un análisis teórico y empírico referido fundamentalmente a la educación, 2ª ed., Madrid: Alianza Editorial, 1983.

Bloom, B.S.; M.D. Engelhart; E.J. Furst; W.H. Hill; D.R. Krathwohl (Eds.). 1956. Taxonomy of educational objectives. Handbook 1: Cognitive domain, New York, NY: McKay. Existe versión en español: Taxonomía


162


de los objetivos de la educación. La clasifi cación de las metas educacionales, Manual 1: dominio cognoscitivo; Manual 2: dominio afectivo, 10ª ed., Buenos Aires: El Ateneo, 1990. Véase también: Taxonomía de los objetivos de la educación. Tomo I. Ámbito del conocimiento, Alcoy (España): Marfi l, 1975.

Carroll, J.B. 1975. The teaching of French as a foreign language in eight countries. International Studies in Evaluation V, Uppsala: Almquist & Wiksell.

Cattell, R.B. 1960. Culture fair intelligence test, scale 2, 3rd ed., Champaign, IL: IPAT.

Council of Europe. 1998. Modern languages: Learning, teaching, assessment. A common European framework of reference, Strasbourg: Council for Cultural Co-operation.

Creemers, B.; J. Scheerens; D. Reynolds. 2000. “Theory development in school effectiveness research”, en Teddlie, C.; D. Reynolds (eds.), The international handbook of school effectiveness research, London & New York: Falmer, pp. 283-298.

Deutsches PISA-Konsortium (ed.). 2002. PISA 2000 – Die Länder der Bundesrepublik Deutschland im Vergleich, Opladen: Leske + Budrich.

Elley, W.B. (Ed.). 1994. The IEA study of reading literacy: Achievement and instruction in thirty-two school systems, Oxford: Pergamon.

European Union – Directorate General for Education and Culture. 2001. European report on the quality of school education. Sixteen quality indicators. Report based on the working committee on quality indicators, Luxembourg: European Union.

Husén, T. 1967. International study of achievement in mathematics. A comparison of twelve countries , Vols . 1-2, Uppsala: Almquist & Wiksell.

Kelly, D.L. 2002. “Application of the scale anchoring method to interpret the TIMSS achievement scales”, en Robitaille, D.F.; A. Beaton (eds.), Secondary analysis of the TIMSS data, Dordrecht: Kluwer Academic Publishers, pp. 375-390.

Lapointe, A.E.; N.A. Mead; J.M. Askew. 1992a. Learning mathematics. Report of the international assessment of educational progress, Princeton, NJ: Educational Testing Service (Report No. 22-CAEP-01).


163


Lapointe, A.E.; J.M. Askew; N.A. Mead. 1992b. Learning science. Report of the international assessment of educational progress, Princeton, NJ: Educational Testing Service (Report No. 22-CAEP-02).

Lietz, P.; D. Kotte. 2000. The importance of economic literacy, Frankfurt am Main: Peter Lang.

Lord, F.M.; M.R. Novick. 1968. Statistical theories of mental test scores, Reading, MA: Addison-Wesley.

Massad, E.G.; C.E. Lewis. 1975. The teaching of English as a foreign language in ten countries. International studies in evaluation IV, Uppsala: Almquist & Wiksell.

McCutcheon, A.L. 1987. Latent class analysis, Newbury Park, CA: Sage.

NCES. 1993. Adult literacy in America. A fi rst look at the results of the national adult literacy survey, Washington, DC: NCES.

NCES. 1998. Adult literacy in OECD countries. Technical report on the fi rst international adult literacy survey, Washington, DC: NCES.

OECD. 1992. Education at a glance. OECD indicators, Paris: OECD.

OECD. 2001. Knowledge and skills for life. First results from PISA 2000, Paris: OECD.

Passow, A.H.; H.J. Noah; M.A. Eckstein; K.R. Mallea. 1976. The national case study: An empirical comparative study of twenty-one education systems, New York: Wiley.

Rasch, G. 1960. Probabilistic models for some intelligence and attainment tests, Copenhagen: Nielsen & Lydiche (2nd ed., Chicago: University of Chicago Press, 1980).

Ross, K.N. 1997. “Research and policy: a complex mix”. IIEP Newsletter, Vol. XV, No 1, pp. 1 y 4. Existe versión en español: “Investigación y política: una mixtura compleja”, Carta Informativa del IIPE, vol. XV, n.º 1, pp. 1 y 4. Cf.:

www.unesco.org/iiep/news/spanish/jans197.htm

Scheerens, J.; R.J. Bosker. 1997. The foundations of educational effectiveness, London: Pergamon.

Schultz, T. 1961. “Investment in human capital”, American Economic Review, Vol. 51, No. 1, pp. 1-17.


http://www.unesco.org/iiep/news/spanish/jans197.htm

164


Schulz, W. 2004. “Scaling procedures for likert-type items on students’ concepts, attitudes, and actions”, en Schulz, W.; H. Sibberns (Eds.), The IEA civic education study. Technical report, Amsterdam: IEA, pp.93-126.

Torney, J.V.; A.N. Oppenheim; R.F. Farnen. 1975. Civic education in ten countries. international studies in evaluation VI, Uppsala: Almquist & Wiksell.

Torney-Purta, J.; R. Lehmann; H. Oswald; W. Schulz. 2001. Citizenship and education in twenty-eight countries. Civic knowledge and engagement at age fourteen, Amsterdam: IEA.

UNESCO. 1997. International standard classification of education (ISCED). (Re-edition: May 2006). Búsqueda: 12 de julio de 2008, en:

www.uis.unesco.org/TEMPLATE/pdf/isced/ISCED_A.pdf Versión en español: UNESCO. 1997. Clasifi cación Internacional

Normalizada de la Educación (CINE). (Reedición: mayo de 2006). Búsqueda: 12 de julio de 2008, en:

www.uis.unesco.org/TEMPLATE/pdf/isced/ISCED_E.pdf

Walberg, H.J. (Ed.). 1990. Educational productivity. The evaluation of educational effi ciency: constraints, issues, and policies (vol. 1), Greenwich and London: JAI Press.

Walker, D.A. 1976. The IEA six subject survey: an empirical study of education in twenty-one countries, Uppsala: Almquist & Wiksell.

Weinert, F. 2001. “Concept of competence: A conceptual clarifi cation”, en Rychen, D.S.; L.H. Salganik (Eds.), Defi ning and selecting key competencies, Seattle, Toronto, Bern, Göttingen: Hogrefe & Huber, pp. 45-65.


http://www.uis.unesco.org/TEMPLATE/pdf/isced/ISCED_A.pdf

http://www.uis.unesco.org/TEMPLATE/pdf/isced/ISCED_E.pdf

165

Capítulo 8

¿A quién se debe medir en un estudio internacional comparado?

Pierre Foy

Introducción El muestreo es una parte importante e integral de cualquier evaluación internacional comparada. Es solamente mediante la selección de muestras adecuadas que los investigadores y analistas políticos pueden estar seguros de que las evaluaciones sobre la calidad de la educación se aplican a poblaciones comparables de estudiantes, dando como resultado investigaciones con cálculos no sesgados y confi ables. Esto se logra defi niendo correctamente la población objetivo, basándose en una sólida metodología de muestreo, determinando un tamaño apropiado de la muestra, computando y aplicando ponderaciones muestrales, y calculando correctamente los errores estándar.

Uno de los propósitos fundamentales de los estudios internacionales comparados en educación es contrastar el rendimiento de los estudiantes entre países. El muestreo es una actividad importante en estos estudios. Las muestran deben obtenerse basándose en métodos sólidos a partir de poblaciones bien defi nidas que, en última instancia, sean comparables. En varias evaluaciones internacionales recientes se han emprendido acciones para controlar y monitorear las actividades de muestreo entre los países participantes. Los procedimientos de muestreo científicamente bien diseñados se aplicarán a grupos comparables de estudiantes en todos los países participantes.

Este artículo examina los diversos factores que deben tenerse en cuenta cuando se obtiene una muestra adecuada. No se trata de una presentación técnica detallada, porque la mayoría de las evaluaciones internacionales ofrecen manuales de mustreo con este propósito (Foy y Joncas, 2001 y 2004). Se trata, más bien, de facilitar un debate más pragmático sobre estos procedimientos de muestreo destinados a investigadores y analistas políticos. Mediante estos debates estarán en mejores condiciones para formular interrogantes de política pertinentes y, más importante aún, ser capaces de traducir estas interrogantes en especificaciones apropiadas para los procdimientos de muestreo.


166


Defi nición de la población objetivo El propósito de las evaluaciones internacionales es comparar los

intereses de los investigadores, los padres de familia, el público y los gobiernos. Por consiguiente, las poblaciones objetivo se deben escoger de modo que se puedan abordar las principales interrogantes de la investigación y permitir comparaciones válidas entre los países participantes. Hay dos enfoques generales que se utilizan para defi nir las poblaciones objetivo en estudios internacionales comparados sobre la calidad de la educación: la cobertura de una cohorte de edad o la cobertura de un grado de estudios determinado. Las preguntas de la investigación conducirán, en general, hacia una u otra, haciendo que la elección sea así relativamente simple. Sin embargo, escoger puede convertirse en algo complicado cuando se manifi estan los diversos intereses nacionales de política y las diferencias en los sistemas nacionales de educación.

Defi niciones basadas en la edad Las defi niciones de la población objetivo basadas en la edad se

concentran en la cobertura de una cohorte de edad específi ca, por ejemplo, todos los estudiantes de 15 años de edad en un sistema educativo, como es el caso en la implementación del PISA (Programa Internacional de Evaluación de Estudiantes) (Adams y Wu, 2002). Una defi nicion semejante ejerce una atracción defi nida entre los analistas de política por su simplicidad y fácil interpretación. Por ejemplo, podría ser de gran interés en materia política conocer lo que los estudiantes han aprendido en el momento en que llegan a cierta edad, como por ejemplo la edad máxima de la educación obligatoria.

A pesar de la aparente simplicidad de una defi nición basada en la edad, lograr la aceptación internacional de una cohorte de edad común puede ser difícil, debido a diferencias estructurales entre los sistemas educativos nacionales. En los países se podría sostener, principalmente, que un estudiante de 15 años de un país determinado habría estado expuesto a más, o menos, años de escolaridad que un estudiante de 15 años en otro país. Las fl uctuaciones en la edad requerida para el ingreso, las políticas de repetición de grado y la cobertura del currículo también se pueden plantear en los debates.

Un diseño de muestra adecuado para una defi nición de la población basada en la edad consistiría en identifi car a todos los estudiantes que reúnen la edad requerida. En términos de muestreo, éste es un diseño más bien efi ciente, que minimiza los efectos de agrupamiento dentro de las


167


escuelas y, por ende, produce estimaciones más confi ables según el nivel de los estudiantes. Analíticamente, una defi nición basada en la edad tiene sus limitaciones. Por ejemplo, sería casi imposible desarrollar modelos explicativos que incorporen la estructura del aula y las prácticas educativas, debido en gran medida a que la población basada en la edad podría estar a caballo entre diversos grados y la muestra de estudiantes estaría muy débilmente distribuida entre grados y aulas en cada escuela de la muestra.

Una población objetivo basada en la edad también presenta retos de carácter operacional. Los estudiantes de la muestra en cada escuela deben ser “sacados” de sus clases regulares y reunidos en un aula disponible para la aplicación de la prueba. Algunas instancias administrativas podrían considerar este hecho como perjudicial al funcionamiento normal de la escuela. Además, podría no disponerse de una sala adecuado para reunir a los estudiantes de la muestra para aplicarles la prueba. Dicho esto, varias evaluaciones internacionales se las han arreglado para implementar esos diseños, por ejemplo la Evaluación Internacional del Progreso Educativo [International Assessment for Educational Progress] (IAEP) (Lapointe et al., 1989) y el PISA (Adams y Wu, 2002).

Defi niciones basadas en el grado

Las defi niciones de la población objetivo se centran en un grado específi co, o un conjunto específi co de grados, como la implementada en el TIMSS (Third International Mathematics and Science Study) (Beaton et al., 1996a, 1996b, 1996c y 1996d) y el Estudio Internacional de Competencia en Lectura [Progress in International Reading Literacy Study] (PIRLS) (Martin et al., 2003). Por ejemplo, una defi nición se podría centrar en el octavo grado escolar en un sistema de educación, cuando se cuenta a partir del inicio de la escolaridad primaria. Esa defi nición es generalmente muy atractiva, especialmente cuando los instrumentos de evaluación se elaboran a partir de la cobertura del currículo. Además, dado que las aulas están organizadas por grado, el muestreo por aula es pertinente y práctico.

Lograr consenso a nivel internacional sobre un grado objetivo adecuado puede ser elusivo por razones similares a las que se plantean en los debates sobre las defi niciones basadas en la edad. Además, las edades de los estudiantes en un grado determinado pueden variar hasta en un año completo –a veces más– entre países, dependiendo de la edad de ingreso requerida y las políticas de repetición de grado.


168


La principal ventaja de una defi nición basada en el grado radica en el más amplio rango de información contextual disponible. Mientras que una población basada en la edad generalmente sólo puede ofrecer información contextual para las escuelas y los estudiantes, una población basada en el grado también ofrecerá información contextual relativa a las aulas y los profesores.

Unidades de análisis

Las unidades de análisis son las entidades que deseamos analizar. En una evaluación internacional, generalmente es muy claro que nuestras unidades de análisis fundamentales serán los estudiantes mismos. Sin embargo, las evaluaciones internacionales también estudian los contextos que pueden infl uir sobre el rendimiento de los estudiantes. Por consiguiente, podríamos desear considerar las escuelas como las unidades de análisis y recoger información de las escuelas. Estos datos nos permitirán describir el entorno a nivel de la escuela en que aprenden los estudiantes.

Los análisis a nivel de escuela se pueden enfocar desde dos perspectivas. La primera consiste simplemente en analizar las escuelas como una población por derecho propio. Podemos entonces describir la población de las escuelas basándonos en los datos que hemos recolectado de ellas. La segunda consiste en considerar los datos a nivel de la escuela como información contextual para describir nuestra población de estudiantes. Para el primer enfoque, formularemos afi rmaciones tales como ‘el porcentaje de escuelas con biblioteca’. Para el segundo, podríamos formular afi rmaciones tales como ‘el porcentaje de alumnos que asiste a una escuela con biblioteca’. La distinción entre estos dos enfoques puede ser muy importante y conducir a diferentes hallazgos desde el punto de vista político. Por ejemplo, podríamos descubrir que sólo 20 % de las escuelas tiene una biblioteca, pero que 80 % de los estudiantes asiste a esas escuelas.

Es importante tener en cuenta la distinción entre unidades de análisis y unidades de muestreo, aunque frecuentemente encontraremos que ambos conceptos tienden a superponerse. Dado que ya hemos defi nido las ‘unidades de análisis’, las ‘unidades de muestreo’ son las unidades que muestreamos efectivamente en nuestra búsqueda de unidades de análisis, y tal vez no sean necesariamente las unidades que deseamos analizar. En general, las evaluaciones internacionales muestrean las escuelas y los estudiantes por conveniencia operacional para el muestreo de los estudiantes agrupados en las escuelas muestreadas. De esta manera, las escuelas y los estudiantes se


169


consideran como unidades de muestreo. Con una poblacion objetivo basada en el grado, podríamos desear muestrear un aula de estudiantes de las escuelas muestreadas. En este caso, escuelas, aulas y estudiantes son las unidades de muestreo, mientras que las escuelas y los estudiantes son las unidades de análisis. Las aulas podrían convertirse en unidades de análisis, si el contexto de la investigación lo requiriese.

Cobertura y exclusiones

Las evaluaciones internacionales defi nen lo que generalmente se denomina ‘la población objetivo internacional deseada’. Se espera, entonces, que todos los países participantes defi nan su ‘población objetivo nacional’ de acuerdo con este éstándar internacional. Por ejemplo, la defi nición de la población objetivo internacional del PIRLS dice lo siguiente:

La poblacion objetivo del PIRLS 2006 se defi ne como ‘todos los estudiantes matriculados en el grado que representa cuatro años de escolaridad, contados a partir del primer año del nivel 1 de la CINE, siempre y cuando la edad promedio en el momento de la prueba sea de por lo menos 9,5 años’.

La población objetivo internacional deseada debe describir claramente las unidades de análisis fundamentales. Es necesario enunciar claramente todos los elementos de la defi nición para que todos los países participantes puedan implementarla adecuadamente, conduciendo así a poblaciones comparables entre los países. De esta manera, la población nacional objetivo deseada se convierte en una implementación en cada país de la población internacional objetivo deseada en su contexto nacional.

Un país que quiera considerar una cohorte de edad, o un grado, en su población nacional objetivo deseada diferente a la explicitada en la poblacion internacional objetivo deseada, debe ser advertido inmediatamente de la inadecuación de su opción. Obviamente, este tipo de decisión podría comprometer gravemente la posibilidad de comparar los datos de este país con los de los otros países participantes (y que han acatado las decisiones).

La exclusión de algunos subgrupos de estudiantes de todos los estudiantes que cubre la población internacional objetivo deseada es designada como ‘cobertura nacional reducida’. Entre los ejemplos podrían estar escuelas privadas, un grupo lingüístico minoritario o una región geográfi ca. Si se excluye un número sustancial de estudiantes de la


170


población objetivo nacional deseada, los resultados del estudio no se podrían considerar representativos de la totalidad del sistema nacional de educación. Por consiguiente, las evaluaciones internacionales deberían promover que todos los países participantes procuren tener una cobertura completa de sus poblaciones objetivo nacionales deseadas. Los países con signifi cativos niveles de cobertura reducida se identifi can en los análisis fi nales para informar a los investigadores y analistas políticos de las potenciales limitaciones al hacer comparaciones a partir de los datos.

La cobertura nacional no se debe limitar a las escuelas que están en la jurisdicción del Ministerio de Educación Nacional. La cobertura nacional debe incluir las escuelas privadas, aunque sean completamente autónomas y no estén bajo la supervisión directa del ministerio. De hecho, la cobertura nacional debe incluir a todas las escuelas que funcionan en el sistema regular de educación, independientemente de dónde se sitúa el locus de su responsabilidad. Esto puede incluir, por ejemplo, escuelas administradas por ministerios de agricultura, comercio, industria o defensa nacional.

Al utilizar sus poblaciones objetivo nacionales deseadas como un marco de referencia general, los países participantes defi nirán luego sus poblaciones objetivo defi nidas a nivel nacional; en síntesis, el marco muestral de sus escuelas. Todas las escuelas y estudiantes de la población objetivo nacional deseada excluidos de la población objetivo defi nida a nivel nacional serán designados como ‘población excluida’. Estas exclusiones pueden ocurrir a nivel de escuela, en cuyo caso las escuelas se eliminan del marco muestral, o de las escuelas muestreadas, en las que los alumnos muestreados en las escuelas muestreadas son excluidos de la evaluación.

Las evaluaciones internacionales establecen estándares mínimos para efectuar exclusiones aceptables. Por ejemplo, el TIMSS y el PIRLS permiten un máximo de 10 % de estudiantes excluidos de la población objetivo nacional deseada, si bien la mayoría de los países mantiene las tasas de exclusión por debajo del 5 %. En general, se aducen razones prácticas para excluir escuelas y estudiantes de la población objetivo nacional defi nida, tales como el aumento de los costos del estudio, el aumento de la complejidad en el diseño de la muestra y condiciones difíciles para aplicar la prueba. Las razones que se dan generalmente para excluir escuelas del marco muestral son: (a) escuelas en regiones geográfi camente remotas; (b) escuelas muy pequeñas; (c) escuelas que ofrecen un currículo, o estructura, diferente de la prevaleciente en el


171


sistema educativo y (d) escuelas que ofrecen instrucción únicamente a estudiantes de las categorías excluidas defi nidas dentro de las exclusiones de la muestra.

La exclusión de los estudiantes que reúnen las condiciones exigidas también puede ocurrir dentro de las escuelas muestreadas, debido generalmente a condiciones inadecuadas para la aplicación de las pruebas a esos estudiantes. Las principales razones aducidas para tales exclusiones son: (a) estudiantes con discapacidades mentales que harían difícil, incluso imposible, que sigan las instrucciones generales de la prueba; (b) estudiantes con discapacidades físicas que impedirían su rendimiento en la situación de prueba y (c) estudiantes incapaces de leer o hablar la lengua de la prueba, generalmente inmigrantes recién llegados.

Las distinciones entre poblaciones internacionalmente deseadas, nacionalmente deseadas y nacionalmente defi nidas pueden ser nebulosas. Dado su objetivo principal, se trata de que las evaluaciones internacionales logren la plena cobertura de la población objetivo internacional deseada entre todos los países participantes y mantener todo tipo de exclusión en un mínimo. La diferencia entre las poblaciones objetivo deseadas a nivel nacional e internacional generalmente se designa como ‘exclusiones de la cobertura nacional’. Sólo una exclusión importante de la población objetivo sería considerada en este sentido. Todas las otras fuentes de exclusión constituirían exclusiones de la población nacional deseada y estarían constituidas por exclusiones a nivel de escuela y exclusiones dentro de la muestra. Por consiguiente, las exclusiones describen la diferencia entre las poblaciones objetivo nacional deseada y nacional defi nida.

Las relaciones entre los diversos niveles de las poblaciones objetivo y las posibles reducciones de la cobertura y las exclusiones se ilustran en el Gráfi co 8.1. En última instancia, la población objetivo nacional efectiva es la población que la muestra de estudiantes participantes representa efectivamente, una vez que se hayan tomado en consideración todas las fuentes de exclusión.

Principales aspectos del diseño muestral Las evaluaciones internacionales generalmente utilizan diseños

muestrales complejos para seleccionar sus muestras de estudiantes. Generalmente, se los designa ‘diseños muestrales multietápicos, estratifi cados y por conglomerados’. Se los denomina ‘multietápicos’


172


porque la muestra de estudiantes se selecciona en diversas etapas; por ejemplo, las escuelas en una primera etapa, las aulas en una segunda etapa y los estudiantes en una tercera y fi nal. Se les denomina ‘estratifi cados’ porque las escuelas del marco muestral generalmente están divididas, o estratificadas, en grupos homogéneos antes de iniciar el muestreo. Finalmente, el término ‘conglomerado’ se utiliza para destacar el hecho de que la muestra fi nal consiste en conglomerados de estudiantes, ya sea a nivel de escuela o de aula, o de ambos. Este agrupamiento de estudiantes, si bien práctico en términos operacionales, conduce a defi ciencias en el muestreo, que necesitarán ser compensadas, generalmente mediante la selección de muestras más grandes.

Etapas del muestreo y unidades de muestreo

Si nuestro único propósito fuera seleccionar una muestra de estudiantes para medir el rendimiento total de los estudiantes, el diseño muestral más efi ciente consistiría en un muestreo directo de estudiantes a partir de una lista de todos los estudiantes que reúnen los requisitos. Por ‘efi cientes’ queremos decir ‘obtener los resultados más confi ables posible de la muestra más pequeña posible’. Raras veces, sin embargo, un diseño semejante de efi ciencia permite satisifacer nuestros objetivos analíticos o tener en cuenta nuestras limitaciones operacionales. En primer lugar, una lista completa de todos los estudiantes que reúnen los requisitos podría no estar disponible. Incluso si estuviera disponible, la muestra de estudiantes probablemente se podría encontrar en tantas escuelas diferentes (es decir, un estudiante por escuela) diseminadas por todo el país, haciendo de ésta una empresa costosa.

Gráfi co 8.1 Cobertura y exclusiones

Población objetivo internacional deseada

Población objetivo nacional efectiva Excluida dentro de la muestra

Población objetivo nacional definida Excluida a nivel de escuela

Población objetivo nacional deseada Excluida de la cobertura nacional


173


Las evaluaciones internacionales generalmente prevén analizar más que el simple rendimiento de los estudiantes. Ellas incluyen entre sus objetivos de análisis preguntas relacionadas con el contexto en el que los estudiantes aprenden, lo que incluiría las escuelas a las que asisten los estudiantes. Por consiguiente, la necesidad de considerar las escuelas como unidades de análisis, así como unidades de muestreo, hacen atractivos los diseños muestrales multietápicos por consideraciones de orden análitico y operacional.

Las evaluaciones internacionales con poblaciones objetivo basadas en la edad, tales como el PISA, generalmente utilizarán un diseño en dos etapas, teniendo a escuelas y estudiantes como las dos etapas muestrales. Las evaluaciones internacionales con poblaciones objetivo basadas en el grado, como el TIMSS y el PIRLS, utilizarán un diseño muestral en tres etapas, en el que escuelas, aulas y estudiantes constituyen las etapas muestrales, aunque también se puede considerar el diseño muestral en dos etapas.

Las aulas como unidades de muestreo presentan un reto particular. Las aulas no son siempre unidades estables y homogéneas en relación con los estudiantes que las constituyen. Por ejemplo, los estudiantes en una clase de idioma podrían no ir a la misma clase de matemática o ciencias. Por consiguiente, es muy importante defi nir qué es lo que se designa con el término ‘aula’, como unidad de muestreo y como unidad de análisis, así como asegurar que todos los estudiantes que reúnen los requisitos de grado en una escuela dada serán tomados en consideración en la división de las aulas.

Marco muestral de la escuela

El marco muestral de las escuelas es una lista de todas las escuelas que reúnen los requisitos y a partir de la cual seleccionamos la muestra de escuelas. La existencia de un marco muestral de buena calidad es crucial si queremos obtener muestras válidas que se supone representan adecuadamente a nuestra población objetivo defi nida. El marco muestral de las escuelas generalmente se obtiene de registros administrativos, usualmente disponibles en el ministerio de educación. Un marco muestral de las escuelas bien construido ofrece una cobertura completa de todas las escuelas que reúnen los requisitos, no incluye escuelas que no reúnan los requisitos, no duplica las entradas y se elabora a partir de información actualizada.

El marco muestral de las escuelas debe ofrecer una cobertura de todas las escuelas que reúnen los requisitos, de acuerdo con la población objetivo


174


nacional defi nida. Todas las escuelas que cuenten con estudiantes de la edad o el grado escolar requeridos deben estar incluidas en el marco muestral de las escuelas. Las escuelas que reúnan los requisitos que no estén presentes en el marco muestral de las escuelas no tendrán ninguna oportunidad de ser incluidas en la muestra de escuelas y, consecuentemente, se consideran como parte de la población excluida.

El marco muestral de las escuelas no debe contener escuelas que no reúnan los requisitos, es decir, escuelas con estudiantes que no tengan la edad o el grado escolar requeridos. Esto incluye a las escuelas que han sido identifi cadas para ser excluidas. La presencia de escuelas que no reúnan los requisitos en el marco muestral de las escuelas puede llevar a elegir algunas de ellas en la muestra, reduciendo así el tamaño efectivo de la muestra.

El marco muestral de las escuelas no debe tener escuelas duplicadas, es decir, escuelas que aparezcan más de una vez. La presencia de escuelas duplicadas puede ocultar las verdaderas probabilidades de selección de estas escuelas. A su vez, esto podría llevar a seleccionar las mismas escuelas más de una vez, reduciendo así el tamaño efectivo de la muestra.

El marco muestral de las escuelas debe contener información actualizada sobre todas las escuelas que reúnen las condiciones. La medición del tamaño de las escuelas debe ser lo más rigurosa posible, así como la información sobre la estratifi cación. La información desactualizada dará como resultado muestras más defi cientes, la posible inclusión de escuelas que no reúnen los requisitos, la exclusión de escuelas que sí los reúnen y probabilidades de selección inadecuadas.

Estratifi cación

La estratifi cacion consiste en el agrupamiento de escuelas antes del muestreo mediante la utilización de una o varias variables de estratifi cación. La estratifi cación se utiliza generalmente por las siguientes razones: (a) para mejorar la efi ciencia del diseño de la muestra, haciendo así más confi ables los estimados del estudio; (b) para aplicar una asignación muestral desproporcionada a grupos específicos de escuelas a fin de producir estimaciones confi ables para cada grupo y (c) para asegurar la representación proporcional de grupos específicos en la muestra. Las evaluaciones internacionales harán hincapié en la necesidad de la estratifi cación como un esfuerzo para mejorar la efi ciencia de los diseños de las muestras nacionales. Después de todo, su principal objetivo es obtener estimaciones nacionales precisas. Por ejemplo, si en un país se sabe que las escuelas urbanas tienen


175


mejor rendimiento que las rurales, defi nir los estratos urbano y rural mejorará la precisión de los resultados del estudio para este país.

Sin embargo, es probable que los investigadores y analistas políticos nacionales tengan requerimientos nacionales específi cos en relación con resultados de investigación para subgrupos de estudiantes, a fi n de hacer comparaciones a nivel subnacional. Por tanto, estarán más inclinados a estratifi car en función de los subgrupos sobre los cuales quieren dar cuenta. Por ejemplo, si en un país específi co se está interesado en dar cuenta de los niveles de rendimiento de cada uno de sus estados o provincias, entonces se pueden construir estratos de estados o provincias a fi n de asegurar un número adecuado para cada estrato en la muestra. Si bien los requerimentos de “precisión” y “dar cuenta” a veces pueden estar en confl icto, generalmente se les puede dar cabida a ambos.

■ Estratifi cación explícita

Las evaluaciones internacionales generalmente utilizarán dos tipos de estratifi cación: explícita e implícita. La estratifi cación explícita consiste en la construcción de listas separadas de escuelas, o marcos de muestreo de escuelas, según un conjunto de variables explícitas de estratifi cación. Por ejemplo, si la región geográfica es una variable explícita de estratifi cación, entonces se construyen marcos de muestreo de escuelas para cada región geográfi ca. Por consiguiente, se pueden aplicar diferentes diseños de muestreo a cada lista a fi n de seleccionar la muestra de escuelas.

La principal razón para considerar la estratifi cación explícita en evaluaciones internacionales es implementar una asignación desproporcionada de la muestra de escuelas en relación con los estratos explícitos. Por ejemplo, el mismo número de escuelas se podría muestrear a partir de cada estrato explícito, independientemente del tamaño relativo de cada estrato. El objetivo en este escenario es producir estimaciones confi ables iguales para cada estrato explícito.

■ Estratifi cación implícita

La estratifi cación implícita consiste en la clasifi cación del marco muestral de escuelas mediante un conjunto de variables implícitas de estratifi cación. Este tipo de estratifi cación es muy efi caz para el método de selección de la muestra de escuelas que generalmente se emplea en las evaluaciones internacionales: un método sistemático de probabilidad proporcional al tamaño (PPT) [probability proportional to size (PPS)].


176


Raramente se ve el concepto de «estratifi cación implícita» con otros métodos de selección de muestras. Es una manera muy simple de asegurar una muestra estrictamente proporcional de asignación de escuelas entre los estratos implícitos. También puede conducir a mejorar la precisión de los estimaciones del estudio, siempre y cuando se sepa que las variables de estratifi cación implícita tenidas en cuenta tienen un componente de varianza signifi cativo entre estratos.

■ Directrices para la estratifi cación

La estratifi cación es un instrumento que nos permite mejorar la efi ciencia de nuestro diseño muestral y controlar mejor la confi abilidad de nuestros datos para subgrupos de la población. A menudo existe la tentación de defi nir tantos estratos como sea posible con la esperanza de controlar totalmente el proceso de selección muestral. Sin embargo, es casi imposible tener a todos los segmentos de la población adecuadamente representados en una muestra. Por ejemplo, podríamos querer asegurar que todas las regiones, todos los distritos escolares, todos los tipos de escuelas –rurales y urbanos– estén representados y controlados en la muestra. Esto puede conducirnos rápidamente a un gran número de estratos y, por consiguiente, a un tamaño de muestra muy grande y muy cara. De dos a cuatro variables de estratifi cación son generalmente sufi cientes para la mayoría de estudios. Se puede considerar un número mayor de variables de estratifi cación, pero esto probablemente nos llevaría a tamaños de muestras más grandes.

Cuando se seleccionan variables de estratifi cación, se deben tomar en cuenta las siguientes directrices: (a) cada escuela del marco muestral de escuelas debe pertenecer a un solo estrato y solamente a uno; (b) cuando se utiliza una variable continua de estratifi cación, unas cuantas divisiones de esa variable (digamos, entre 2 y 5) generalmente proporciona la mayoría de las ganancias en cuanto a la precision muestral disponible para esa variable y, al mismo tiempo, evita crear demasiados estratos; (c) se debe evitar la defi nición de estratos muy pequeños, especialmente de estratos explícitos, porque es poco probable que esto mejore el nivel global de precisión de la muestra y (d) se deben muestrear por lo menos dos escuelas en cada estrato explícito para permitir la computación de errores de muestreo. Este importante criterio generalmente establece un límite superior al número de estratos que se puede defi nir.


177


Mediciones del tamaño

Las evaluaciones internacionales generalmente emplean una metodología sistemática de PPT [probability proportional to size = probabilidad proporcional al tamaño] para seleccionar la muestra de escuelas. Cuando se aplica un muestreo por PPT, el reto consiste en disponer de medidas precisas (o razonablemente precisas) del tamaño de la escuela. Así, para cada escuela del marco muestral de escuelas necesitamos una ‘medida del tamaño’ (MDT) confi able [measure of size –MOS, por sus siglas en inglés–], que proporcione una estimación del número de estudiantes en cada escuela que sean miembros de la población objetivo defi nida. Aquí se utiliza el término ‘estimación’ porque para la mayoría de los sistemas escolares medianos y grandes la matrícula efectiva de los estudiantes dentro de la población objetivo defi nida se obtiene de un censo escolar, que generalmente esta “desactualizado” varios meses después que se han recolectado los datos.

Para una población basada en el grado, necesitaríamos saber cuántos estudiantes del grado objetivo están en cada escuela. Para una población basada en la edad, necesitaríamos saber cuántos alumnos de la edad requerida se encuentran en cada escuela. Sin embargo, la matrícula según cohorte de edad no siempre está disponible a nivel de escuela. Si éste es el caso, la matrícula a nivel de escuela en el grado objetivo que tiene a la mayor parte de la cohorte de la edad requerida puede ser un sustituto. Si la matrícula por grado tampoco está disponible a nivel de escuela, entonces se deben considerar tamaños alternativos a nivel de escuela que se espera que estén altamente correlacionados con la medida de tamaño deseada: (a) matrícula promedio de alumnos por grado o (b) número de aulas en el grado objetivo o (c) matrícula total de estudiantes. Los datos de matrícula utilizados como medida de tamaño deben estar tan actualizados como sea posible. Si no se puede encontrar una medida de tamaño adecuada, o si los datos de matrícula disponibles son muy anticuados, sería aconsejable confi ar en un muestreo con igualdad de probabilidades en lugar de utilizar medidas de tamaño poco fi ables. El uso de medidas de tamaño poco fi ables puede conducir a la inestabilidad en las estimaciones de las muestras (debido principalmente a grandes fl uctuaciones en las ponderaciones muestrales).


178


Muestreo sistemático mediante la probabilidad proporcional al tamaño (PPT)

El enfoque PPT da como resultado probabilidades de selección de escuelas que son proporcionales a la medida de tamaño de la escuela. Consecuentemente, las escuelas más grandes tienen más probabilidades de ser muestreadas que las escuelas pequeñas. El método de muestreo sistemático PPT es muy fácil de implementar, de ahí su popularidad en las evaluaciones internacionales. En el Gráfi co 8.2 se presenta una parte de un marco muestral, que enumera las primeras 42 escuelas de un marco muestral de escuelas con un total de 2.119 escuelas. Cada escuela tiene una identifi cación única y se indica que tiene la medida de tamaño adecuada. De una escuela a otra, la medida de tamaño se acumula, ya que esto es necesario para identifi car a las escuelas muestreadas. La suma de la medida de tamaño para el total de 2.119 escuelas en el marco muestral fue 59.614. En este ejemplo, fue necesario muestrear 50 escuelas. Así, el ‘intervalo muestral’ fue calculado como la medida total del tamaño dividida por el tamaño requerido de la muestra de escuelas:

59.614 ÷ 50 = 1.192,28

El muestreo mediante PPT se empezó determinando un inicio aleatorio como un número aleatorio entre cero y el intervalo muestral. En nuestro ejemplo, este inicio aleatorio fue 653,4887. Por tanto, la primera escuela incluida en la muestra fue la escuela que contenía al estudiante número 653, tal como estaba determinado en la columna acumulativa de la medida del tamaño (MDT). Esto ocurre efectivamente con la escuela 1.718, que está marcada con un aspa en el Gráfi co 8.2. La siguiente escuela incluida en la muestra se determina agregando el intervalo muestral al inicio aleatorio:

653,4887 + 1.192,28 = 1.845,7687

Este número de selección identifi ca a la escuela 0067 como la segunda escuela incluida en la muestra, que también está marcada con un aspa en el Gráfi co 8.2. Todas las escuelas subsiguientes incluidas en la muestra se identifi can agregando el intervalo muestral al número de selección previo y colocando esta selección en la columna acumulativa de la medida del tamaño (MDT).

Escuelas de reemplazo

Algunas escuelas adicionales en el Gráfi co 8.2 fueron identifi cadas como ‘escuelas de reemplazo’, con las etiquetas R1 y R2. Las escuelas


179


de reemplazo se utilizan como alternativas de reemplazo cuando las escuelas seleccionadas rehusan participar. Siempre es aconsejable lograr que todas, o la mayoría, de las escuelas seleccionadas participen, y las evaluaciones internacionales establecen estándares estrictos en este sentido, ya que altas tasas de participación de las escuelas constituye la única garantía para obtener sesgos mínimos en las respuestas. Generalmente sospechamos que las razones que tenga una escuela para no participar están de alguna manera relacionadas con su nivel de rendimiento. Por lo tanto, cuando la tasa de participación de las escuelas disminuye, el riesgo de respuestas sesgadas aumenta. La utilización de escuelas de reemplazo no elimina totalmente el riesgo de respuestas sesgadas; se trata principalmente de un mecanismo para mantener el tamaño de la muestra.

Como se ilustra en el Gráfi co 8.2 más abajo, se identifi caron como ‘escuelas de reemplazo’ a escuelas adyacentes a las escuelas muestreadas que se suponía debían reemplazar. Las escuelas de reemplazo tienden a tener características similares a sus correspondientes escuelas muestreadas, basándose en las variables de estratifi cación explícitas e implícitas utilizadas. Si bien esto no evitará necesariamente respuestas sesgadas, puede tender a minimizar el potencial de sesgo. Además, este enfoque es mejor que cualquier uso alternativo aleatorio de escuelas como reemplazos, especialmente la aplicación del “sobremuestreo” para compensar las no respuestas.

Escuelas muy grandes

Las escuelas muy grandes son escuelas cuya medida de tamaño es mayor que el intervalo calculado en el muestreo. Este fenómeno es más bien inusual, pero puede suceder cuando se trata con poblaciones objetivo relativamente pequeñas o cuando se aplican altas tasas de muestreo. Estas escuelas muy grandes pueden ser problemáticas, ya que potencialmente pueden ser muestreadas más de una vez, si aplicamos el método sistemático de muestreo PPT, descrito previamente. En teoría, éste no es un problema importante, pero en la práctica puede serlo, ya que estaríamos pidiendo una muestra más grande de estudiantes provenientes de escuelas muestreadas más de una vez.

La solución de este problema consiste en tratar a todas las escuelas muy grandes como ‘escuelas aseguradas’, es decir, que están incluidas en la muestra con seguridad (esto es, con una probabilidad de 1). La muestra restante de escuelas se selecciona luego entre las escuelas que quedan en


180


el marco muestral de escuelas, tras haber eliminado todas las escuelas aseguradas.

082905521802128820430974171818070457024418171741165201210309003200210609039900670202006314671381104313180659061216960867053717940695003103330051038413911189073106341230

Parámetros del muestreo Identificador de la escuela

MDT de laescuela

MDTaculumada

Escuelasseleccionadas

2,11959,614

501,192.2800653.4887

Número total de escuelas:Medida total del tamaño:

Tamaño de la muestra de escuelas:

Intervalo de muestreo:Inicio aleatorio:

11010198989594949393939190898989898988868686868686848484838282818080807979797979787877

110211309407502596690783876969

1 0601 1501 2391 3281 4171 5061 5951 6831 7691 8551 9412 0272 1132 1992 2832 3672 4512 5342 6162 6982 7792 8592 9393 0193 0983 1773 2563 3353 4143 4923 5703 647

R2�

R1

R2�

R1

R2�

R1

Gráfi co 8.2 Método sistemático de muestreo mediante la PPT


181


Escuelas pequeñas

Las escuelas pequeñas son escuelas cuya medida del tamaño (MDT) es menor que el número de estudiantes que tratamos de muestrear en cada escuela. En el estudio del PISA se requería una muestra de 35 estudiantes de 15 años de edad por escuela, considerándose que cualquier escuela que tuviera menos de 35 estudiantes era una ‘escuela pequeña’. Si se considera el ejemplo del TIMSS, en el que se muestrea un aula del grado de estudiantes requerido por escuela, entonces cualquier escuela con menos de un aula llena de estudiantes del grado requerido se considera una escuela pequeña. Para ser más precisos, si el tamaño del aula promedio es 25, entonces cualquier escuela con menos de 25 estudiantes del grado requerido se considera una escuela pequeña.

La presencia de escuelas pequeñas puede provocar una serie de problemas de muestreo. En primer lugar, la inefi cacia operacional de escuelas muestreadas con muy pocos estudiantes que reúnen los requisitos. La mayoría de las evaluaciones internacionales introduce la noción de ‘escuelas muy pequeñas’, por ejemplo escuelas con menos de cinco estudiantes que reúnen los requisitos, y permiten su exclusión, siempre y cuando esto no comprometa la tasa global de exclusión. Sin embargo, esto no resuelve totalmente el problema de las escuelas pequeñas. Cualquier escuela pequeña que sea seleccionada en la muestra de escuelas podría impedirnos en última instancia muestrear un número suficiente de estudiantes. El défi cit resultante en el tamaño de la muestra podría conducir a disminuir la confi abilidad de los estimaciones del estudio. Esto puede ser preocupante en países con grandes poblaciones rurales y, por consiguiente, con muchas escuelas rurales pequeñas. La solución de este problema consiste en considerar la defi nición de un estrato explícito de escuelas pequeñas y seleccionar proporcionalmente más escuelas en ese estrato de las que habríamos elegido en otras circunstancias.

Finalmente, la existencia de escuelas pequeñas generalmente afecta gravemente las ponderaciones muestrales, si persistimos en la idea de aplicar el método de muestreo PPT. Además, las medidas de tamaño de las escuelas pequeñas son inconstantes. Una muestra de 10 escuelas que reúnen los requisitos un año puede tener 5 o 15 el año siguiente, provocando fluctuaciones incontroladas en las ponderaciones muestrales. Por consiguiente, las escuelas pequeñas generalmente se muestrean con igualdad de probabilidades a fin de estabilizar sus ponderaciones muestrales.


182


Muestreo de estudiantes

Habiendo seleccionado una muestra de escuelas, la tarea siguiente es muestrear a los estudiantes dentro de las escuelas seleccionadas. Cómo se haga dependerá de la defi nición de la población objetivo y de los objetivos de análisis. Con una población basada en la edad, elaboramos una lista de todos los estudiantes que reúnen la edad requerida en una escuela seleccionada y seleccionamos al azar un número fi jo de estudiantes de esa lista. Por ejemplo, el PISA selecciona una muestra al azar simple de 35 estudiantes de 15 años de edad en cada escuela seleccionada.

Con una población basada en el grado, disponemos de más opciones de muestreo de los estudiantes. De hecho, podemos aplicar el mismo enfoque que para una población basada en la edad. En cada escuela seleccionada elaboramos una lista de todos los estudiantes que reúnen el grado requerido y seleccionamos al azar un número fi jo de estudiantes de cada lista de escuela. Esta es la manera más efi ciente de muestrear a los estudiantes dentro de las escuelas, pero no necesariamente la más práctica con una población basada en el grado. Muestrear aulas es un método más práctico y menos perturbador. Consiste en elaborar una lista de todas las aulas del grado objetivo en cada escuela seleccionada y generalmente seleccionar al azar un aula por escuela. Por supuesto, es posible, y a veces aconsejable, muestrear más de un aula por escuela.

Un tercer enfoque de muestreo de estudiantes disponible para la población basada en el grado consiste en el submuestreo de estudiantes en las aulas muestreadas. Este método se aplica en dos etapas. En primer lugar, elegimos las aulas en las escuelas seleccionadas tal como se describió y en segundo lugar, seleccionamos al azar submuestras de estudiantes en las aulas elegidas. Este enfoque es algo más complejo y puede resultar perturbador cuando muestreamos en función de aulas. Sin embargo, se puede tener en cuenta cuando los tamaños de las aulas son muy grandes y resultara muy costoso aplicar pruebas a todos los estudiantes de las aulas seleccionadas. Por ejemplo, en un sistema escolar con clases de un tamaño de 50 estudiantes, sería rentable seleccionar al azar 30 estudiantes por cada aula elegida.

La determinación del tamaño de la muestra El reto más grande cuando se elabora un diseño de muestra es

determinar el tamaño de la muestra (Foy, 1998). ¿Cómo tiene que ser de grande la muestra? Ésta es la pregunta en boca de la mayor parte de los


183


investigadores y analistas de política. Pero la respuesta a esta pregunta es más bien compleja y requiere elementos de información, tanto por parte de los expertos en muestreo como de los investigadores y analistas políticos. También hay que tener en cuenta las limitaciones de recursos, lo que podría contribuir a enturbiar la respuesta. Cuando a un experto en muestreo se le pregunta cuál debe ser el tamaño de la muestra, él escucha inmediatamente cuál debe ser el error de muestreo. La respuesta a ambas preguntas se encuentra hasta cierto punto en las necesidades analíticas del estudio.

Necesidades analíticas

El objetivo general de cualquier evaluación internacional, o de cualquier tipo de evaluación, es efectuar comparaciones. Éstas pueden ser comparaciones entre países, entre regiones de un país, entre niños y niñas, y así sucesivamente. Los tipos de comparaciones que se necesita hacer en un estudio pueden incidir sobre el tamaño de la muestra y, por consiguiente, debe explicitarse antes de que se adopten las decisiones fi nales sobre el muestreo. Esto se puede ilustrar considerando las necesidades de información de un analista político para quien una comparación entre dos o más grupos podría conducirlo a un cambio de política, si las diferencias observadas fuesen “demasiado grandes”. El tema principal aquí es determinar qué se quiere decir con ‘demasiado grandes’. En términos de importancia en materia de política, la pregunta sobre cuán grande es la diferencia entre dos regiones, entre escuelas rurales y urbanas, entre niños y niñas, ¿podría llevarnos a revisar, o reformar, algún aspecto del sistema educativo?

Las evaluaciones internacionales han establecido tradicionalmente escalas de rendimiento con un promedio de 500 puntos y una desviación estándar de 100 puntos. Estas cifras son arbitrarias, un dispositivo que muestra cómo se presentan fi nalmente los resultados del estudio, pero nos pueden dar un marco para determinar lo que se podría considerar una gran diferencia. Si bien encontramos variaciones entre los distintos países, estudios previos como el TIMSS (Beaton et al., 1996a; Martin et al., 2000) han mostrado que la brecha de rendimiento entre dos grados adyancentes se sitúa en el rango de 50 a 70 puntos en los grados de primaria y de 20 a 40 puntos en el primer ciclo de secundaria (Beaton et al., 1996a, 1996b, 1996c y 1996d). Por ejemplo, basándose en los datos del TIMSS de 1995, los estudiantes del 8º grado en el Canadá tuvieron 33 puntos más que los del 7º grado en matemática. Ésta no es, en absoluto, una cantidad fi ja y estándar,


184


sino simplemente un punto de referencia que a veces es útil para tener una mejor idea de la magnitud de las diferencias de puntaje.

Por ejemplo, si observáramos una diferencia de 30 puntos en favor de las escuelas urbanas en el 8º, podríamos interpretarlo diciendo que los estudiantes de las escuelas rurales están retrasados un año entero en relación con los de las escuelas urbanas. Ciertamente, sería una brecha enorme que apela a efectuar algún tipo de acción para remediarla. La pregunta que habría que plantearse es: ¿una diferencia de 20 puntos también exige una acción de recuperación? ¿Y una de 15 puntos?... ¿Y una de 10 puntos?... Asumiendo que como analistas políticos tomaremos en cuenta cualquier brecha de 15 puntos o más como importante en materia de política, entonces estableceremos el tamaño de la muestra de tal manera que las brechas de 15 puntos o más serán estadísticamente signifi cativas. Esto quiere decir que brechas tan grandes como las observadas en nuestra muestra representarían una diferencia “real”, en lugar de resultados que se podrían atribuir a fl uctuaciones aleatorias.

A pesar de esta explicación, la respuesta a nuestra pregunta aún sigue siendo ambigua, ya que las evaluaciones internacionales tienen múltiples objetivos de análisis, tanto a nivel internacional como nacional. Consecuentemente, las evaluaciones internacionales tienen una perspectiva ligeramente diferente sobre este problema. Ellas establecerán generalmente el tamaño de su muestra de tal modo que cualquier estimación nacional sea fi able dentro de un número fi jo de puntos en la escala de rendimiento. Esto se conoce generalmente como ‘intervalo de confi anza’, por medio del cual podemos afi rmar con una probabilidad conocida y alta que el puntaje promedio de rendimiento estimado se situará entre un número fi jo de puntos del puntaje nacional de rendimiento verdadero. Si tomamos el TIMSS y el PISA como ejemplos, ambos establecen que sus expectativas para los puntajes promedio de rendimiento nacional se sitúan a 10 puntos del puntaje del rendimiento nacional verdadero, con 95 % de confi anza. Basándose en la teoría estadística, todo esto implica que las estimaciones más importantes del estudio, sobre todo los promedios de rendimiento, exigen errores de muestreo de no más de 5 puntos.

El coefi ciente de correlación intraclase

Conocer el error de muestreo requerido no es suficiente para determinar el tamaño de la muestra en evaluaciones internacionales. Dado que estos estudios utilizan un diseño muestral multietápico y por conglomerado, la muestra resultante de estudiantes no es tan adecuada


185


como una muestra aleatoria simple de estudiantes. Necesitamos tener alguna idea de la consiguiente pérdida de adecuación. Ésta se mide mediante el coeficiente de correlación intraclase (CI). El CI mide simplemente la desigualdad entre escuelas. Si las escuelas tienden a rendir en niveles comparables, el CI será bajo. Si las escuelas rinden en niveles que varían ampliamente, el CI será alto. Conclusión: los países con un CI alto requieren una muestra de escuelas más grande que los países con un CI bajo. El Gráfi co 8.3 ilustra el impacto del CI sobre el tamaño de la muestra. Este cuadro se toma del PIRLS 2006 School Sampling Manual (Foy y Joncas, 2004). En el gráfi co también se ilustra el impacto del tamaño mínimo del agrupamiento sobre el tamaño de la muestra. Este factor se analizará posteriormente.

El PIRLS 2006 estableció requisitos de tamaño mínimo para las escuelas (150 escuelas) y los estudiantes (4.500 estudiantes). Por consiguiente, estos valores se establecen como valores por defecto en el Gráfi co 8.3 cada vez que los cálculos del tamaño teórico de la muestra nos llevaran a aceptar tamaños de muestra más pequeños. Sin embargo, podemos ver clarameante cómo el CI incide sobre el tamaño de la muestra. Para cualquier tamaño mínimo de un conglomerado dado, el tamaño requerido de la muestra aumenta si el CI aumenta.

Tamaño mínimo del conglomerado (TMC)

El tamaño mínimo del conglomerado también incide sobre el tamaño de la muestra. En efecto, el tamaño mínimo del conglomerado (TMC) es el tamaño de la muestra de estudiantes en las escuelas seleccionadas. En el caso del PISA, el tamaño mínimo del conglomerado se establece en 35. En el caso del TIMSS y el PIRLS, en los que se seleccionan las aulas, el tamaño mínimo del conglomerado es generalmente el tamaño promedio del aula en un país dado. Por consiguiente, el Gráfi co 8.3 ofrece un rango de tamaños mínimos de conglomerados para tener en cuenta las variaciones en los tamaños mínimos de las aulas en el mundo.

En el Gráfico 8.3 podemos ver cómo el tamaño mínimo del conglomerado incide sobre el tamaño de la muestra. Para cualquier CI mayor de 0,3, el tamaño de la muestra aumenta a medida que aumenta el tamaño mínimo del conglomerado (TMC).


186


Ponderaciones muestrales El cálculo de las ponderaciones muestrales es un componente

importante de cualquier diseño de muestra, si bien en muchas investigaciones educativas a menudo se descuida o incluso se ignora. Las ponderaciones muestrales se asignan a cada unidad de la muestra; más específi camente aún, a los estudiantes que participan. El propósito es mantener el “equilibrio relativo” entre las unidades de la muestra a fi n de efectuar inferencias adecuadas sobre la población objetivo total. Un ejemplo simple: si muestreamos a 100 estudiantes de una población de 1.000 estudiantes, entonces a cada estudiante muestreado se le asigna un peso de diez, indicando que uno de cada diez estudiantes ha sido muestreado o, más precisamente, que se supone que cada estudiante muestreado “representa a diez estudiantes de la población”.

Sólo raras veces se asignan ponderaciones muestrales iguales a los estudiantes muestreados, como en el ejemplo precedente. Por ejemplo, la necesidad de producir estimaciones fi ables para los subgrupos de una

Gráfi co 8.3 Cuadro para el diseño muestral del PIRLS 2006

0,1300

4.500225

4.500180

4.500150

4.500150

5.250150

6.000150

6.750150

7.500150

8.250150

9.000

0,2300

4.500225

4.500180

4.500150

4.500150

5.250150

6.000150

6.750150

7.500150

8.250150

9.000

0,3300

4.500225

4.500180

4.500150

4.500150

5.250150

6.000150

6.750150

7.500150

8.250150

9.000

0,4300

4.500225

4.500180

4.500175

5.250173

6.055171

6.840170

7.650169

8.450168

9.240167

10.020

0,5300

4.500225

4.500216

5.400213

6.390211

7.385210

8.400209

9.405208

10.400207

11.385207

12.420

0,6300

4.500258

5.160254

6.350252

7.560250

8.750249

9.960248

11.160247

12.350247

13.585246

14.760

0,7301

4.515296

5.920293

7.325291

8.730289

10.115288

11.520287

12.915286

14.300286

15.730285

17.100

0,8339

5.085334

6.680331

8.725329

9.870328

11.480327

13.080326

14.670326

16.300325

17.875325

19.500

0,9376

5.640372

7.440370

9.250368

11.040367

12.845366

14.640365

16.425365

18.250364

20.020364

21.840

Correlación intraclaseTamañomínimo del

agrupamiento

15

20

25

30

35

40

45

50

55

60

anananananananananan

a = número de escuelas seleccionadasn = número de estudiantes seleccionados en el grado objetivo


187


población puede llevarnos a aplicar tasas de muestreo diferentes por subgrupos. Por ejemplo, podríamos querer comparar el nivel de rendimiento de los estudiantes en las escuelas públicas con el de los estudiantes de las escuelas privadas. Aunque quizá encontremos que un 80 % de los estudiantes asisten a escuelas públicas, podríamos querer asignar tamaños de muestra iguales a ambos subgrupos.

Por consiguiente, nuestra muestra consistiría en 50 % de estudiantes que asisten a escuelas públicas. Sin ponderaciones muestrales, nuestra muestra nos despistaría al hacernos pensar que había una partición 50/50 entre ambos grupos. Más precisamente aún, cualquier diferencia en los niveles de rendimiento de ambos subgrupos nos llevaría a estimar el nivel de rendimiento total de manera incorrecta, al hacer hincapié excesivamente en la contribución de los estudiantes de las escuelas privadas. Las ponderaciones muestrales restaurarían el equilibrio adecuado entre ambos subgrupos, dando mayor peso a los estudiantes de las escuelas públicas, a fi n de estimar adecuadamente el nivel de rendimiento global.

Probabilidades de selección

Las ponderaciones muestrales se calculan basándose en las probabilidades de selección que se aplicaron para seleccionar las unidades de muestreo. Para enunciarlo en los términos más simples: la ponderación muestral de una unidad de muestreo es igual a la inversa de su probabilidad de selección muestral. Dado que las evaluaciones internacionales se basan en diseños muestrales multietápicos, el cálculo de las ponderaciones muestrales es un proceso más complicado. Las ponderaciones muestrales deben tener en cuenta las probabilidades de selección en todas las etapas del muestreo. De esta manera, las ponderaciones muestrales tendrán posiblemente tres componentes: un componente de ponderación de la escuela, posiblemente un componente de ponderación del aula y un componente de ponderación del estudiante.

El componente de ponderación de la escuela es igual a la inversa de la probabilidad de selección de la escuela. Dado que las evaluaciones internacionales utilizan probabilidades proporcionales al tamaño, las escuelas más grandes tienen mayores probabilidades de selección y, por tanto, menores componentes de ponderación de escuela, y las escuelas más pequeñas tienen menores probabilidades de selección y, por consiguiente, tienen mayores componentes de ponderación de escuela.

El componente de ponderación del aula es igual a la inversa de la probabilidad de selección del aula en la escuela seleccionada. Este


188


componente es pertinente sólo en estudios que tienen una población objetivo basada en el grado y a las aulas como unidades de muestreo. Generalmente, las aulas de una escuela se seleccionan con probabilidades iguales. Por ejemplo, si seleccionamos un aula de una escuela con cuatro aulas de 8º grado, cada aula tiene una probabilidad de selección de 0,25 y el aula seleccionada tendrá un componente de ponderación de aula de 4.

El componente de ponderación del estudiante es igual a la inversa de la probabilidad de selección del estudiante, ya sea en una escuela seleccionada en un diseño de muestra en dos etapas o en un aula seleccionada en un diseño en tres etapas. En ambos casos, los alumnos se seleccionan con iguales probabilidades. Por ejemplo, si tomamos el PISA, donde la muestra de estudiantes generalmente está constituida por 35 estudiantes de 15 años de edad en cada escuela seleccionada, entonces los estudiantes de una escuela con 100 alumnos que reúnen los requisitos tendrá una probabilidad de selección de 0,35 y los estudiantes seleccionados tendrán una ponderación muestral de estudiante de 2,85715 (100÷35). Si tomamos el PIRLS, por ejemplo, donde generalmente sólo se selecciona un aula por escuela seleccionada y todos los estudiantes de esa aula son seleccionados, entonces todos los estudiantes del aula seleccionada tienen una probabilidad de selección de 1 y una ponderación muestral de estudiantes de 1. Si tuviéramos que submuestrear a estudiantes de un aula seleccionada, digamos 30 estudiantes de un aula de 50, entonces todos los estudiantes en esa aula seleccionada tendrían una probabilidad de selección de 0,6 y los estudiantes submuestreados tendrían un componente de ponderación de estudiante de 1,66667 (50÷30).

El producto de estos diferentes componentes de ponderaciones constituyen la ponderación muestral teórica total a nivel de estudiantes.

Ajustes de las no respuestas

Si todas las escuelas, aulas y estudiantes participaran, las ponderaciones muestrales serían adecuadas. Esto, sin embargo, sucede sólo raramente, pues es usual que falten algunas respuestas en algún nivel. Nuestras ponderaciones muestrales teóricas deben ser ajustadas para tener en cuenta alguna no respuesta entre las unidades de muestreo.

Los ajustes de no respuesta pueden ocurrir en cada etapa muestral. El ajuste de no respuesta de la escuela corrige el componente de ponderación de la escuela para tener en cuenta cualquier no respuesta a nivel de la escuela. Esto se hace usualmente a nivel del estrato explícito. En su forma más simple, el ajuste de la no respuesta a nivel escolar recalibra


189


las probabilidades de selección de la escuela basada en la muestra de escuelas observada, por oposición a la muestra de escuelas esperada. Por ejemplo, si hubiéramos esperado una muestra de 100 escuelas, pero obtenido sólo 80 escuelas participantes, entonces la forma más simple de ajuste de la no respuesta en la escuela sería de 1,25 (100÷80). El ajuste de no respuesta de la escuela puede ser más complejo, utilizando las ponderaciones observadas y esperadas de los tamaños de las muestras de estudiantes a nivel de escuela.

El ajuste de la no respuesta del aula corrige la ponderación del componente aula para tomar en cuenta cualquier no respuesta a nivel de aula. Se calcula de manera análoga a la del ajuste de la no respuesta de la escuela. Sin embargo, cuando se selecciona sólo un aula por escuela, si la única aula seleccionada en una escuela no participa, entonces esto constituye la no respuesta a nivel de la escuela y es considerada en el ajuste de no respuesta de la escuela.

La no respuesta del aula puede ser particularmente problemática, ya que podríamos sospechar que un aula seleccionada que no participa podría estar conformada por estudiantes de bajo nivel de rendimiento. Un ajuste de no respuesta de aula computado a nivel de escuela podría introducir potencialmente un sesgo de no respuesta signifi cativo. Por esta razón, el TIMSS y el PIRLS calculan su ajuste de no respuesta del aula a nivel de estrato explícito para atenuar los efectos de cualquier sesgo de no respuesta.

El ajuste de no respuesta de los alumnos corrige la ponderación del componente alumnos para tomar en cuenta cualquier no respuesta a nivel de alumno. Se calcula nuevamente de manera análoga a la del ajuste de no respuesta de la escuela, recalibrando simplemente las probabilidades de selección de los estudiantes basadas en la muestra observada de estudiantes en lugar de la muestra esperada de estudiantes. El ajuste de no respuesta de los estudiantes se calcula a nivel de la escuela en diseños muestrales en dos etapas o a nivel del aula en diseños muestrales en tres etapas.

Cuando las ponderaciones muestrales teóricas se corrigen para todos los ajustes de no respuesta, lo que se obtiene son los resultados de las ponderaciones muestrales fi nales. Éstas son las ponderaciones muestrales que se deberán utilizar en todos los análisis a fi n de derivar estimaciones adecuados para el estudio. Conceptualmente, las ponderaciones muestrales fi nales pueden tener hasta seis componentes, basadas en la selección de


190


probabilidades y en los ajustes a las no respuestas en todas las etapas del muestreo. La derivación exacta de estos componentes puede ser diferente, dependiendo de los diseños muestrales específi cos empleados por las evaluaciones internacionales, pero son piedras angulares para la derivación de cualquier ponderacion muestral.

Es importante notar que el supuesto de los ajustes de no respuesta es que la no respuesta es un fenómeno puramente aleatorio, que no está relacionado con el rendimiento. Aunque esto es generalmente difícil de verifi car, a menudo sospechamos que la no respuesta en realidad está relacionada de alguna manera con el rendimiento, especialmente en las no respuestas de la escuela y el aula. Por consiguiente, es muy importante mantener altas tasas de respuesta a fi n de minimizar el sesgo potencial debido a las no respuestas.

Recorte de ponderación

Es posible concebir que los diseños muestrales utilizados en evaluaciones internacionales puedan producir lo que se designa como ‘muestras autoponderadas’. En teoría, esto signifi ca que las ponderaciones muestrales fi nales son iguales para todos los estudiantes que participan en una muestra nacional. En la práctica, sin embargo, este es raramente el caso por diversas razones; de ahí la necesidad de calcular ponderaciones muestrales. Las ponderaciones muestrales variarán al aplicar diferentes ponderaciones muestrales por estrato, en particular cuando se quiere obtener cálculos fi ables a nivel subnacional. Las ponderaciones muestrales también pueden variar debido a diferentes tasas de no respuesta entre estratos explícitos. Por ejemplo, las escuelas privadas podrían tener menor disposición para participar. Las ponderaciones muestrales también podrían fl uctuar debido a acontecimientos inesperados provenientes de información no fi able sobre el marco muestral de la escuela o a cambios físicos reales en las poblaciones constituidas por los estudiantes y las escuelas. Aquí la falta es atribuida generalmente a la imprecisa medición del tamaño de la escuela.

Es muy probable que encontremos que cualquier medida del tamaño (MDT) de la escuela habrá cambiado entre el momento en que la seleccionamos a partir del marco muestral y el momento en que efectivamente vamos a la escuela para efectuar la evaluación. Estos cambios son de esperar, ya que la medida del tamaño en el marco muestral de las escuelas se basará generalmente en los datos de matrícula provenientes del censo escolar efectuado el año escolar anterior. Sin


191


embargo, esperaríamos que estos cambios fueran más bien pequeños y, en efecto, en muchos casos lo son. Sin embargo, de tiempo en tiempo encontramos que la medida del tamaño de una escuela ha cambiado signifi cativamente, siendo mucho más pequeña o mucho más grande de lo esperado. Esto puede ocurrir por razones legítimas, tales como la reestructuración de una función específi ca de la escuela, pero también puede suceder cuando el marco muestral de la escuela es obsoleto.

El resultado de este proceso es la probabilidad de encontrar que algunas ponderaciones muestrales lleguen a ser muy grandes, generando errores de muestreo más grandes y posiblemente fl uctuaciones incontroladas en algunas estimaciones. También pueden ocurrir ponderaciones excesivamente pequeñas, pero sus consecuencias usualmente no son tan graves. A fi n de reducir el efecto de ponderaciones muestrales muy grandes sobre los cálculos de la muestra y sus errores de muestreo, las evaluaciones internacionales a veces aplican una función de recorte de ponderación.

El propósito del recorte de ponderación es reducir las ponderaciones muestrales sumamente grandes a niveles más razonables y, por consiguiente, reducir su infl uencia sobre las estimaciones y sus errores de muestreo. El reto en el recorte de ponderación está en lograr un equilibrio entre la eliminación de los efectos negativos de las ponderaciones muy grandes sin reducir indebida y artifi cialmente los errores de muestreo. Esto se hace generalmente estableciendo un límite relativamente alto para las ponderaciones muestrales aceptables con la esperanza de que abarcará a la mayoría de los valores extremos, pero muy pocas de las ponderaciones muestrales legítimas. Por ejemplo, el PISA recorta ponderaciones muestrales que son cuatro veces el valor mediano de la ponderación muestral.

Tipos de ponderaciones muestrales Las ponderaciones muestrales que hemos descrito hasta ahora podrían

denominarse ‘ponderaciones de población’, pues su suma a nivel nacional produce una estimación de toda la población objetivo. Estas ponderaciones muestrales son ciertamente adecuadas para producir estimadciones no sesgadas y fi ables de las características de la población. Sin embargo, podrían no ser adecuadas para algunos tipos de análisis estadísticos.

Los usuarios de análisis estadístios más sofi sticados, tales como análisis factorial, modelos lineales jerárquicos y otros similares, pueden encontrar difi cultades con las ponderaciones de la población. Por regla general, en estos modelos estadísticos se asumirá que las ponderaciones


192


de la población representan el tamaño de la muestra. De esta manera, se sobrestimarán excesivamente los grados de libertad y se subestimarán las varianzas. Estas difi cultades se pueden superar parcialmente calculando ponderaciones estandarizadas. Las ponderaciones estandarizadas son una transformación simple de las ponderaciones de la población en las que las ponderaciones estandarizadas se agregarán al tamaño de la muestra nacional. Con las ponderaciones estandarizadas, los análisis estadísticos producirán grados de libertad más adecuados, pero aún tenderán a subestimar las varianzas. Aunque el uso de ponderaciones estandarizadas es aconsejable para estos modelos estadísticos complejos, los investigadores y los analistas deben tener mucho cuidado cuando utilizan errores muestrales.

Las ponderaciones de la población y las ponderaciones estandarizadas pueden no ser apropiadas cuando se hacen comparaciones entre países. La cuestión es sobre qué base se compara a los países. ¿Se los comparará basándose en el tamaño de su población, el tamaño de su muestra o debe comparárselos en pie de “igualdad” (es decir, como si se hubiera utilizado el mismo tamaño de muestra en cada país)?

Comparar a los países con las ponderaciones de población hará que los países más grandes dominen la comparación. Comparar a los países con las ponderaciones estandarizadas hará que los países más grandes con selecciones más grandes dominen la comparación. Si se supone que hay que comparar a todos los países en pie de igualdad, se requiere entonces un tercer conjunto de ponderaciones muestrales, a las que denominaremos ‘ponderaciones uniformes’. Las ponderaciones uniformes se derivan de manera similar a las ponderaciones estandarizadas, con la diferencia de que se recalibran para totalizar un tamaño constante para cada país. Por ejemplo, el TIMSS y el PIRLS calculan lo que en ellos se denomina ‘ponderaciones representativas’ [senate weights] que totalizan hasta 500 en cada país.

Errores de muestreo El error de muestreo de cualquier estimación en una encuesta es una

medida de su dispersión entre todas las muestras posibles que se podrían obtener dado el diseño muestral y el tamaño de muestra utilizados. Afortunadamente, no necesitamos seleccionar todas estas muestras para medir los errores de muestreo de nuestras estimaciones en la encuesta. La teoría estadística y la teoría del muestreo nos brindan instrumentos para calcular los errores de muestreo de la muestra que hemos seleccionado.


193


Los errores de muestreo se utilizan para construir intervalos de confi anza centrados en nuestras estimaciones. Podemos entonces estar seguros con una probabilidad conocida y alta que nuestros intervalos de confi anza contienen el estimado de población correcto. Por ejemplo, el intervalo de confi anza de 95 % para el puntaje de rendimiento de un estudiante promedio nos lo da la ecuación siguiente:

Por ejemplo, si tuviéramos que estimar un puntaje de rendimiento del estudiante promedio a nivel nacional de 538 puntos con un error de muestreo de 4,7, luego su intervalo de confi anza de 95 % sería:

[528,8; 547,2]

Entonces estaríamos en condiciones de afi rmar que había un 95 % de probabilidades de que el valor del rendimiento del estudiante promedio se encuentre en algún punto de ese intervalo.

Efectos de la agrupación

La agrupación tiene un efecto sobre los errores de muestreo. Coefi cientes más grandes de correlaciones intraclase producen errores muestrales más grandes. Los conglomerados muestrales más grandes también producen errores muestrales más grandes. En el Gráfi co 8.3 podemos observar el efecto que la agrupación tiene sobre la determinación del tamaño de la muestra. El efecto que la agrupación puede tener sobre el error de muestreo, para un tamaño de muestra dado, se puede obtener a partir de la ecuación siguiente:

Esta ecuación es una aproximación a la formulación teórica del error de muestreo para diseños multietápicos (Cochran, 1977). La cantidad 100 se toma de la desviación estándar que se fi ja para la mayoría de las evaluaciones internacionales. CI es el coefi ciente de correlación intraclase; m es el tamaño mínimo del conglomerado (es decir, la muestra de estudiantes de la escuela) y n es el tamaño de la muestra de la escuela. Los datos que se presentan en el Gráfi co 8.4 derivan de esta ecuación.

Podemos ver claramente que el error de muestreo aumenta a medida que el CI aumenta, recordando que el CI es una medida de la disparidad

se(X ) = 1001 + IC (m – 1)

n – m⎯

[X – 1,96 . se(X ), X + 1,96 . se(X )]⎯ ⎯ ⎯⎯


194


entre escuelas. Además, como el tamaño del conglomerado mínimo aumenta, de 20 a 30 a 40, así también aumenta el error de muestreo, haciendo que la tasa de aumento sea más grande a medida que el CI aumenta. Como punto de referencia, el error de muestreo 1,3 calculado para un CI de cero es, en efecto, el error de muestreo que calcularán normalmente los paquetes de aplicaciones estándar. Esos errores de muestreo pueden conducir a graves subestimaciones de los verdaderos errores de muestreo. Las estimaciones resultantes de los intervalos de confi anza llegan a ser mucho más pequeñas y probablemente podrían conducir a los analistas de política a efectuar inferencias gravemente erradas a partir de los datos.

Métodos de estimación

En el caso de diseños muestrales simples, los errores muestrales se pueden calcular fácilmente a partir de ecuaciones simples y directas, y esto es lo que hacen la mayoría de paquetes de aplicaciones estadísticas. Dado que las evaluaciones internacionales utilizan complejos diseños muestrales multietápicos y por conglomerados, el cálculo de los errores de muestreo no es algo simple y directo. De hecho, será realmente un reto encontrar las ecuaciones pertinentes para calcular los errores de muestreo, dado el complejo diseño muestral y el método de muestreo sistemático PPT (probabilidad proporcional al tamaño). Además, las características de las muestras por conglomerado hace que éstas sean menos adecuadas y conduzcan a errores de muestreo más grandes.

El resultado es que las evaluaciones internacionales se basan en ‘técnicas de reproducción de muestras’ para derivar empíricamente los errores de muestreo. A estos métodos se los denomina métodos autosufi cientes [bootstrap] o herramentales [jack-knife], y se ha demostrado

Gráfi co 8.4 Errores de muestreo

0,0

1,3

1,3

1,3

2,2

2,5

2,9

2,8

3,4

3,8

3,3

4,0

4,6

3,8

4,6

5,3

4,2

5,1

5,8

4,5

5,5

6,4

4,9

6,0

6,9

5,2

6,4

7,3

5,5

6,7

7,8

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

Coeficiente de correlación intraclaseTamaño dela muestra

n = 300m = 20n = 200m = 30n = 150m = 40


195


que tienen sólidas propiedades estadísticas, siempre y cuando se apliquen correctamente (Wolter, 1985). Los métodos que las evaluaciones internacionales utilizan generalmente son: (a) el método de la réplica repetida equilibrada [balanced repeated replication o BRR] –como en el PISA– o (b) el método de la réplica repetida herramental o jack-knife [jack-knife repeated replication o JRR] –como en el TIMSS y el PIRLS–. El principio general de todos estos métodos de replicación de muestras es obtener múltiples submuestras de toda la muestra y derivar errores muestrales apropiados en concordancia con la teoría subyacente que sustenta estos métodos. Los métodos se describen en los informes técnicos de estas evaluaciones internacionales (Martin et al., 2000, 2003; Adams y Wu, 2002).

Los métodos BRR y JRR defi nen estratos de varianza, o zonas, que generalmente son pares de escuelas. El emparejamiento de escuelas respeta el orden en el que las escuelas fueron seleccionadas utilizando el método de muestreo sistemático PPT (probabilidad proporcional al tamaño). En cada zona se defi ne aleatoriamente una escuela como réplica-cero. Posteriormente, los métodos producen tantos conjuntos de ponderaciones muestrales replicadas como zonas existentes.

En el caso del método JRR, el primer conjunto de ponderaciones muestrales replicadas se calcula estableciendo las ponderaciones muestrales de los estudiantes en la escuela réplica-cero de la primera zona en cero y doblando las ponderaciones muestrales de los estudiantes en la otra escuela de la primera zona. Las ponderaciones muestrales de los estudiantes en todas las otras zonas se mantienen inalteradas. El segundo conjunto de ponderaciones muestrales replicadas se calcula de manera similar, pero en este caso con la segunda zona. El procedimiento se repite para todas las zonas.

El método BRR utiliza un enfoque diferente para definir sus ponderaciones replicadas. Utiliza lo que se denomina ‘matrices Hadamard’ para determinar, de manera compleja y equilibrada, qué réplica-cero y en qué zona tendrá ponderación cero o ponderación doble. El resultado es también un conjunto de ponderaciones muestrales replicadas, muy parecido a las del método JRR.

En ambos métodos, las ponderaciones muestrales replicadas se utilizan para derivar estimaciones replicadas del estudio, tantas como conjuntos de ponderaciones replicadas existan. La variación entre las estimaciones


196


replicadas es una medida de la varianza muestral, a partir de la cual podemos derivar errores de muestreo.

Errores de sustitución

Cada vez más, las evaluaciones internacionales aplican instrumentos de prueba rotatorios, ya que su fondo de ítems [pool of items] de evaluación es demasiado grande como para ser administrado en su totalidad a cada estudiante muestreado. Por consiguiente, han llegado a confi ar en la teoría de respuesta a ítems para derivar los puntajes de rendimiento de los estudiantes. Los modelos de respuesta a ítems agrupan los resultados de todos los instrumentos de prueba rotatorios para sustituir los puntajes del estudiante en toda la evaluación. Dado que cada estudiante responde sólo a un subconjunto de ítems de evaluación, hay incertidumbre asociada con estas sustituciones. Por tanto, a cada estudiante se le da múltiples sustituciones, denominadas ‘valores plausibles’ [plausible values], para derivar estimaciones fi ables del rendimiento del estudiante en la evaluación considerada como un todo. La variabilidad entre los valores plausibles brinda una medida del error de sustitución. El error de sustitución debe combinarse con el error muestral a fi n de brindar un error estándar que incorpore ambas fuentes de variación.

Los modelos de respuesta a ítems generalmente se describen en los informes técnicos de las evaluaciones internacionales. También describen cómo se calculan y combinan los errores de sustitución para obtener errores estándar globales. Generalmente, el error de sustitución es relativamente pequeño cuando se lo compara con el error de muestreo. Basándose en los datos del TIMSS de 1999 y el PIRLS de 2001, el error de sustitución puede representar entre el 2 % y el 30 % del error estándar total. Ciertamente, esto aumenta el tamaño de los intervalos de confi anza y debe ser tomado en consideración cuando se calcule el tamaño necesario de la muestra. Los tamaños de muestras presentados en el Gráfi co 8.3 se calcularon teniendo en cuenta el error de sustitución previsto.

Conclusión La respuesta a las preguntas ‘¿A quién se debe medir?’ y ‘¿Cómo se

lo debe seleccionar?’ es una tarea complicada en el marco de evaluaciones internacionales comparadas. Primero debemos defi nir adecuadamente la población objetivo de estudiantes que hay que medir en relación con nuestra investigación y objetivos políticos. El mayor reto consiste en hacer que nuestra defi nición de la población pueda ser tenida en cuenta uniforme


197


y coherentemente en todos los países participantes. Esto es esencial si se quiere que los resultados de nuestro estudio sean comparables.

Depender de métodos sólidos de muestreo parece una proposición evidente. Sin embargo, en el marco de evaluaciones internacionales comparadas es necesario estar atentos a las desviaciones nacionales de los procedimientos estándar. Estas desviaciones podrían comprometer o poner en peligro la calidad y comparabilidad de las muestras. Quizá el mayor reto sea determinar un tamaño adecuado de la muestra. Muchos factores entran en juego y es necesario consultar muchas áreas de pericia para resolver este rompecabezas. Los investigadores y los analistas de política deben contribuir a este esfuerzo presentando a los expertos en muestreo el contexto en que se utilizarán fundamentalmente los resultados del sondeo. Los expertos en muestreo también deben brindar a los investigadores y los analistas políticos sufi ciente orientación para que formulen adecuadamente sus requerimientos y consideren el impacto sobre el tamaño y el diseño de la muestra.

Las ponderaciones muestrales y los errores estándar son indispensables en cualquier encuesta por muestreo, pero a veces se descuidan. Las ponderaciones muestrales son necesarias para mantener el equilibrio adecuado entre las unidades de muestreo. Sin ellas, las estimaciones del sondeo podrían ser “erróneas”.

Los errores estándar son necesarios para conocer la fi abilidad de las estimaciones del sondeo y efectuar inferencias adecuadas acerca de cualquier diferencia observada. Sin errores estándar nunca podremos saber si las diferencias observadas son reales o simplemente el resultado de fl uctuaciones aleatorias debidas al muestreo. Los errores estándar también se deben calcular adecuadamente. Confi ar en los paquetes de aplicaciones estadísticas estándar tiende a subestimar seriamente los errores estándar verdaderos, conduciendo a que los usuarios de los datos concluyan que algunas diferencias observadas son estadísticamente signifi cativas, cuando en realidad pueden no serlo.

Bibliografía Adams, R.; M. Wu. 2002. PISA 2000 technical report, Paris: OECD.

Beaton, A.E.; I.V.S. Mullis; M.O. Martin; E.J. Gonzalez; D.L. Kelly; T.A. Smith. 1996a. Mathematics achievement in the middle school years: TIMSS, Chestnut Hill, MA: International Study Center, Boston College.


198


Beaton, A.E.; I.V.S. Mullis; M.O. Martin; E.J. Gonzalez; D.L. Kelly; T.A. Smith. 1996b. Mathematics achievement in the primary school years: TIMSS, Chestnut Hill, MA: International Study Center, Boston College.

Beaton, A.E.; I.V.S. Mullis; M.O. Martin; E.J. Gonzalez; D.L. Kelly; T.A. Smith. 1996c. Science achievement in the middle school years: TIMSS, Chestnut Hill, MA: International Study Center, Boston College.

Beaton, A.E.; I.V.S. Mullis; M.O. Martin; E.J. Gonzalez; D.L. Kelly; T.A. Smith. 1996d. Science achievement in the primary school years: TIMSS, Chestnut Hill, MA: International Study Center, Boston College.

Cochran, W.G. 1977. Sampling techniques. 3rd ed., New York: John Wiley & Sons.

Foy, P. 1998. “Sampling issues in international assessments”, International Journal of Educational Research, n.º 29, pp. 555-568.

Foy, P.; M. Joncas. 2001. TIMSS 2003 school sampling manual (Version 1), Ottawa: Statistics Canada.

Foy, P.; M. Joncas. 2004. PIRLS 2006 school sampling manual (Version 2), Ottawa: Statistics Canada.

Lapointe, A.; N.A. Mead; G.W. Phillips. 1989. A world of differences: an international assessment of mathematics and science, Princeton, NJ: Educational Testing Service.

Martin, M.O.; K.D. Gregory; S.E. Stemler. 2000. TIMSS 1999 technical report, Chestnut Hill, MA: International Study Center, Lynch School of Education, Boston College.

Martin, M.O.; I.V.S. Mullis; A.M. Kennedy. 2003. PIRLS 2001 technical report, Chestnut Hill, MA: International Study Center, Lynch School of Education, Boston College.

Wolter, K.M. 1985. Introduction to variance estimation, New York: Springer-Verlag.


199

Capítulo 9

¿Cuáles son los costos nacionales de un estudio internacional comparado?

Maria Teresa Siniscalco

Introducción El costo nacional total de un estudio internacional comparado sobre la calidad de la educación tiene dos componentes: (a) los costos internacionales (es decir, la contribución nacional a los costos para ejecutar el estudio a nivel internacional) y (b) los costos nacionales (es decir, los costos de la ejecución del estudio en el país).

Los costos internacionales para un país varían signifi cativamente, dependiendo del estudio y de la organización internacional que participe. Los costos de participación en el PISA (Programme for International Student Assesment – Programa Internacional de Evaluación de Estudiantes) (Adams y Wu, 2002), efectuado por la Organización para la Cooperación y el Desarrollo Económicos (OCDE), varían entre 50.000 y 600.000 euros anuales, dependiendo del tamaño de la economía del país. En el caso del Proyecto TIMSS, organizado por la Asociación Internacional de Evaluación del Rendimiento Escolar (IEA) en 2003, fue de US$ 40.000 por población estudiada durante tres años y US$ 60.000 por dos poblaciones estudiadas.

Los niveles de estas contribuciones a menudo pueden depender de la presencia de fi nanciación adicional, proveniente de otras fuentes externas. Las contribuciones nacionales son la única fuente de fi nanciación del PISA; sin embargo, algunos estudios de la IEA han recibido apoyo fi nanciero del Ministerio de Educación de los EE.UU., el Banco Mundial y otros organismos, tales como el PNUD. En los estudios de la IEA, los fondos del Gobierno de los Estados Unidos se destinaron principalmente a preparar el marco de referencia y los instrumentos de recolección de datos, así como para la realización de análisis más complejos de los resultados, mientras que los fondos del Banco Mundial y el Programa de las Naciones Unidas para el Desarrollo (PNUD) se utilizaron para apoyar a los países con menos recursos.

Este artículo se concentra en los costos y la logística relacionados con la implementación nacional de estudios internacionales comparados


200


sobre la calidad de la educación, desde el diseño inicial de los instrumentos de recolección de datos hasta la difusión de los resultados, tomando como punto de referencia el proyecto del PISA de la OCDE. El artículo se divide en tres secciones principales: necesidad de recursos humanos, fases del trabajo y algunas experiencias de la “vida real” tomadas de la participación de Italia en el proyecto del PISA. Una sección fi nal sintetiza los costos totales “visibles”.

Las cuestiones de costos y logística se ven afectadas por las características de la organización que implementa el estudio en un país. Puede tratarse de un organismo gubernamental (por ejemplo, un ministerio de educación), una institución fi nanciada por el gobierno (por ejemplo, una universidad pública o una institución de investigación fi nanciada por el gobierno) o una institución independiente (por ejemplo, una universidad privada, una institución de investigación independiente o un consorcio de grupos). Si el estudio se organiza alrededor de una institución fi nanciada por el gobierno, es probable que haya una gran proporción de costos ocultos (es decir, costos cubiertos por los presupuestos existentes), mientras que si el estudio es ejecutado por una organización que no es fi nanciada por el gobierno, la mayoría de los costos serán “visibles”, es decir, se traducirán en gastos monetarios efectivos más allá de los presupuestos existentes.

Recursos humanos Al considerar los recursos humanos necesarios para la implementación

de un estudio internacional comparado sobre la calidad de la educación en un país, es indispensable escoger el grado deseado de gestión directa de las tareas y operaciones en el centro nacional. Esto puede ir desde la gestión directa de todas las tareas y operaciones en el centro nacional hasta la subcontratación de la mayor parte del trabajo a agencias externas. Entre estos dos extremos existen opciones intermedias que suponen la gestión directa de tareas esenciales junto con la subcontratación de algunos componentes a proveedores externos. En el último caso, los recursos humanos requeridos para implementar el estudio a nivel nacional incluyen: (a) personal permanente en el centro nacional; (b) personal temporal en el centro nacional; (c) personal ofrecido por proveedores externos y (d) un comité nacional de asesoría y diversos grupos de expertos.


201


Personal permanente en el centro nacional

Como parte de la creación de un centro nacional para el estudio, cada país participante necesita nombrar a una persona que asuma la responsabilidad de la implementación del proyecto en el país. En muchos estudios internacionales comparados, esta persona es designada como ‘coordinador(a) nacional de investigación’ (CNI) o ‘administrador(a) del proyecto nacional’ (APN). Él o ella trabajarán con un equipo cuyo tamaño dependerá del volumen de trabajo, que será directamente administrada en el centro nacional, y del alcance de la investigación asociada con el estudio específi co.

■ Administrador del proyecto nacional (APN)

En la mayoría de los casos, el puesto de APN exigirá una dedicación a tiempo completo, pero también puede ser a tiempo parcial si existe un apoyo adecuado por parte del personal de otro proyecto y asistentes en estadística.

Una persona nombrada para el puesto de APN debe tener un diploma universitario pertinente y experiencia en planifi cación, organización y dirección de encuestas en gran escala. De preferencia, la persona habrá trabajado en un sistema educativo y logrado experiencia en evaluación educacional.

El estrés y los retos que plantea el desempeño del puesto de APN demanda competencias en gestión del personal del equipo del proyecto, capacidad para efectuar diferentes tareas simultáneamente y un alto nivel de competencias en comunicación oral y escrita. También se requiere conocimiento sufi ciente y confi anza en sí mismo para representar al país en reuniones internacionales donde se debatirán aspectos del proyecto.

En general, el APN deberá asumir (o delegar y responsabilizarse) una amplia gama de tareas, entre las cuales están la organización y conducción de reuniones con expertos; la participación en reuniones internacionales de APN; comunicación de la situación del país, en una serie de aspectos del proyecto, al centro internacional y durante las reuniones del APN; gestión de la implementación operacional del estudio a nivel nacional y preparación de los informes nacionales, dando cuenta de los resultados.

Desde el punto de vista operacional, el APN debe ser alguien “versado” (aunque no necesariamente un “experto”) en la elaboración de instrumentos (pruebas y cuestionarios), muestreo, y preparación de datos


202


y análisis. Debe tener sufi cientes conocimientos en estas áreas para ser capaz de interactuar con los “expertos” del estudio, establecer fechas límite realistas, y organizar y supervisar el trabajo.

■ Personal en el centro nacional

Además del APN, el equipo del centro nacional debe incluir al menos dos profesionales adecuadamente formados que ayuden al APN y por lo menos una persona que brinde apoyo secretarial y administrativo.

El tamaño del equipo del centro nacional puede variar signifi cativamente entre países e incluso en el mismo estudio, dependiendo de los recursos disponibles, así como del alcance del estudio a nivel nacional. Por ejemplo, la decisión de aumentar el tamaño de la muestra en un país a fi n de obtener cálculos estables para muchos estratos podría generar un aumento en el número del personal para abordar el trabajo de campo y los requerimientos de la gestión de datos.

Cuando se seleccione al personal del centro nacional, el APN debe asegurar que se cubran las competencias técnicas requeridas para implementar el estudio, prestando particular atención a las áreas de muestreo y análisis de datos.

Personal temporal en el centro nacional

La carga de trabajo en un estudio en gran escala oscila típicamente entre momentos en los que tres o cuatro miembros del personal pueden hacerse cargo del trabajo necesario y otros en los que un equipo más grande, tal vez diez o veinte personas, es necesario para abordar las tareas requeridas. Se necesitará personal adicional para, por ejemplo, contactar a las autoridades de las escuelas seleccionadas antes de la recolección principal de datos, así como para califi car las preguntas abiertas e ingresar datos.

El requerimiento de personal adicional temporal no planteará problemas, si el centro nacional está situado en el seno de una institución más grande que tiene fl exibilidad para asignar personal. Si éste no es el caso, se necesitará estar en condiciones de efectuar contratos con duración limitada y para tarea específi cas.

En el estudio del PISA, se tenía que seleccionar una muestra de tamaño mínimo de 4.500 estudiantes de un mínimo de 150 escuelas. Se necesitó personal sufi ciente para contactar a las escuelas seleccionadas a fi n de obtener las listas de los estudiantes de la población objetivo que se podrían utilizar para la


203


selección en las escuelas. Dado el diseño estándar de califi cación del PISA, la califi cación de los ítems de las preguntas abiertas (teniendo en cuenta que se evaluaban varios dominios de alfabetización y que se requería múltiples califi caciones de respuestas para una submuestra de estudiantes) se necesitó un equipo de 24 califi cadores.

Una manera de abordar la necesidad de personal adicional en un momento determinado es emplear estudiantes universitarios cuyo campo de estudio sea pertinente para la tarea requerida (por ejemplo, estudiantes de matemática para calificar las respuestas abiertas a preguntas de aritmética básica).

Personal ofrecido por agentes externos

En el PISA 2003, 25 países subcontrataron parte del trabajo a agentes externos, mientras que otros 15 países se hicieron cargo de todo el trabajo en el centro nacional. La impresión e ingreso de datos fueron las tareas que con más frecuencia se otorgaron a agentes externos, seguido por la califi cación de respuestas y la traducción de los instrumentos. El costo de las tareas específi cas que hay que subcontratar a agentes externos debe tenerse en cuenta cuando se formule el presupuesto de costos.

Comité consultivo nacional

En un estudio internacional comparado de sistemas educativos generalmente es recomendable crear un comité consultivo nacional en cada país. Este comité debe estar constituido por personas que sean líderes en áreas pertinentes de la investigación, tales como investigación mediante encuestas y gestión de la educación. También debe incluir a representantes del ministerio de educación, otros ministerios, asociaciones de profesores y departamentos universitarios pertinentes.

El comité se debe reunir regularmente para ofrecer consejo sobre la implementación del proyecto y asegurar que estén representados los puntos de vista nacionales. Los costos de operación de este comité incluirán los gastos de viaje y dietas para los participantes, así como honorarios, en caso de que se requieran.

Reuniones internacionalesEn un estudio como el PISA, las reuniones internacionales de los

APN se realizan dos o tres veces al año. Estas reuniones se convocan con tres propósitos: (a) ofrecer un foro para que los representantes de los países revisen, comenten y ratifi quen los objetivos planteados por el centro


204


internacional del estudio relacionados con las preguntas, los instrumentos, los indicadores propuestos y los proyectos de informes con los resultados de la investigación; (b) ofrecer formación a los APN y al personal del centro nacional sobre procedimientos operacionales, así como sobre codifi cación e ingreso de datos; y (c) informar a los APN sobre los análisis de datos previstos y la preparación del informe a nivel internacional.

El presupuesto del proyecto debe incluir fondos para cubrir los costos de viaje y las dietas de los APN para que participen en las reuniones internacionales y también debe tener en cuenta que otros miembros del centro nacional podrían tener que asistir a algunas reuniones internacionales durante la realización del estudio cuando se ofrece formación específi ca; por ejemplo, para codifi car ítems abiertos o preguntas del cuestionario, análisis de datos, etc.

Recursos materiales Un nuevo proyecto supone espacio en una ofi cina, teléfono, artículos

de escritorio, computadoras y materiales asociados (papel, tinta, así como paquetes con aplicaciones para el trabajo de ofi cina y el tratamiento etadístico). En diferentes fases del proyecto surgirá la necesidad de capacidad adicional de almacenamiento y espacio de trabajo, especialmente durante la preparación de los instrumentos de recolección que hay que despachar a las escuelas, así como durante la fase de retorno y califi cación de las pruebas y cuestionarios.

Fases del trabajo y operaciones La mayoría de los estudios en gran escala sobre la calidad de la

educación comprenden cuatro fases principales: (a) elaboración de los instrumentos del estudio; (b) ensayo sobre el terreno; (c) estudio principal; y (d) análisis de datos y preparación del informe nacional.

Elaboración de los instrumentos del estudio

La primera fase del estudio incluye la defi nición de las preguntas de la investigación (que brindan las bases conceptuales de la evaluación) y el uso de estas preguntas ofrece un marco de referencia para el desarrollo de los instrumentos de evaluación. La defi nición de las preguntas de la investigación es la primera tarea de un APN y generalmente incluye debates de alto nivel con los directores de las divisiones en el ministerio, así como con reconocidos miembros del mundo académico. Sin esta fase, surgirían dudas sobre la pertinencia del estudio entre el personal responsable de la


205


toma de decisiones en el más alto nivel, lo que casi siempre asegura que los resultados no se utilizarán para fi nes políticos.

Si bien es normal tener grupos de expertos nombrados a nivel internacional trabajando en el marco de referencia conceptual del estudio y los instrumentos de evaluación, un verdadero estudio internacional comparado exige la maximización de las contribuciones de todos los países participantes en el debate del marco coceptual, la especifi cación de las preguntas de la investigación y la elaboración de los instrumentos de evaluación.

A nivel nacional, esto implica que los países tendrán que organizar reuniones con grupos representativos de especialistas en currículo, expertos en campos disciplinares y especialistas en elaboración de pruebas a fi n de abordar las tareas siguientes: (a) emprender, por un lado, un análisis de contenido del currículo del país (asumiendo aquí que el estudio busca medir lo que los estudiantes han aprendido) o, por otro, defi nir lo que se requiere para rendir satisfactoriamente en dominios determinados (por ejemplo, el proyecto del PISA buscaba medir hasta qué punto los estudiantes de 15 años de edad estaban “preparados para afrontar los retos de las sociedades actuales”); (b) construir ítems de pruebas para aportarlos al fondo internacional; y (c) revisar los ítems de las pruebas (y cuestionarios) proporcionados por el centro internacional, incluyendo los ítems preparados por los especialistas internacionales de pruebas y los suministrados por los países participantes.

El costo de estos grupos, incluyendo los costos de viaje y honorarios,variará en función de si los expertos son personal del ministerio o no (por ejemplo, profesores y especialistas en pruebas). Se podría necesitar incluir otros costos para traducir los ítems nacionales de las pruebas antes de someterlas al centro internacional.

Ensayo sobre el terreno

La segunda fase de un estudio internacional comparado es el ensayo sobre el terreno, que sirve para probar los instrumentos de recolección de datos y los procedimientos sobre el terreno. Ésta es una parte esencial de un buen estudio internacional comparado, porque es en esta fase en la que se identifi can y corrigen los problemas en relación con los instrumentos y procedimientos. Las principales tareas del ensayo sobre el terreno son: (a) traducir los instrumentos y los manuales de operación sobre el terreno; (b) seleccionar una muestra dirigida para el ensayo sobre el terreno, lograr


206


la cooperación de las escuelas, y seleccionar estudiantes o aulas dentro de las escuelas; (c) nombrar y formar a los coordinadores y administradores de las pruebas en las escuelas; (d) preparar, imprimir, empaquetar y transportar el material de evaluación; (e) programar y monitorear la recolección de datos; y (f) editar, califi car, ingresar y depurar los datos.

A continuación, los datos del ensayo sobre el terreno de todos los países participantes serán analizados en el centro internacional a fi n de suministrar a los países las frecuencias de las distribuciones, las estadísticas de los análisis de los ítems, así como las frecuencias e índices construidos basándose en los ítems del cuestionario.

En el ensayo sobre el terreno, en el que se muestrea un número limitado de escuelas y estudiantes, la mayoría de estas operaciones son menos complejas que en el estudio principal. La excepción aquí es la traducción de los instrumentos de recolección de datos, porque la mayor parte de este trabajo ocurre durante la preparación de los instrumentos para el ensayo sobre el terreno. El trabajo de traducción para el estudio principal se limita a adiciones, revisiones y mejoras hechas a los ítems del cuestionario de la prueba y los materiales para la recolección de datos.

■ Traducción de instrumentos y manuales

Los resultados de la investigación producidos por un estudio internacional comparado sobre la calidad de la educación deben basarse en traducciones válidas de todos los instrumentos de recolección de datos. Cualquier punto débil en el proceso de traducción introducirá sesgos que podrían distorsionar las comparaciones internacionales.

Por consiguiente, el proceso de traducción debe seguir procedimientos sistemáticos y rigurosos. El procedimiento de “traducción inversa” es el que se utiliza más frecuentemente para asegurar la equivalencia lingüística en los estudios internacionales. Esto exige la traducción de la versión fuente de la prueba (a menudo en lengua inglesa) hacia la lengua nacional, traduciendo ésta nuevamente a la lengua fuente y comparándola con el texto original para identifi car posibles discrepancias. Sin embargo, este procedimiento no evita errores debidos a una transferencia muy literal de la versión original, que no aparece en la traducción inversa del pasaje.

Un mejor procedimiento, que protege de traducciones excesivamente literales, es el de “doble traducción” empleado por el TIMSS-R. Éste requiere traducir la versión fuente dos veces por dos traductores independientes y luego conciliar las dos versiones en lengua nacional.


207


El proyecto PISA aplicó el procedimiento de “doble traducción” a dos idiomas diferentes, el inglés y el francés (para los que se efectuaron dos versiones equivalentes), para superar los límites de la traducción inversa y la doble traducción a partir de una sola lengua. Después que dos traductores independientes tradujeron los materiales fuente en la lengua de llegada, un tercer profesional concilió estas dos traducciones en una sola versión nacional.

Independientemente del procedimiento seguido, tiene que constituirse un equipo para el trabajo de traducción. Se necesitan dos traductores en el caso de la traducción inversa, y dos traductores y un conciliador en el caso de la doble traducción. Si el volumen del material es signifi cativo y cubre varias disciplinas (por ejemplo, matemática y ciencias), quizá sea necesario encomendar las tareas de traducción a equipos paralelos de traductores, quienes trabajarían independientemente para diferentes áreas disciplinarias.

Los traductores responsables de este trabajo deben tener un dominio perfecto de la lengua de partida y de llegada, un sólido manejo de las disciplinas cubiertas por la prueba (muy importante en el caso de matemática y ciencias) y un conocimiento profundo del sistema escolar del país, de modo que puedan trabajar en los cuestionarios para la escuela, el profesor y el estudiante.

■ Muestreo para el ensayo sobre el terreno

La muestra para el ensayo sobre el terreno se basa en una “muestra de conveniencia” de las escuelas escogidas en cada país. Si bien no se trata de una muestra probabilística, las escuelas se deben seleccionar de tal manera que incluyan una representación de las principales variables de estratifi cación, tales como: tipo de escuela, localización geográfi ca y nivel socioeconómico. La muestra dentro de la escuela para el ensayo sobre el terreno utiliza los mismos procedimientos que los del estudio principal (que se describen posteriormente en este artículo).

■ Nombramiento y formación de coordinadores y administradores de la prueba en las escuelas

Es necesario nombrar un coordinador de escuela en cada una de las escuelas seleccionadas, que sea responsable de coordinar todas las actividades relacionadas con el proyecto en la escuela. Estas actividades incluyen: la preparación de una lista completa de todos los estudiantes o aulas que reúnan las condiciones para la prueba, determinar la fecha y la


208


hora para la recolección de datos en coordinación con el APN y los administradores de la prueba, informar a todas las personas implicadas (personal de la escuela, estudiantes y padres de familia) y asegurar la autorización de los padres para la recolección de datos. Generalmente, los coordinadores son miembros del personal de la escuela; sin embargo, diferentes países tienen diversas políticas respecto al pago de los coordinadores escolares y estas políticas inciden sobre el costo de este componente del estudio.

El centro nacional tendrá que nombrar un equipo de administradores de pruebas para efectuar la evaluación en cada escuela seleccionada. Los administradores de las pruebas son responsables de la gestión equitativa, imparcial y uniforme de las pruebas, según los estándares y procedimientos internacionales especifi cados. Por consiguiente, deben estar familiarizados con las escuelas y su funcionamiento, así como con los procedimientos estandarizados de pruebas. Como en el caso de los coordinadores escolares, diferentes países tendrán diversas políticas en lo que se refi ere al pago de los administradores de las pruebas.

Los administradores de las pruebas pueden tener diferentes perfi les en distintos países. En algunos países son parte de la institución responsable del estudio (por ejemplo, inspectores escolares del ministerio o personal del centro nacional). En otros casos pueden venir del “exterior” (por ejemplo, personal externo contratado). Si los administradores de las pruebas son profesores de la escuela seleccionada, usualmente se requiere que ellos no sean los profesores de ninguno de los estudiantes en las asignaturas en que son sometidos a prueba. En algunos países, la misma persona puede desempeñar el papel de administrador de prueba y coordinador escolar.

Antes de iniciar la prueba en cada país, los centros nacionales deben formar a los administradores de la prueba. La formación debe incluir la presentación global de los objetivos y el diseño del estudio, así como un análisis concienzudo de los procedimientos para la administración de la prueba (tal como se presentan en el manual de administración de las pruebas), especialmente el tipo de escritura que debe utilizarse durante su administración.

Los costos de la formación de los administradores de la prueba incluyen los gastos de viaje (ya se trate de que los administradores de las pruebas vayan a los centros de formación o que el personal de la sede central vaya a los centros “descentralizados” de formación) y las dietas, cuando sea necesario.


209


■ Impresión, empaque y transporte del material de evaluación

Es necesario planifi car sufi ciente personal y tiempo para fi nalizar los instrumentos de recolección de datos antes de su impresión. El material “listo para la impresión” incluye las revisiones fi nales hechas a niveles internacional y nacional, y tienen la misma presentación que las versiones internacionales, en términos de composición y formato.

El APN debe garantizar que la seguridad de la prueba no se vea comprometida en el proceso de impresión, empaquetado y transporte del material de evaluación. Un descuido en esta fase podría afectar la validez de toda la recolección de datos. Los costos de impresión variarán dependiendo de si se subcontrata a una imprenta o si se hace en el centro nacional. Dado el tamaño relativamente pequeño de la muestra del ensayo sobre el terreno y la posibilidad de que haya que preparar múltiples cuadernillos de las pruebas y diversas versiones de los cuestionarios, sería más conveniente fotocopiar los instrumentos del ensayo sobre el terreno en lugar de contratar a una imprenta profesional.

Si hay que etiquetar los instrumentos con los códigos de identifi cación únicos de la escuela y los estudiantes, debe tenerse en cuenta el tiempo y el costo de esta operación (que generalmente se efectúa al mismo tiempo que el empaquetado). Debe disponerse de espacio sufi ciente para el empaquetado.

Cuando se escogen los medios de transporte (correo normal o mensajería) de los paquetes hacia las escuelas y de las escuelas hacia el centro nacional después de la evaluación, hay que tener en cuenta los costos, las limitaciones de tiempo y la confi abilidad.

■ Programación y monitoreo de la administración de la prueba

Los coordinadores escolares, en consulta con el centro nacional y los administradores de la prueba, deben establecer la fecha y la hora de su aplicación. Cada coordinador escolar debe informar inmediatamente al APN y al administrador de la prueba sobre cualquier cambio de fecha u hora.

Los APN deben monitorear la administración de la prueba de ensayo sobre el terreno. Esto se puede hacer disponiendo de monitores de calidad que visiten una submuestra de escuelas (basándose en la consigna de la “visita sorpresa”), a fi n de asegurar que los procedimientos sean plenamente respetados y obtener información sobre aspectos de la formación de los administradores de las pruebas que haya que mejorar. Todos los coordinadores


210


escolares y administradores de la prueba deben estar informados de que “podrían recibir una visita”.

El centro nacional debe organizar una sesión de formación de monitores de calidad, si no forman parte del personal del centro nacional. La formación debe incluir una visión de conjunto de los propósitos y el diseño del estudio, así como la presentación de los procedimientos de la administración de la prueba, a fi n de prepararlos a dirigir in situ un monitoreo de calidad en las escuelas y dar cuenta de su visita. El costo del monitoreo de calidad de la escuelas incluirá viaje y dietas, así como honorarios, en caso de que estas personas no formen parte del personal del centro nacional.

■ Califi cación de ítems abiertos

Las pruebas pueden contener diferentes formatos de ítems, incluyendo ítems cerrados (esto es, ítems con respuestas múltiples o con respuestas construidas cerradas) e ítems abiertos, que requieren que los estudiantes escriban una respuesta más o menos amplia.

Los materiales de evaluación que retornan de las escuelas al centro nacional pueden pasar directamente al ingreso de datos, si las pruebas han sido elaboradas conteniendo únicamente ítems cerrados. Sin embargo, las respuestas a ítems abiertos deben ser evaluadas y califi cadas (puntuadas) previamente. Ésta es una operación compleja y demanda mucho tiempo, se basa en reglas y criterios de califi cación detallados que deben incluir ejemplos de respuestas aceptables y no aceptables que no están listadas en las guías de calificación suministradas a los APN por el centro internacional del estudio. A fi n de asegurar que las respuestas de los estudiantes se califi quen uniformemente de un califi cador a otro (dentro y en todos los países) es necesario emplear procedimientos de “control de calidad”, aplicando califi caciones múltiples para submuestras de respuestas de los estudiantes en todos los países.

Los APN tendrán que reclutar sufi ciente personal para ejecutar la califi cación y la califi cación múltiple de los ítems abiertos. En algunos países, quizá se pueda recurrir a califi cadores experimentados de otros proyectos para que presten su apoyo. En otros, será necesario encontrar las personas adecuadas. Todos los califi cadores de las pruebas deberán seguir una formación previa, independientemente de que tengan una experiencia similar en otros proyectos.


211


Al reclutar califi cadores, será importante identifi car personas que puedan dedicar su tiempo al proyecto durante toda la califi cación. También es aconsejable reclutar califi cadores que tuvieran disponibilidad para el estudio principal. El número de califi cadores requerido dependerá del número de dominios evaluados, de las fechas límite para someter los datos y del diseño recomendado de califi cación, incluyendo la posible necesidad de califi caciones múltiples.

El diseño de la califi cación del ensayo sobre el terreno del programa PISA 2003 contó con la participación de ocho califi cadores, que califi caron en tres áreas, a saber, matemática, ciencias y resolución de problemas. Dado que la califi cación debía durar un período estimado de dos semanas, se recomendó que se formara al menos a dos califi cadores suplentes y se los incluyera en por lo menos alguna de las sesiones de califi cación. Dos de los califi cadores fueron nombrados líderes de equipo, teniendo como función asistir en la organización global de la califi cación, resolver preguntas sobre la guía de califi cación y monitorear la calidad de la califi cación. Los líderes debían estar muy familiarizados tanto con los ítems de las pruebas como con la guía de califi cación antes de la formación principal. No se requería que los califi cadores tuvieran califi caciones académicas de alto nivel, pero tenían que tener unos buenos conocimientos de matemática y ciencias del nivel escolar secundario, pues se trataba de la evaluación de estudiantes de 15 años de edad. También se esperaba que entendieran a los estudiantes de nivel secundario y la manera en que ellos se expresan. Se consideraba también como potenciales califi cadores a profesores de baja, profesores recientemente jubilados, estudiantes del último año de la carrera docente y estudiantes licenciados o graduados en matemática y ciencias.

Cuando se planifica el trabajo del equipo de calificación y el presupuesto de los costos de esta operación, es necesario tener en mente que los califi cadores deben trabajar no más de 6 horas diarias en califi cación efectiva, con algo de tiempo adicional para las pausas.

Los califi cadores seleccionados deben ser formados por el personal del centro nacional, quienes, a su vez, han recibido una formación previa en califi cación en un curso internacional. Como parte de la formación inicial, se debe solicitar a los califi cadores que respondan a todos los ítems de la prueba en el dominio o dominios que califi carán. Esto es muy importante porque posibilita que los califi cadores se familiaricen con el contenido de los instrumentos de recolección de datos y los ítems de la


212


prueba, y tengan una idea de los tipos de problemas que los estudiantes podrían tener al responder algunos de los ítems. También se debe exigir a los califi cadores que lean las guías de califi cación con anticipación a las sesiones y que participen en un taller de formación en califi cación.

■ Introducción y depuración de datos Generalmente, el centro internacional del estudio suministra las

aplicaciones informáticas para la introducción de datos. Éstas contienen estructuras de base de datos para todos los instrumentos de recolección de datos. El usuario puede modifi car estas estructuras de las bases de datos a fin de adaptarlas a la versión nacional de los instrumentos. Las aplicaciones generalmente efectúan verifi caciones de validación a medida que se introducen los datos. Un manual específi co de introducción de datos generalmente describe las funciones operacionales de las aplicaciones para la introducción de datos. Cuando se utiliza un paquete informático de entrada de datos, una persona con experiencia en la introducción de datos necesita varios días de formación a fi n de introducir los datos con los diferentes instrumentos.

Los costos de la introducción de datos dependen de la cantidad de datos y del tipo de instrumentos. En el caso de los instrumentos del programa PISA, una persona a cargo de la introducción de datos con cierto nivel de formación era capaz de introducir alrededor de 100-120 cuestionarios u 80-100 cuadernillos de pruebas (cuyas respuestas generalmente requieren más tiempo para su introducción) en una jornada de 4 horas de trabajo. Esto signifi ca que a fi n de introducir los datos para una muestra promedio del PISA de 5.500 estudiantes, se tuvo que planifi car alrededor de 110 días de trabajo, correspondientes a 3,6 personas trabajando 4 horas diarias durante 6 semanas. Sin embargo, sólo trabajando sobre la base de ensayo y error se llega a tener un buen equipo. Por consiguiente, es importante asignar a cada persona que introduce datos un “número de identifi cación” personal, a fi n de poder identifi car a quienes no introducen datos confi ables y reemplazarlos o, en algunos casos, pedirles que repitan la operación.

Será necesario nombrar un administrador de datos en el centro nacional o en la institución externa a fi n de que asuma la responsabilidad de las operaciones de introducción de datos. El administrador de datos deberá implementar también los procedimientos para monitorear la calidad de la introducción de los datos. Esto se puede hacer, por ejemplo, introduciendo dos veces una muestra de datos (por ejemplo, 5 %) y verifi cando el grado de inconsistencia.


213


En el programa PISA, fue necesario ejecutar los procedimientos de verifi cación incluidos en los paquetes de introducción de datos y corregir cualquier error detectado en los datos antes de someterlos al centro internacional. Posteriormente, se pidio a los APN que nombraran a un administrador de datos para que trabajara activamente con el centro internacional durante el proceso de depuración de datos. Las respuestas a los pedidos de información del centro de procesamiento debieron hacerse con muy poca demora, verifi cando los datos que planteaban problemas con las respuestas en los instrumentos originales en soporte papel y, en algunos casos, retornando a las escuelas.

El estudio principal

La tercera fase de un estudio internacional comparado sobre la calidad de la educación es la recolección de datos para el estudio principal. A nivel nacional, el estudio principal comprende las siguientes operaciones: (a) revisión de las operaciones sobre el terreno, basándose en la experiencia del ensayo sobre el terreno; (b) fi nalización de los instrumentos de evaluación, basándose en las estadísticas del ensayo sobre el terreno; (c) preparación del marco muestral y extracción de una muestra probabilística de las escuelas; (d) contacto con las escuelas elegidas y obtención de su participación; (e) nombramiento y formación de los coordinadores y administradores de pruebas en las escuelas; (f) selección de los estudiantes o aulas dentro de las escuelas; (g) impresión de los instrumentos, empaquetado y transporte del material de evaluación;

(h) programación y monitoreo de la recolección de datos; (i) califi cación de las preguntas abiertas; y (j) introducción y depuración de datos.

Muchas de las operaciones enumeradas previamente ocurren en períodos que se superponen y en la mayoría de los casos son más exigentes que en el ensayo sobre el terreno, debido al mayor tamaño de la muestra. Por esta razón, podría ser necesario aumentar el número de personas que trabajan en el centro nacional desde el inicio del estudio principal hasta el momento en que los datos nacionales se presentan al centro internacional, con un aumento correspondiente en el presupuesto asignado.

■ Revisión de las operaciones sobre el terreno

Algunas cosas podrían requerir ser revisadas desde un punto de vista organizativo, basándose en la experiencia del ensayo sobre el terreno. Esto


214


puede incluir actividades tales como la organización de una formación más amplia para los administradores de las pruebas y el aumento de los esfuerzos para obtener la participación de las escuelas y los estudiantes. Estas tareas adicionales se deberán analizar desde el punto de vista de sus implicaciones presupuestarias (costos).

■ Preparación del material para el estudio principal

La preparación del material de evaluación para el estudio principal es una operación delicada y que exige mucho tiempo. Los errores durante esta etapa de la investigación podrían arruinar toda la recolección de datos. Este trabajo incluye la revisión de la traducción de los ítems de la prueba y los cuestionarios aceptados del estudio principal basándose en: (a) los análisis estadísticos del ensayo sobre el terreno; (b) los cambios efectuados por el centro internacional; y (c) la preparación y composición de los instrumentos finales en un formato listo para su impresión. Independientemente de las revisiones que se hagan, el APN necesita asegurar que la composición de la versión nacional sea lo más parecida posible a la versión original.

En un estudio como el PISA, con múltiples campos y un riguroso mecanismo de verifi cación de la calidad de las traducciones, la preparación de la versión nacional de los instrumentos para el estudio principal requiere del trabajo a tiempo completo de un miembro experimentado del personal en el centro nacional durante cerca de tres meses. Además, quizá se requiera que varios expertos participen en diferentes etapas del proceso, aumentando así el número de personas y los costos correspondientes.

■ Preparación del muestreo

A menos que el APN tenga una formación avanzada y experiencia en el campo del muestreo (e incluso si el centro internacional aporta un apoyo directo), se recomienda que el muestreo se emprenda en consulta con un experto nacional en muestreo. Las tareas principales incluyen la preparación del marco muestral según el diseño de estratifi cación deseado, la preparación de toda la información muestral requerida por el centro internacional, la extracción de la muestra de escuelas y la preparación del informe sobre el muestreo.

■ Conseguir la cooperación de las escuelas seleccionadas

Los procedimientos para asegurar la cooperación de las escuelas variarán de un país a otro. En algunos países, la participación no es un problema. Se espera que todas las escuelas seleccionadas participen. En


215


otros países, es muy difícil lograr que las escuelas participen. Las razones de estas difi cultades varían desde preocupaciones sobre el exceso de pruebas y la pérdida de horas de clase hasta la carga que la recolección de datos pone sobre estudiantes y profesores. A fin de mejorar la cooperación, a los países que participaron en el proyecto PISA se les dieron las siguientes sugerencias: • Elaborar material de información. Este material debe abordar las

preocupaciones específi cas relativas al sistema educativo de un país. Si bien el material internacional ofrece información y ejemplos útiles, cada centro nacional necesita formular una estrategia para abordar necesidades y preocupaciones específi cas de su propio sistema.

• Formular una estrategia de notifi cación para las autoridades pertinentes. En muchos sistemas existe una jerarquía de autoridad establecida que debe ser contactada en un orden defi nido. Cartas, material de información, llamadas telefónicas y visitas personales son todos medios útiles para contactar a las autoridades adecuadas. Algunos de estos medios pueden ser más efi caces que otros con diferentes niveles de autoridad. Es importante formular un plan o estrategia que defi na cómo se harán los contactos y qué información se debe aportar a cada uno de los diferentes niveles.

• Asegurar la autorización. En algunos sistemas no es sufi ciente notifi car a las autoridades apropiadas. También se debe obtener el permiso o autorización. Esto puede incluir el permiso de un nivel gubernamental para contactar a otro, así como el permiso de un consejo de administración para contactar escuelas individualmente. Obtener autorizaciones puede demandar mucho tiempo. Es importante iniciar el proceso asegurando la cooperación con suficiente anticipación, de manera que se puedan obtener todas las autorizaciones necesarias.

• Decidir el uso de incentivos. Algunos estudios han ensayado una variedad de incentivos, incluyendo los siguientes: pagos en efectivo, material de formación, informes de estudios, certificados de reconocimiento, carteles y banderolas. Los APN deben decidir si en sus países se puede o se debe utilizar incentivos.

• Identifi car al coordinador escolar. Un aspecto importante para asegurar la cooperación de la escuela seleccionada es identifi car a alguien de la escuela que actuará como coordinador escolar. El coordinador escolar actúa como persona enlace entre la escuela y el proyecto y, por tanto, es una persona clave para asegurar que la


216


recolección de datos se efectúe en un entorno que respete las necesidades de todos los actores interesados.

• Compartir enfoques que funcionan. Compartir información sobre enfoques que funcionan es un aspecto importante de la participación en un estudio internacional. Se debe incentivar a los países para que presenten al centro internacional la información adicional que consideren pertinente. Cartas tipo, material de información y descripciones generales de enfoques exitosos serán de interés para el personal del centro internacional y otros APN, cuando se elaboran los planes para el estudio principal.

Los costos de la operación consistente en contactar a las escuelas y optimizar su participación en el estudio pueden variar signifi cativamente, dependiendo de los procedimientos seguidos. En general, es insufi ciente contactar a las escuelas mediante carta o fax. Será necesario una o varias llamadas telefónicas para presentar el proyecto al director de la escuela y contactar al coordinador escolar. Habrá que telefonear tantas veces como sea necesario a fi n de hablar con el director. En algunos casos, los contactos telefónicos necesarios para lograr la tasa de participación requerida pueden ser considerables.

■ Selección de los alumnos en las escuelas

Una vez que la escuela ha aceptado participar en el estudio, debe remitir una lista de las clases o los estudiantes que reúnen los requisitos dentro de la escuela. A continuación, se obtendrá una muestra de las clases o de los estudiantes dentro de la escuela, generalmente mediante una aplicación informática ad hoc. Sin embargo, a menos que las escuelas remitan listas informatizadas de los estudiantes, será necesario preparar formularios de localización de los estudiantes en los que se listan todos los estudiantes incluidos en la selección. La preparación de este formulario de localización de los estudiantes implicará mayor comunicación con la escuela (generalmente con el coordinador escolar), a fi n de obtener toda la información requerida. Se debe prestar particular atención a la identifi cación de aquellos estudiantes que puedan ser incluidos en la evaluación y los que no. En el Recuadro 2 se presentan los criterios utilizados en el proyecto PISA para excluir a los estudiantes de la evaluación debido a sus necesidades de “educación especial”.

El límite de exclusiones admitido dentro de las escuelas para el proyecto PISA se situó en 2,5 % de la población total matriculada de 15 años de edad. La tasa de exclusión a nivel de la escuela fue menos de


217


0,5 % de la población total matriculada de 15 años, si bien otro 2 % de los estudiantes podía ser excluido al eliminar escuelas que ofrecían instrucción sólo a estudiantes que se encontraban en una de las categorías de exclusión dentro de las escuelas listadas en el Recuadro 2. Por tanto, se requería que la población nacional defi nida cubriera 95 % o más de la población nacional deseada, con una tasa total de exclusión limitada a no más de 5 %.

■ Impresión, embalaje y transporte de los instrumentos de evaluación

Dada la cantidad de material que hay que imprimir para el estudio principal, a menudo la opción más conveniente es subcontratar esta operación a una imprenta profesional. Como en el caso de la prueba sobre el terreno, al formular planes para la impresión, empaque y transporte del material para el estudio principal, los APN deben tener en cuenta dos

Recuadro 2. Criterios del PISA 2003 para las exclusiones dentro de las escuelas

Estudiantes con necesidades de educación especial que no pueden ser evaluados

La intención del proyecto PISA es ser lo más inclusivo posible. No obstante, algunos estudiantes con limitado rendimiento en el idioma de la evaluación o quienes tienen una discapacidad severa física, mental o emocional podrían no estar en condiciones de participar. Los números de la izquierda son códigos que se deben introducir en la Columna 9 del Formulario de Localización de los Estudiantes para identifi car a los estudiantes con necesidades de educación especial, que no serán incluidos en el PISA debido a sus necesidades de educación especial.

0 = Incluido

1 = No incluido: discapacidad funcional. (El/la estudiante tiene una discapacidad física tal –desde moderada hasta severa– que no puede desempeñarse en una situación de prueba del PISA).

2 = No incluido: discapacidad intelectual. (El/la estudiante tiene una discapacidad mental o emocional, y está en desventaja cognitiva en un grado tal que no puede desempeñarse en una situación de prueba del PISA. Esto incluye a estudiantes que son emocional o mentalmente incapaces de seguir incluso las instrucciones generales de la evaluación).

3 = No incluido: desempeño lingüístico limitado. (El/la estudiante no es capaz de leer o hablar ninguna de las lenguas de la evaluación en el país y no sería capaz de superar la barrera lingüística en la situación de prueba).

4 = Otro. (Defi nido por el APN y verifi cado por el centro internacional).


218


cuestiones principales. La primera es la seguridad de los ítems de la prueba en todo momento. La segunda es que los instrumentos que están preetiquetados con los códigos de identifi cación de los estudiantes se asignen a los estudiantes correspondientes.

Podría haber diferentes maneras de imprimir el material y prepararlo para el transporte y la distribución, cada una con ventajas y desventajas en relación con el costo, el peso y la efi ciencia. Si el material de la evaluación incluye material cognitivo y cuestionarios, generalmente se recomienda enfáticamente que se impriman en cuadernillos separados, especialmente si el material cognitivo incluye ítems abiertos que requieren califi cación. Esto evitará una doble manipulación de los cuadernillos y subsecuentes retrasos durante la introducción de datos (pues se pueden introducir los datos de los cuestionarios mientras se califi ca el material cognitivo).

Si el material y los cuestionarios se imprimen juntos, existe la posibilidad de que los estudiantes vuelvan al material de la prueba durante la sesión destinada al cuestionario. Para evitar esta posibilidad, es necesario contar con un medio para sellar el cuadernillo al fi nal de la sesión de la prueba cognitiva. Si esto no es posible, se debe agregar una instrucción específi ca en el manual de administración de la prueba: el administrador de la prueba debe vigilar que los estudiantes no retornen a la sección cognitiva del cuadernillo durante la sesión del cuestionario.

Si el material de carácter cognitivo y los cuestionarios se imprimen separadamente, es necesario asegurar que los estudiantes reciban los cuadernillos con la identifi cación adecuada, de modo que éstos puedan ser adjuntados a los cuestionarios correspondientes sin que se produzcan errores durante la introducción de los datos. Si el cuestionario se administra en una sesión separada, los cuadernillos de las pruebas y el cuestionario se deben imprimir separadamente para proteger la seguridad de los ítems de las pruebas.

Otra decisión que deben tomar los APN es cómo empaquetar el material de la evaluación para proteger la seguridad de los ítems de las pruebas. Para lograr una mejor protección, los cuadernillos de la prueba para una escuela podrían empacarse en un fardo seguro, sellado con un plástico o de alguna otra forma de empaquetado. Si el paquete es transparente y no se ha atado con fuerza, los administradores de la prueba podrán verificar fácil y anticipadamente si el número correcto de cuadernillos está en el paquete, sin abrirlo. De manera similar, los


219


cuadernillos podrían estar sellados en sobres, uno para cada estudiante de la evaluación.

Los tres escenarios que se describen a continuación fueron considerados aceptables para el empaquetado y transporte de los materiales de la evaluación del PISA 2003, que incluía un cuestionario para el estudiante y trece cuadernillos de pruebas asignados a los estudiantes según un diseño rotatorio.

• El país A transportó todo el material de la evaluación a las escuelas y utilizó al personal de la escuela (que no eran profesores de los estudiantes evaluados) para efectuar las sesiones de administración de las pruebas. El centro nacional imprimió separadamente los cuadernillos de las pruebas y el cuestionario para los estudiantes. El centro nacional asignó el material a los estudiantes antes de empaquetarlo para ser transportado a las escuelas. Se asignó a cada estudiante listado en el formulario de localización de los estudiantes un cuadernillo de prueba y un cuestionario, se etiquetaron y sellaron en sobres también con los nombres y los códigos de identifi cación de los estudiantes.

• El país B también transportó directamente los materiales a las escuelas, pero utilizó a los administradores de las pruebas empleados por el centro nacional. Debido a preocupaciones sobre cuándo se realizaría la administración de los cuestionarios, el país B imprimió y transportó los cuadernillos de las pruebas y los cuestionarios en fardos separados. En el formulario de localización de los estudiantes se preregistró el orden de los cuadernillos en cada fardo. Para proteger la confi dencialidad de los estudiantes después que se hubiera concluido la evaluación, el país B suministró sobres etiquetados con el nombre y el número de identifi cación de los estudiantes para que guardaran sus cuadernillos y los sellaran una vez concluida la evaluación.

• El país C utilizó a los administradores empleados por el centro nacional y envió los materiales a estos administradores de las pruebas. Dado que el cuestionario para el estudiante fue administrado durante la misma sesión que la prueba de ítems, el país C imprimió todo en un solo cuadernillo.

Los fardos para el número requerido de cuadernilllos fueron sellados en plástico, de modo que el número de cuadernillos se pudiera verifi car sin tener que abrir los paquetes. Los administradores de las pruebas abrieron los fardos asignados a la escuela justo antes del inicio de la sesión y etiquetaron los cuadernillos con el nombre y el código de identifi cación de


220


los estudiantes a partir del formulario de localización de los estudiantes, de conformidad con la asignación de cuadernillos preregistrados en el formulario de localización elaborado por el personal del centro nacional.

Los procedimientos para la recepción del material reenviado al centro nacional varía de un país a otro pero, en general, se recomienda que se prepare una base de datos de las escuelas y se actualice regularmente para monitorear el transporte y la recepción del material destinado a y recibido desde las escuelas, así como el nivel de avance en las diversas fases del procesamiento en el centro nacional. Esta etapa podría requerir nuevamente contactos telefónicos con las escuelas a fi n de asegurar que todo el material esté completo y retorne oportunamente.

■ Califi cación de las preguntas abiertas La selección y la formación de los califi cadores del estudio principal

no difi ere de la del ensayo sobre el terreno. Sin embargo, se necesitarán más califi cadores para el estudio principal que para el ensayo sobre el terreno y esto puede plantear problemas, ya que puede ser difícil encontrar sufi cientes califi cadores que reúnan los criterios necesarios y estén disponibles en el plazo establecido. Una solución posible es reclutar estudiantes graduados o que cursan la licenciatura –en lugar de profesores– y organizar el trabajo de califi cación de manera que diferentes subgrupos puedan escoger diferentes horarios que se ajusten mejor a su disponibilidad.

En el caso del PISA 2003, se recomendó un diseño de califi cación que incluía 24 califi cadores, 16 para las áreas de matemática, ciencias y resolución de problemas, más 8 para lectura, tomando en consideración que se necesitaban por lo menos 4 califi cadores para cada área. Dado que la califi cación debía efectuarse durante un período estimado en 6 semanas, se recomendó que se formara a por los menos 4 califi cadores suplentes y se los incluyera en algunas de las sesiones de califi cación.

A fi n de limitar los costos de la califi cación, sería deseable establecer pagos basados en la conclusión del trabajo en un período determinado, en vez de hacerlo por día o por hora. Este enfoque permite al APN presupuestar un monto preciso de dinero e impide que el costo por la califi cación aumente inesperadamente si es necesario volver a califi car algunas de las respuestas ya califi cadas. La recalifi cación puede ser necesaria, si los líderes de los equipos encuentran errores sistemáticos en el trabajo de uno o más califi cadores.


221


■ Introducción y depuración de datos en el estudio principal Los requisitos y factores generales del costo de la introducción y

depuración de datos son los mismos que los descritos en la sección correspondiente al ensayo sobre el terreno. Sin embargo, también se deben considerar las implicaciones organizativas y de costos para los datos del estudio principal.

Como en el ensayo sobre el terreno, tras someter los datos del estudio principal, los APN deben nombrar un administrador de datos que responderá rápidamente a los requerimientos de información del centro internacional a fi n de evitar problemas. Este proceso puede durar entre uno y tres meses, dependiendo de la calidad de los datos presentados y de la organización del trabajo en el centro internacional. Esta fase de la depuración de los datos puede demandar mucho tiempo, pues supone resolver tantas inconsistencias como sea posible, a fi n de evitar la pérdida de datos.

Análisis de datos y preparación del informe

Una vez que se han depurado los datos, los centros internacional y nacional calcularán las ponderaciones muestrales, de manera que los datos recolectados en la muestra se puedan utilizar para estimar los parámetros de la población con un grado de incertidumbre, expresados mediante la estimación de los errores estándar.

Luego se analizan los datos con el propósito de preparar los informes internacional y nacional. Si las preguntas de la investigación han sido claramente especifi cadas desde comienzos del estudio, el centro nacional habrá preparado sus tablas fi cticias y planifi cado sus análisis de datos.

En esta fase, los costos incluirán la cobertura del puesto de un analista de datos competente. El APN participa generalmente en la redacción del borrador del informe nacional, con la cooperación de otros miembros o expertos del proyecto, y en comunicación con el comité nacional.

Lecciones aprendidas Esta sección del artículo presenta un análisis de algunas de las

“lecciones capitalizadas” de la participación de Italia en el estudio internacional comparado sobre la calidad de la educación del PISA.


222


Comunicación

Una de las claves del éxito de un estudio es que deben establecerse y mantenerse buenas y efi caces relaciones de comunicación a lo largo de todo el estudio entre el ministerio de educación, el personal y la dirección del centro nacional, que tiene la responsabilidad científi ca y técnica de la ejecución.

Esto asegurará una buena atmósfera de trabajo y mejorará la probabilidad de que los resultados se utilicen plena y correctamente. La falta de comunicación a menudo impide que se adopten decisiones clave conjuntamente, perjudicando la difusión y explotación de los resultados.

Es importante seleccionar cuidadosamente a la persona del ministerio que actuará como punto de referencia “político” del proyecto. Esta debe ser una persona convencida de la utilidad del estudio, tener cierto conocimiento y experiencia en el campo de la evaluación y sentirse comprometida con el éxito del estudio y la difusión de los resultados.

Muestreo

Si bien el centro internacional aporta la defi nición de la población objetivo y las especifi caciones del diseño muestral (incluyendo los estándares requeridos para la tasas exactas de exclusión y las tasas de respuesta), cada país tiene que definir su propio diseño de estratifi cación.

En Italia, el diseño de la estratifi cación en el PISA 2003 se tornó más bien complejo debido a la decisión de 6 de las 20 regiones de participar con muestras que eran lo suficientemente grandes como para suministrar estimaciones reigonales estables. Por tanto, el diseño de estratifi cación italiano tuvo que emplear “sobremuestreo” en 6 regiones y, al mismo tiempo, prestar debida atención a otras variables de estratifi cación dentro de las regiones: tipo de programa (académico, profesional y técnico) y tipo de escuela (publica-privada). Estas complejidades demandaron una extensa negociación y clarifi cación entre el centro nacional y el centro internacional a fi n de encontrar un diseño de estratifi cación aceptable.

Traducción de los instrumentos

La traduccion y adaptación de los instrumentos requiere un conocimento detallado de las áreas de evaluación y el sistema educativo. Además, se necesita sufi ciente tiempo para verifi car los materiales. El centro nacional italiano invirtió una gran cantidad de tiempo y esfuerzo


223


en la fi nalización de la traducción del proyecto PISA y, por tanto, sólo tuvo problemas menores, señalados por la agencia internacional responsable de la verifi cación de la traducción.

Contacto con las escuelas

A fi n de estimular a las escuelas italianas a participar en el PISA 2003, se envió una carta fi rmada por un funcionario de alto nivel del ministerio y el director del instituto nacional de evaluación donde se estableció el centro nacional del PISA.

Para el proyecto PISA 2003, la muestra italiana consistió en 500 escuelas. Por consiguiente, fue necesario nombrar un número sufi ciente de personas para contactarlas telefónicamente Se requirieron varias llamadas telefónicas para asegurar la participación de cada escuela. Todos los “casos difíciles” fueron notifi cados al APN, quien contactó directamente al director de la escuela para explicarle la importancia de la investigación, logrando así ganar el apoyo del director. En algunos casos las escuelas aceptaron participar a condición de que el centro nacional suministrara al administrador de la prueba (mientras que, en general, el papel de coordinador escolar y de administrador de la prueba se asignaba a profesores de la escuela).

Las escuelas muestreadas en Italia recibieron la garantía de que recibirían retroalimentación una vez publicado el informe internacional. Esta retroalimentación incluía los resultados de la escuela comparados con los de otras escuelas similares.

Formación de los administradores de las pruebas

Es muy importante que los administradores de las pruebas estén bien formados. En Italia, era una condición necesaria para cobrar por el trabajo. A pesar de esta formación, algunos de esos administradores experimentaron difi cultades durante la evaluación (si nos basamos en el informe de la calidad de los monitores escolares remitido por el centro internacional) debido a insufi ciencias en el dominio de los procedimientos requeridos.

Tasas de respuesta de los estudiantes

A fi n de asegurar que se lograran las tasas de respuesta de estudiantes requerida para la participacion de Italia en el PISA, se sugirió tener sesiones de seguimiento, si más del 15% de los estudiantes de una escuela estaba ausente.


224


En Italia, muchos estudiantes estaban en huelga (debido a la guerra en Irak) durante la administración de la prueba. Por tanto, fue necesario pedir a los coordinadores escolares que hicieran un seguimiento de los estudiantes ausentes, incluso si aunque sólo el 10 % de los estudiantes (por ejemplo, 3 estudiantes de un grupo de 35) estuviera ausente. Esto supuso nuevamente llamar a un número amplio de escuelas tras haber recibido los primeros paquetes de retorno. Los gastos en llamadas telefónicas antes, durante y después de la administración de las pruebas es uno de los costos ocultos de este tipo de pruebas.

Áreas de “alto riesgo”

Es importante que sufi ciente personal competente –entre los que participaron en el estudio principal– esté disponible tras su fi nalización, a fin de enfrentar posibles problemas que surjan en las tres etapas relacionadas con la depuración y la ponderación de los datos, y la confi abilidad en la califi cación de los estudios. El centro internacional podría pedir información o documentación adicional para ser capaz de confi rmar la calidad de los datos recolectados y, en casos extremos, podría pedir al centro nacional que rehiciera ciertas operaciones, como la califi cación de ítems abiertos, si no fuesen fi ables.

Muestreo

Muchas cosas pueden ir mal con el muestreo. La calidad de la muestra depende, entre otras acosas, de la precisión del marco muestral. Si, por ejemplo, el número de estudiantes matriculado en la población objetivo de la escuela no está disponible, se deben utilizar sustitutos [proxies]. En el caso de Italia, por ejemplo, el número de estudiantes en el grado modal (a partir de esta lista) se utilizó en el PISA 2003 como una estimación aproximada del número de personas matriculadas de 15 años de edad. El ajuste de las ponderaciones se puede utilizar para compensar la falta de precisión del marco muestral.

■ Administración de la prueba

Si los administradores de las pruebas no dominan los procedimientos requeridos, no los respetan o no están comprometidos con su trabajo, todo ello se puede refl ejar negativamente en la calidad de los datos recolectados. Un área de gran preocupación aquí es asegurar que la recolección de los datos se haga exactamente como está especifi cada en los manuales para el trabajo sobre el terreno.


225


En Italia, los monitores de control de calidad registraron un número mínimo de desviaciones cuando visitaron cerca del 10 % de las escuelas seleccionadas. En particular, algunos administradores de pruebas hicieron algunos agregados o supresiones menores en el “guión”. Además, un monitor de control de calidad observó que algunos administradores de pruebas se sentían inseguros al aplicar los procedimientos. Sin embargo, no se observó una desviación importante que pudiera haber invalidado la administración de la prueba en una escuela.

Conclusión Los principales estudios internacionales comparados sobre la calidad

de la educación organizados por la IEA y la OCDE, están coordinados por profesionales de alto nivel cuyas tareas incluyen la entrega de manuales de procedimientos, documentos explicativos y programas de formación que hacen relativamente “fácil” la ejecución de la investigación por parte de los centros nacionales.

Sin embargo, es necesario hacer hincapié en que esos estudios nacionales complejos no se pueden realizar exitosamente a menos que los centros nacionales participen plenamente, tanto en el diseño de los procedimientos logísticos como en su mejora gracias a una participación activa en todos los aspectos de la planifi cación de la investigación, la aplicación de las pruebas sobre el terreno, y en la gestión e implementación del estudio principal.

Por consiguiente, es muy importante que los centros nacionales, y los APN en particular, participen genuinamente en todos los aspectos de la investigación. Ellos no deben sentirse como simples “ejecutantes” de un trabajo a fi n de recolectar datos para el centro internacional. La participación activa de los APN mejora la investigación y contribuye al desarrollo profesional de los APN en la medida en que “aprenden haciendo” los aspectos conceptuales y técnicos del estudio.

Bibliografía Adams, R.; M. Wu. 2002. PISA technical report, Paris: OECD.


PARTE III Administrar el impacto de los estudios

internacionales comparados sobre la calidad de la educación


229

Capítulo 10

¿Cómo pueden pasar los países de los resultados de la investigación

internacional comparada a la difusión y, después, a la reforma política?

(Los estudios de caso de Kenya y Namibia) Juliana Nzomo y Demus Makuwa

Introducción Los gobiernos de Kenya y Namibia ortorgaron gran importancia a las declaraciones de la Conferencia Mundial sobre Educación de Jomtien en 1990 y el Foro Mundial sobre Educación de Dakar en 2000. Estas declaraciones hacían hincapié en la necesidad de lograr la “Educación para Todos” en 2015 mediante el aumento de la participación en la educación y la necesidad de que todos los países se esforzaran en “[...] mejorar todos los aspectos cualitativos de la educación, garantizando los parámetros más elevados, para conseguir resultados de aprendizaje reconocidos y mensurables [...].” (UNESCO, 2000).

Los gobiernos de ambos países respondieron, en parte, a estas declaraciones decidiendo convertirse en miembros activos del Consorcio del África Meridional Oriental para el Monitoreo de la Calidad de la Educación (SACMEQ, por sus siglas en inglés). La red del SACMEQ, constituida por 15 ministerios de educación, se dedica al desarrollo de capacidades de investigadores y planifi cadores de la educación para monitorear y evaluar la calidad de sus propios sistemas de educación básica.

La calidad de los indicadores generados mediante los estudios del SACMEQ complementaron las estadísticas anuales recolectadas por los ministerios de educación en ambos países. Kenya implementó los proyectos SACMEQ I y II en 1998 y 2000, respectivamente, mientras que Namibia lo hizo en 1995 y 2000, respectivamente. En el SACMEQ I, se sometió a prueba el rendimiento en lectura de los alumnos del 6º grado y en el SACMEQ II, lectura y matemática, tanto para los alumnos como para los profesores. En ambos proyectos SACMEQ, también se recolectó información mediante la


230


administración de cuestionarios aplicados a los alumnos, sus profesores y los directores de las escuelas.

Namibia y Kenya participaron en los dos proyectos del SACMEQ a fi n de medir las condiciones de la escolarización y la calidad de la educación en términos de puntos de referencia de insumos para la educación, el rendimiento educativo de los estudiantes y una gama de cuestiones relacionadas con la equidad, tales como origen social, localización de la escuela y género.

También deseaban algunas medidas de las condiciones de escolarización y de la calidad de la educación primaria en comparación con otros países vecinos, así como evaluar la magnitud de los cambios ocurridos entre 1995 y 2000.

¿Qué resultados de la investigación encontraron importantes o controvertibles los ministerios de educación?

Desigualdades en la oferta

En Kenya y Namibia, los resultados de los dos estudios mostraron importantes desigualdades regionales en la oferta de materiales, disponibilidad y calidad de los recursos y las instalaciones de las aulas, niveles de absentismo, repitición de año, así como participación de los padres en la educación de sus hijos y la gestión de la escuela.

En Namibia, las grandes desigualdades entre regiones provocaron muchas controversias. Las desigualdades parecían ser coherentes con las pautas raciales y étnicas creadas bajo el sistema del “apartheid” (segregación racial). También se notaron diferencias entre grupos socioeconómicos y entre comunidades urbanas y rurales. Mientras que el Gobierno de Namibia había mostrado un gran compromiso con la educación, asignándole un promedio anual del gasto de 9 % del PIB, algunos actores sostenían que el gobierno no había hecho lo sufi ciente para remediar las desigualdades del pasado colonial. Otros cuestionaban los contenidos de las “reformas” poscoloniales de la educación, especialmente las relativas a la promocion automática, la educación centrada en el educando, la evaluación continua basada en la competencia, y la introducción del inglés como lengua de instrucción en las escuelas. Existía una preocupación muy extendida de que el gobierno no había preparado adecuadamente a los profesores para estos cambios.


231

¿Cómo pueden pasar los países de los resultados de la investigación internacional comparada a la difusión y, después, a la reforma de política?

Género de los profesores

En Kenya, el hecho de que los resultados del SACMEQ sobre igualdad de género fueran coherentes con las estadísticas anuales del propio Ministerio de Educación, ofreció cierto nivel de confi anza y aceptación de los resultados. Sin embargo, éstos generaron gran preocupación respecto a la persistente baja tasa de representación de las mujeres en la educación en la Provincia Nororiental [North Eastern Province]. También se observó que el porcentaje de las profesoras de lectura en la Provincia Nororiental era de sólo 28 % en 1998 y 33 % en 2000. Peor aún, sólo el 11 % de los profesores de matemática eran mujeres.

Si bien la baja matrícula de las niñas en esta provincia se podría explicar en alguna medida por factores culturales, la baja representación de las profesoras en el 6º grado se consideró como un factor que contribuía a los bajos niveles de participación de las niñas.

La situación era diferente en Namibia, donde alrededor de 60 % del personal docente de 6º grado eran profesoras en 1995 y llegaba a cerca de 50 % del conjunto del personal docente en 2000. En la región de Kavango, hubo un considerable aumento en la representación de las profesoras: pasó de 5 % en 1995 a cerca de 38 % en 2000. A nivel nacional, los niños y las niñas enseñados por maestras obtenían puntajes de rendimiento promedio más altos que los de los profesores.

Absentismo

En Kenya, los resultados de los dos estudios indicaron que los alumnos estaban ausentes un promedio de dos días al mes. En Namibia, el promedio nacional era de 1,5 días por mes, con una considerable variación entre las regiones. En un año, estas cifras representan un número importante de “días perdidos” y esto suscitó una gran preocupación entre los responsables políticos en ambos países. El porcentaje de alumnos ausentes debido a enfermedad y no pago de la matrícula era signifi cativo y desencadenó un debate en ambos países.

En la provincia Nororiental de Kenya, el porcentaje de niños que se había ausentado debido a enfermedad se situaba entre 25 y 51 %, y en la provincia Costera se situaba entre 18 y 37 %. En Namibia, el número de alumnos ausentes por enfermedad variaba entre 26 % en Caprivi a cerca de 36 % en Oshikoto y otras regiones septentrionales.


232


Si bien en Kenya los hallazgos sobre las instalaciones de servicios higiénicos no fueron tomados en consideración seriamente por los funcionarios, más tarde se observó que la falta o inadecuación de estas instalaciones contribuían al absentismo de las niñas en los grados más avanzados de la educación primaria. Las áreas más afectadas eran la provincia Nororiental, donde, en promedio, 92 niñas compartían un servicio higiénico, y las provincias de la Costa, Nyanza y Nairobi, donde, en promedio, de 60 a 70 alumnos compartían un servicio higiénico.

Repetición de grado

El tema de la repetición de grado fue particularmente controvertido en Namibia y Kenya debido a que en los dos países las políticas ofi ciales estimulaban la promoción automática en la educación primaria.

La provincia de Nairobi (Kenya), tenía el porcentaje más bajo de alumnos repitentes en el 6º grado (3 %), mientras que las provincias del Oeste y Rift Valley tenían cifras superiores a 15 %. En Namibia, los resultados del SACMEQ II mostraron que 54 % de los alumnos del 6º grado había repetido. Esto representaba sólo una ligera disminución en relación con 1995, año en que el porcentaje llegó a 59 %.

Clases particulares

Los resultados del SACMEQ respecto a la oferta de clases particulares a los alumnos fuera de las horas escolares fue otra área de controversia, especialmente en Kenya, donde la política educacional no permite que los profesores participen en “clases particulares”. Se han dirigido numerosas circulares a las escuelas recordando a los profesores que no se debe practicar la “enseñanza particular” y dando orientaciones sobre enseñanza remedial para los “educandos lentos”. A pesar de ello, los resultados indican que la proporción de estudiantes del 6º grado que recibía clases particulares había aumentado de 70% en 1998 a 90% en 2000. Los resultados también indicaban que más del 50% de los alumnos pagaba por clases particulares y en Nairobi se registraba el porcentaje más alto: cerca del 75% de los estudiantes.

Relaciones entre recursos y niveles de rendimiento

Los hallazgos de las investigaciones SACMEQ I y II indicaban defi ciencias en la provisión de textos escolares y carencia de útiles escolares básicos, con notables variaciones entre las provincias. Las provincias del Oeste y del Nororiente de Kenya tenían el más bajo porcentaje de alumnos que poseían textos escolares para lectura y


233


matemática. En estas provincias, los alumnos también carecían de libros de ejercicios, cuadernos y lápices. Esta carencia de recursos se refl ejó en los niveles de lectura de los alumnos, pues estas dos provincias se clasifi caron en los puestos más bajos, mientras que Nairobi, con el más alto nivel de recursos, se clasifi có en el nivel más alto. Una tendencia similar se observó en Namibia.

Focalización en los resultados de los exámenes

El rendimiento de los estudiantes de 6º grado en Kenya en las pruebas de lectura y matemática del SACMEQ no era coherente con los resultados del examen nacional en el nivel superior de la educación primaria. Estas discrepancias generaron un amplio debate entre los educadores keniatas en relacion con los “estándares” de rendimiento, que se suponía debía establecer el sistema de exámenes de Kenya. Era sorprendente observar que alumnos del 6º grado en algunos distritos con rendimiento alto en los exámenes leyeran con difi cultad. Los debates con los profesores en esas escuelas a menudo concluían en una afi rmacion optimista, en el sentido de que no había por qué alarmarse en relación con ese nivel porque “[...] tenemos sufi ciente tiempo para trabajar con ellos antes de los exámenes nacionales”. Si bien esta explicación merece mayor análisis, es evidente que los resultados de la investigación del SACMEQ indicaban que “no todo andaba bien” en algunas escuelas keniatas.

Lanzamiento de nuevos programas como respuesta a los resultados del SACMEQ

En Namibia, los problemas destacados en el proyecto SACMEQ I y el debate que siguió llevaron a la realización de algunas intervenciones (tales como el English Language Teacher Development Programme –ELTDP– [Programa de Perfeccionamiento de Profesores de Inglés], la expansión del Basic Education Teachers’ Diploma –BETD– [Diploma de Profesor de Educación Básica], la introducción del Effi ciency Programme [Programa de Efi ciencia], el Management Policy Co-ordinating Committee –MPCC– [Comité de Coordinación de la Política de Gestión]) y también estimuló a que el gobierno creara la Presidential Commission of Inquiry on Education and Training [Comisión Presidencial de Investigación sobre Educación y Formación].

Consultas adicionales dentro del ministerio y con los actores interesados concluyeron con la producción de un plan estratégico de cinco años (2001-2006) del Ministry of Basic Education, Sport and Culture


234


–MBSEC– [Ministerio de Educación Básica, Deportes y Cultura]. Los fi nes y objetivos del plan derivaron de una combinación de los resultados del SACMEQ I, de las estadísticas anuales del Sistema de Información de Gestión de la Educación (SIGE), de debates nacionales y de los resultados de la Comisión Presidencial de Investigación sobre Educación y Formación.

A partir de los resultados del proyecto SACMEQ II en Namibia, se pudo ver que incluso si hubiera habido importantes mejoras en la asignación de los recursos a las escuelas, entre 1995 y 2000 habría habido desigualdades entre las regiones en relación con los insumos asignados a las escuelas y el rendimiento de los educandos. Esto generó preocupación sobre el hecho de que incluso si se tuviera cierto éxito en ofrecer “acceso formal” a la educación (más escuelas y aulas, más profesores y más recursos), la cuestión clave, a saber, el “acceso a la misma calidad de educación”, seguiría siendo un problema.

Niveles de rendimiento de estudiantes y profesores

A partir de los resultados de la investigación del SACMEQ, en Namibia se percibe una disminución del porcentaje de estudiantes del 6º grado que logran niveles altos de rendimiento en alfabetización.

En Namibia, la situación era peor en matemática, debido al bajo rendimiento de estudiantes y profesores del 6º grado. En esta asignatura, alrededor del 77 % de los estudiantes del 6º grado tenía un nivel de rendimiento que no permitía afi rmar que hubieran adquirido competencias en aritmética básica. En siete regiones (Caprivi, Kavango, Ohangwena, Omaheke, Omusati, Oshikoto y Oshana), el porcentaje de estudiantes del 6º grado en esta condición se situaba entre 80 y 90 %.

En comparación con los otros trece países que participaron en el estudio, los educandos de 6º grado de Namibia eran los que tenían el más bajo rendimiento en matemática. Si bien el puntaje promedio de los profesores de Namibia en la prueba de matemática fue bastante bueno, sólo el 20 % en cuatro de las siete regiones mencionadas anteriormente lograron el más alto nivel de competencia. Estos resultados no sólo fueron chocantes para el gobierno y el público, sino que se convirtieron en objeto de controversia en el Ministerio de Educación, provocando críticas contra los profesores, el currículo, los administradores escolares, los profesores consejeros, los inspectores escolares y otras autoridades educativas.


235


Se encontró que en las regiones de Namibia en las que la mayoría de los estudiantes del 6º grado tenían un bajo nivel de alfabetización y aritmética básica, el nivel académico más alto de cerca del 30 % de los profesores era la educación primaria. La mayoría de los profesores no habían sido formados para enseñar matemática o inglés, y su propio nivel de competencia en estas asignaturas era bajo. Estos resultados fueron, efectivamente, una sorpresa, habida cuenta de las acciones que se habían realizado entre 1990 y 2000, tales como la formacion de los nuevos profesores y el reciclamiento de los antiguos.

Estrategias de difusión de la investigación utilizadas por los ministerios de educación

Kenya

Tras la reunión de la Asamblea de Ministros en París en octubre de 1999, el ministro de educación de Kenya convocó el primer foro de difusión de los resultados de la investigación del SACMEQ I, destinado a responsables de alto nivel de la gestión y la formulación de política en diciembre de 2000. Producto de esta reunión fue la creación de un equipo de representantes de diferentes direcciones del ministerios (incluyendo planifi cación, formación del personal docente, inspección y desarrollo curricular). La difusión de los resultados de la investigación del SACMEQ prosiguió a nivel regional, como parte de una serie de reuniones consultivas sobre Educación para Todos (EPT) realizadas en cada provincia de Kenya en 2001. En todas estas reuniones se difudieron y debatieron los hallazgos del SACMEQ I. Estos intercambios brindaron útiles sugerencias sobre cuestiones de calidad que era necesario abordar en el marco de la EPT. Poco después de estas dos actividades de difusión, los hallazgos de la investigación del SACMEQ I se presentaron a la Comisión Presidencial de Investigación sobre Educación y Formación en Kenya.

En 2002, la unidad de Análisis Sectorial de la Educación en Kenya [Education Sector Analysis for Kenya] del Banco Mundial hizo un amplio uso de los hallazgos del proyecto SACMEQ I para la formulación de propuestas destinadas a abordar las defi ciencias del sistema educativo de Kenya. El Análisis del sector de la educación [Education Sector Review] condujo a la elaboración del Plan estratégico del sector de la educación [Education Sector Strategic Plan], que se publicó con el apoyo del Banco Mundial. Los hallazgos de la investigación del SACMEQ se utilizaron adicionalmente en la planifi cación fi nanciera, cuando el Ministerio de Educación elaboró el Análisis del gasto público [Public Expenditure Review]


236


y el Marco de referencia para el gasto a plazo medio [Medium Term Expenditure Framework].

Los resultados de la investigación del SACMEQ también se compartieron a niveles de decisión más bajos del sistema educativo. Por ejemplo, en enero de 2001, la ofi cina de la UNESCO en Nairobi organizó un foro para directores provinciales de educación en Mombasa para debatir los problemas de educación en las provincias. Se discutieron los hallazgos del SACMEQ y se llegó a la conclusión unánime de que era útil conocer el rendimiento de los estudiantes en sus provincias en comparación con las otras. También se realizaron otras actividades: (a) una reunión de funcionarios de nivel distrital en Nakuru en 2003, a la que se invitó a un miembro del equipo de investigación del SACMEQ para que hiciera una presentación: “El uso de indicadores de la educación para la formulación de política”; (b) una presentación del equipo de investigación del SACMEQ sobre “Efi ciencia interna y calidad de la educación”, en la Primera Conferencia Nacional de Educación, celebrada en Naibori en noviembre de 2003.

Namibia

En Namibia, los resultados del proyecto SACMEQ I se difundieron en dos publicaciones importantes. La primera estuvo a cargo del Instituto Internacional de Planeamiento de la Educación, a comienzos de 1998, y la otra fue hecha poco después por el Ministerio de Educación en un libro titulado Inside reforms: policy programming considerations in Namibia’s basic education reform.

Los resultados de la investigación del SACMEQ fueron debatidos por administradores en el Ministerio de Educación y en talleres de planifi cación en los que participaban todos los planifi cadores. Los resultados también alimentaron los debates durante las audiencias de la Comisión Presidencial de Investigación sobre Educación y Formación. Dadas las experiencias del proyecto SACMEQ I, se adoptó un enfoque diferente sobre la difusión de los resultados del SACMEQ II en materia de educación, a fi n de asegurar la contribución de todos los actores interesados en sugerencias relacionadas con la política, desarrollando así el sentido de apropiación y aumentando las posibilidades de implementación de dichas sugerencias.

Los resultados preliminares del SACMEQ II se presentaron primero al Equipo Ejecutivo de Gestión [Executive Management Team] del Ministerio de Educación en junio de 2003. Siguieron otras presentaciones al ministro de educación, a los planifi cadores regionales de educación y


237


a todos los directores de educacion miembros del Comité de Coordinación de la Política de Gestión [Management Policy Co-ordinating Committee] del Ministerio de Educación. Estas reuniones preliminares de difusión estaban destinadas a compartir los aspectos más importantes de los hallazgos de la investigación.

Un esbozo del Informe nacional de investigación sobre el SACMEQ II fue presentado al Equipo de Gestión de la Educación [Education Management Team] a fi nes de 2003 para su información y comentarios. El proyecto de informe también se compartió con todos los directores de educación del ministerio. El Comité Nacional de Investigación [National Research Committee] del SACMEQ se embarcó en seminarios nacionales de difusión cubriendo las trece regiones educativas, empezando a mediados de febrero de 2004. Los seminarios de difusión se completaron durante la segunda mitad de abril. Tenían como destinatarios a los equipos regionales de gestión, inspectores escolares y profesores consejeros, representantes de la educación regional, miembros de los consejos de administración escolar, sindicatos del personal docente, autoridades locales tradicionales, las empresas de la comunidad local, consejeros regionales y dirigentes políticos locales, así como otros actores interesados en la educación que fueron invitados por los directores regionales de educación.

Retroalimentación a partir de la difusión Kenya

La reatroalimentación recibida del programa de difusión efectuado en Kenya mostró que los resultados de la investigación del SACMEQ podían precipitar importantes (y ocasionalmente apasionados) debates. A continuación se presentan algunos ejemplos.

Los profesores keniatas fueron criticados por enviar a los niños a sus casas sin razones justifi cadas, incluyendo el pago de pensiones y el uniforme. También fueron criticados por las altas tasas de absentismo y repetición, especialmente en el ciclo superior de educación primaria.

Los resultados del SACMEQ I mostraron que una gran proporción de niños en educación primaria tenían sobreedad y los del SACMEQ II confi rmaron que la edad promedio de los alumnos en el 6º grado había aumentado de 165,9 meses a 168,4 meses. La cuestión sobre la sobreedad de los alumnos se atribuyó parcialmente a la repetición y se pensaba que algunos de los alumnos con sobreedad edad terminaban por abandonar la escuela.


238


El gobierno fue criticado por las malas condiciones de los profesores y se consideró que el “boom” que había ocurrido en la provisión de clases particulares se debía a la falta de motivación de los profesores. También se criticó al gobierno por el impacto negativo de las políticas de coparticipación en los costos, que habían impactado duramente sobre las familias pobres, ya que no podían aportar los recursos necesarios para la educación de sus hijos.

Los resultados del SACMEQ mostraron también que la participación de los padres en la gestión de las escuelas y en la escolarización de sus hijos era inexistente o muy baja. Si bien el concepto de «asociación de padres de familia y maestros» existía en teoría, no se traducía en la práctica.

Namibia

Los resultados de la investigación del SACMEQ crearon mucha “tensión” cuando se publicaron por primera vez. Los niveles de alfabetización y aritmética básicas de los alumnos del 6º grado de Namibia eran muy bajos cuando se los comparaba con los de otros países y el público buscaba un chivo expiatorio. Por ejemplo, las ofi cinas regionales de educación de Namibia culpaban a los profesores por su incompetencia y falta de compromiso. Los sindicatos de profesores fueron acusados a su vez de exigir salarios más altos para sus miembros sin abordar sus defi ciencias profesionales.

En respuesta, los representantes de los sindicatos de profesores criticaron las normas sobre personal del ministerio y a las autoridades educativas por “forzar a los profesores a enseñar asignaturas en las que no estaban formados para enseñar y en grados para los que no habían sido preparados”. Los sindicatos de profesores sostenían que estos problemas estaban ligados a la inadecuación de recursos y al muy escaso apoyo profesional, especialmente en las escuelas rurales. Los inspectores y los profesores consejeros no fueron de mucha ayuda. En algunos casos, las autoridades regionales educacionales toleraban a directores inefi cientes e inefi caces. En algunas regiones se informó que había profesores que no enseñaban el programa aprobado, con conocimiento por parte de algunos directores. También se sostuvo que había muy poca demanda de los administradores en los diversos niveles del ministerio en materia de rendición de cuentas de lo que hacían sus subordinados.

Los resultados del SACMEQ mostraron que la participación de los padres de familia en la educación era un problema importante,


239


especialmente entre los grupos sociales de bajo nivel socioeconómico en las zonas rurales, donde la mayoría de los padres no sabían leer ni escribir en inglés, lengua de enseñanza en la escuela. En la región Caprivi, un miembro del Consejo Escolar de una escuela tenía la impresión equivocada de que los profesores podían convocar a los padres de familia sólo si había problemas disciplinarios y no para discutir el avance académico del educando.

Cuando se debatieron los bajos niveles de rendimiento de los estudiantes del 6º grado de Namibia, un representante de un sindicato de maestros acusó a la política ministerial de “promoción automática”. Sostenía que los alumnos eran promovidos al grado superior sin haber adquirido las competencias asociadas con el grado inferior. Sin embargo, otro miembro del personal del ministerio sugirió que la repetición no era la respuesta y que había problemas porque los profesores no estaban aplicando los métodos de “enseñanza compensatoria” destinados a los alumnos más lentos, que era lo que se esperaba que hicieran.

Las autoridades educativas de las regiones septentrionales informaron sobre la existencia de largos períodos de absentismo de los profesores debido a enfermedades relacionadas con el VIH y el SIDA. Los estudiantes a menudo estaban sin profesor durante esos períodos y perdían así una importante cuota de trabajo escolar.

Los expertos en lengua en tres regiones sugirieron que los bajos niveles de rendimiento de los alumnos en lectura mostrados por los resultados de la investigación del SACMEQ se debían a los inadecuados métodos de enseñanza utilizados. Fueron muy críticos con los nuevos métodos de enseñanza, basados en las técnicas del “ver y decir” en oposición al “viejo” método descartado que hacía hincapié en la “fonética”.

Reformas de la política y de la práctica basadas en los resultados de la investigación

Todo el foco de atención del programa de investigación del SACMEQ se ha centrado en suministrar información que se pueda utilizar como base para el análisis y la formulación de política. A continuación, ofrecemos algunos ejemplos de cómo los resultados de la investigación del SACMEQ se incorporaron al escenario político en Kenya y Namibia.


240


Kenya

■ Puntos de referencia relativos a los recursos Los resultados del SACMEQ I destacaron la ausencia de normas o

estándares detallados y actualizados en lo que se refi ere a los insumos requeridos. Cuando existían, había diferencias entre los estándares ofi ciales refl ejados en los documentos del gobierno y la práctica sobre el terreno. Esto impulsó al ministerio a elaborar un conjunto detallado de estándares aceptables que fueran respetados por las escuelas para asegurar la efi ciencia y la efi cacia del sistema.

■ Análisis del currículo Los resultados de la investigación del SACMEQ y otros análisis del

sector de la educación mostraron la necesidad de un análisis regular del currículo. El Kenya Institute of Education (KIE) participó en el análisis y la racionalización del currículo con vistas a que fuera abordable por los padres de familia, así como para asegurar su calidad y pertinencia. El número de asignaturas en la escuela primaria se redujo de trece a siete y el número de asignaturas sujetas a examen pasó de siete a cinco.

■ Niveles de rendimiento y textos escolares Los hallazgos del SACMEQ en cuanto a niveles de rendimiento

inferiores a los esperados y el suministro inadecuado de textos escolares llevó a que el gobierno, en cooperación con otros actores clave y asociados interesados en el desarrollo, implementaran vigorosamente un programa de desarrollo magisterial basado en la escuela. Los proveedores de recursos fi nancieros también se hicieron presentes para apoyar la provisión de textos escolares a todas las escuelas públicas de educación primaria.

■ Sistemas de monitoreo de la calidad El ministerio ha reconocido y apreciado la importancia que tienen

los resultados de la investigación del SACMEQ para dar información a la política y, en este sentido: (a) ha incorporado una partida en el presupuesto de educación denominada ‘monitoreo y evaluación de la calidad de la educación’; y (b) ha comenzado a utilizar los resultados de la investigación del SACMEQ como una línea de base de datos para otros estudios emprendidos en el marco del programa de educación primaria gratuita.


241


Namibia ■ Programa de efi ciencia

En Namibia, el ministerio utilizó los resultados del SACMEQ I para diseñar un programa de eficiencia y crear el Management Policy Co-ordination Committee –MPCC– [Comité de Coordinación de la Política de Gestión] a fi n de trabajar para lograr más equidad en el sistema educativo y mejorar la calidad de la educación.

■ Uso en la Comisión Presidencial El Presidential commission report [Informe de la Comisión

Presidencial] (1999) utilizó los resultados del proyecto SACMEQ I para, entre otras cosas, recomendar nuevos enfoques para la asignación de recursos a las regiones educativas. Este trabajo fue posteriormente incorporado en el plan estratégico del ministerio con el propósito de desarrollar “[...] sistemas imparciales, transparentes y equitativos para la asignación de todos los recursos fi nancieros a las unidades de educación del ministerio, basándose en las necesidades reales y la equidad”.

Metas mínimas de rendimiento

Dado los bajos niveles de competencia manifestados por un gran porcentaje de estudiantes del 6º grado de Namibia en la investigación del SACMEQ, otro objetivo del plan estratégico del ministerio fue “[...] asegurar que todos los estudiantes completen el 4º, 7º, 10º y 12º grados, respectivamente, habiendo logrado competencias básicas en las asignaturas constitutivas del currículo para 2005” y “[...] mejorar la enseñanza y el aprendizaje del inglés, la matemática, las ciencias y las competencias relacionadas con las disciplinas afi nes para 2006”. Basándose en los resultados preliminares del SACMEQ II, una región de educación ya ha formulado sus propios “estándares mínimos de calidad” bajo la forma de listas de verifi cación de todas las cosas que el profesor debería hacer en el aula, así como de las acciones esperadas del director de escuela, los inspectores y los profesores consejeros. En otra región, las autoridades han estado efectuando reuniones con los actores interesados, especialmente los miembros de los consejos escolares, sobre cómo podrían ayudar a que las escuelas lograran mejores resultados.

La inspectoría

Las pobres condiciones de escolarización y los bajos niveles de rendimiento de los estudiantes revelado por los resultados de la investigación del SACMEQ constituyeron la base para la recomendación


242


de la Comisión Presidencial a fi n de crear una “inspectoría nacional” para monitorear la calidad de la educación en el país basándose en estándares nacionales. Éstos ya se han formulado y se espera que la inspectoría nacional esté en condiciones de funcionar a partir de 2005.

Apoyo a las regiones pobres

Los resultados de la investigación del SACMEQ mostraron que las regiones de educación septentrionales de Namibia tienen los problemas más importantes en relación con la provisión de insumos adecuados para la educación y el logro de niveles aceptables de rendimiento de los estudiantes. Con la ayuda de los asociados interesados en el desarrollo, estas regiones ahora son poblaciones objetivo de la cooperación multinivel, empezando con los profesores y ampliándose a los funcionarios regionales de educación. Las escuelas se han divido en circuitos de inspección y en agrupaciones para recibir las prestaciones de los servicios administrativos y de apoyo. Así, una agrupación de escuelas puede compartir recursos, prácticas idóneas y pericia de manera que se benefi cie a las escuelas que luchan por abrirse camino. Las escuelas de estas regiones están recibiendo ayuda en la formulación de los planes de desarrollo escolar con la participación de las comunidades locales.

El estatus y el uso de la investigacion del SACMEQ Los resultados de la investigación del SACMEQ han desempeñado

un papel importante al informar el diálogo y las decisiones relacionadas con el sistema educativo namibiano. Como consecuencia, el programa de investigación del SACMEQ se percibe como estratégico para el desarrollo del sistema. Los investigadores de la educación y los estudiantes de posgrado namibianos también han encontrado que los datos producidos por el SACMEQ constituyen un gran recurso. Algunos de ellos los han utilizado como base para efectuar investigaciones y disertaciones más detalladas. Tres de los problemas que han mostrado ser las áreas más populares de esa investigación son las diferencias regionales en el rendimiento, las diferencias en el rendimiento basadas en el género y la participación de los padres en la educación.

Conclusión Los resultados de la investigación del SACMEQ han tenido un claro

impacto sobre una amplia gama de áreas políticas y prácticas de la educación en Kenya y Namibia. Sin embargo, es posible sintetizar estos


243


insumos en forma de dos “mensajes de política” con énfasis ligeramente diferentes.

En Kenya, el principal mensaje fue que una investigación de política educativa de primera clase sobre la calidad de la educación (como la que conduce el SACMEQ) aporta valor agregrado y sustancia a los análisis de política nacional y a la nueva formulación política. Otros dos mensajes relacionados fueron que la creación de sistemas exitosos de monitoreo de la educación exigen: (a) la institucionalización de los sistemas de monitoreo dentro de las funciones políticas y de planifi cación del ministerio; y (b) la difusión de los resultados de la investigación sobre la calidad de la educación, emprendida como un proceso multinivel que supone la participación de todos los actores interesados.

En Namibia, el mensaje más importante fue que a fi n de crear un vínculo entre la investigación en política educativa y la “acción” es necesario que haya una más amplia participación del personal del Ministerio de Educación en todos los niveles de decisión. Esto signifi ca que los responsables de la toma de decisiones tendrán más probabilidades de mostrar interés y emprender acciones basadas en la investigación que abordar las cuestiones políticas que ellos han ayudado a elaborar. El vínculo política-acción se puede fortalecer más si los responsables de la toma de decisiones también son: a) bien informados con anticipación de la investigación y los benefi cios que se busca obtener para el ministerio y b) reciben información clara sobre el papel que se espera que desempeñen en relación con la implementación de la investigación.

Bibliografía Angula, N.A. 1994. “Civil society, research and policy formulation in

Namibia”, en W.C. Snyder Jr. (Ed.), Exploring the complexities of education: Notes on research design and statistics, Windhoek: Gamsberg Macmillan Publishers, pp. 1-12.

Beaton, A.E.; N.T. Postlethwaite; K.N. Ross; D. Spearritt; R.M. Wolf. 1999. The benefi ts and limitations of international achievement studies, Paris: IIEP-UNESCO.

Cohen, C. 1994. Administering education in Namibia: The colonial period to the present, Windhoek: Scientifi c Society of Namibia.


244


English Language Teacher Development Project (ELTDP). 1999. Research into the English language profi ciency of teachers/student teachers and basic education principals’ and teachers’ perception of the use of English in Namibian schools, Windhoek: Ministry of Basic Education and Culture.

Government of the Republic of Namibia (GRN). 1999. Presidential commission on education, culture and training report, vol. 1, Windhoek: Gamsberg Macmillan Publishers.

Government of the Republic of Namibia (GRN). 2001. Education for All (EFA) national plan of action 2001-2015, Windhoek: Ministry of Basic Education, Sport and Culture.

Maja, B.I. 1997. “Access to learning: The enabling conditions for successful learning environments”, en N. Bak (Ed.), Going for the gap: Reconstituting the educational realm, Cape Town: Juta, p. 1.

Makuwa, D.K. 2003. “Looking beyond educational indicators: An analysis of differences in learner results of a standardized English language comprehension test administered in Katima Mulilo and Rundu educational regions of Namibia”. Unpublished Doctoral Dissertation. South Africa: University of the Western Cape.

Ministry of Basic Education and Culture. 1995-2001. Annual EMIS education statistics, Windhoek (Namibia): Ministry of Basic Education and Culture.

Ministry of Basic Education and Culture. 1998. Language policy for Namibian schools, Grades 5-10, Windhoek: National Institute for Educational Development (NIED).

Ministry of Basic Education and Culture. 2001. Requirements for promotion in Grades 1-9 and 11, Windhoek: Directorate of Educational Programmes Implementation (EPI) [Circular n.º ED 10/2001].

Ministry of Basic Education and Culture. 2001. Strategic plan, 2001-2006, Windhoek: Directorate of Planning and Development.

Ministry of Basic Education, Sport and Culture, and Ministry of Higher Education, Training and Employment Creation. 2003. National policy on HIV/AIDS for the education sector, Windhoek: Ministry of Basic Education, Sport and Culture.


245


Ministry of Education and Culture. 1993. Towards Education for All: A development brief for education, culture and training, Windhoek: Gamsberg Macmillan.

Namibia Economic Policy Research Unit (NEPRU). 1999. “Improving public education”, The Namibian Economy: A NEPRU Viewpoint, n.º 25, October.

National Planning Commission. 2002. 2001 Population and housing census, preliminary report, Windhoek: Census Offi ce.

Reimers, F.; N. McGinn. 1997. Informed dialogue: Using research to shape education policy around the world, Wesport, WA: Praeger Publishers.

Ross, K.N. 1995. “From educational research to educational policy: An example from Zimbabwe”, International Journal of Educational Research, vol. 23, n.º 4, pp. 303-403.

Ross, K.N.; T.N. Postlethwaite. 1992. Indicators of the quality of education: A summary of a national study of primary schools in Zimbabwe, Paris: IIEP-UNESCO.

Sherbourne, R. June 2002. A secondary consideration? Public spending on education since 1990, Windhoek (Namibia): Institute for Public Policy Research (Briefi ng Paper n.º 11).

Snyder Jr., W.C.; F.G.G. Voigts. 1998. Inside reform: Policy and programming considerations in Namibia’s basic education reform, Windhoek: Gamsberg Macmillan.

UNESCO. 2000. Marco de acción de Dakar, París: UNESCO, p. 8.

Voigts, F. 1998. The quality of education: Some policy suggestions based on a survey of schools, Paris: IIEP-UNESCO.


246

Capítulo 11

¿Cómo pueden utilizar los países los resultados de los estudios internacionales comparados para enfrentarse a “las grandes

cuestiones políticas”? (Estudios de caso del África francófona)

Jean Marc Bernard y Katharina Michaelowa

Introducción El “Programme d’analyse des systèmes éducatifs de la CONFEMEN” –más ampliamente conocido como PASEC– se lanzó en la Conférence des Ministres de l’éducation ayant le français en partage [Conferencia de Ministros de la Educación de los Países Francófonos] en 1991 y efectuó su primera evaluación de país durante 1992 en Djibouti. Desde entonces se han realizado quince evaluaciones de países en el África subsahariana francófona, incluyendo estudios de panel haciéndole un seguimiento a estudiantes de educación primaria del 2º al 6º grado en un país dado. Estas evaluaciones fueron inicialmente implementadas por varios equipos de investigación del Norte. Sin embargo, desde 1995 en adelante la ejecución se aseguraba por equipos nacionales del PASEC, bajo la orientación y la responsabilidad global del Secretariado del CONFEMEN con sede en Dakar. Esta evolución aseguró un más alto grado de comparabilidad entre los estudios de los países y la construcción de una base de datos internacional que incluía datos de estudiantes, profesores y escuelas. También implicó una fuerte participación de los equipos nacionales del PASEC con el objetivo de fortalecer las capacidadaes para las futuras evaluaciones de la calidad de la educación.

El objetivo primordial de las evaluaciones del PASEC no era la comparación del rendimiento de los estudiantes entre países, sino más bien el análisis de los factores clave que pudieran explicar las variaciones en la calidad de la educación. Dadas las fuertes restricciones presupuestarias que limitan el gasto en educación en la mayoría de los países del África subsahariana, el PASEC ha tratado de derivar una jerarquía de potenciales intervenciones educativas en función de su efi cacia. Los resultados educativos se han medido en relación con la mejora del rendimiento de


247

¿Cómo pueden utilizar los países los resultados de los estudios internacionales?

los estudiantes, basándose en los resultados de las pruebas de alumnos del 2º y 5º grados en matemática y francés. La administración regular de una preprueba a todos los estudiantes de la muestra a comienzos del año académico permite controlar el rendimiento previo, de modo que el impacto estimado de las variables políticas medidas durante un año específi co se puedan atribuir correctamente al aprendizaje de los estudiantes durante el mismo período.

Creado a iniciativa de los ministros de educación con el claro objetivo de infomar la toma de decisiones en materia de educación, la traducción de los resultados del PASEC en política educativa efectiva no ha sido automática. Este artículo analiza los procedimientos y medidas específi cos adoptados a fi n de mejorar las oportunidades de que los resultados del PASEC sean tomados efectivamente en consideración por los responsables políticos y otros grupos objetivo dentro del sector de la educación. Adicionalmente, este artículo ilustra hasta qué punto el PASEC ya ha contribuido a concretar la reforma de la política educativa.

Como la interacción de diferentes participantes en las evaluaciones del PASEC desempeña un papel importante en este contexto, el artículo empieza con una descripción del proceso típico de una evaluación del PASEC, desde la formulación de la propuesta de evaluación y su implementación sobre el terreno, hasta la difusión de los resultados y la promoción de análisis ulteriores. A esto sigue un análisis de las ventajas y deventajas de este enfoque mediante la presentación de estudios de caso de países: Senegal, Guinea y Togo. Finalmente, se brindan algunas conclusiones en términos de condiciones institucionales necesarias para la traducción exitosa de los resultados del PASEC en política educativa concreta.

La gestión de una evaluación típica del PASEC En cada reunión bienal de la CONFEMEN a nivel ministerial se toma

una decisión acerca del número y la orientación de las futuras evaluaciones del PASEC. Este es el punto de partida para la elaboración de propuestas de evaluación por los países miembros del CONFEMEN. Junto con sus expresiones generales de interés, los países pueden sugerir orientaciones temáticas específi cas, que pueden ser integradas mediante la adaptación de cuestionarios destinados a los estudiantes, profesores o directores de escuela. El Comité Científi co del PASEC selecciona las propuestas de los países con la cooperación de los asesores técnicos del PASEC que están en el secretariado de la CONFEMEN.


248


Una vez que se ha selecionado la propuesta de un país, el representante nacional del CONFEMEN es responsable de la creación de un grupo interdisciplinario de expertos en el seno del ministerio de educación, que asume la ejecución efectiva de la evaluación del PASEC. Este equipo nacional del PASEC se benefi cia de varias sesiones de formación ofrecidas por los consejeros técnicos del PASEC y es responsable de la gestión de los fondos. En cooperación con los asesores del PASEC, elabora los cuestionarios, forma a los administradores que se envían a las escuelas, gestiona la introducción de los datos y participa en el análisis y la redacción del informe nacional. Una vez que se cuenta con un primer borrador de informe, se analiza con el comité científi co del PASEC y es fi nalizado por los asesores técnicos del PASEC, nuevamente en cooperación con el equipo nacional pertinente del PASEC.

Las recomendaciones concretas de política que hay que agregar al informe analítico nacional se formulan en un “seminario de difusión” nacional por los responsables de la toma de decisiones pertinentes del ministerio de educación y representantes de los diferentes grupos de actores (profesores, sindicatos de profesores, inspectores, padres de familia y agencias proveedoras de fondos), quienes son invitados por el equipo nacional del PASEC. Durante varios días, el equipo nacional del PASEC y sus asesores técnicos presentan sus resultados, estimulan el debate y buscan conclusiones políticas. También se invita al seminario a los medios de comunicación, de manera que los resultados políticos se refl ejen inmediatamente en artículos de prensa y, a menudo, en la radio y la televisión. Como los resultados son de interés no sólo para el país evaluado, se produce un comunicado de prensa que es enviado por el secretariado de la CONFEMEN a las agencias de noticias de otros países miembros. Además, bajo la responsabilidad conjunta de la CONFEMEN y el ministerio de educación nacional, se preparan folletos que contienen los principales resultados. Finalmente, los resultados seleccionados se presentan en la siguiente reunión ministerial de la CONFEMEN.

Una vez que se ha concluido el proceso de evaluación, los datos se ponen a disposición de los investigadores externos para análisis ulteriores. El secretariado de la CONFEMEN promueve activamente el uso de estos datos mediante la cooperación con diversas universidades e instituciones de investigación, la supervisión conjunta de tesis de maestría, programas de internado, etc. En el momento de redactar este artículo, al menos unos veinte investigadores trabajan en estudios a partir de la base de datos del PASEC. Los intercambios entre investigadores y asesores técnicos del


249


secretariado del PASEC ya han permitido el refi namiento de los análisis econométricos realizados para la redacción del borrador de los informes de los países de la CONFEMEN, así como de una encuesta de hogares complementaria para Senegal realizada por la Universidad de Cornell y el Laboratorio de Economía Aplicada de la Iniciativa Nacional Francesa del Institut National de la Recherche Agronomique –INRA–, que posibilitará una mejor comprensión de algunas de las cuestiones planteadas por la evaluación inicial del PASEC.

La CONFEMEN trata de estimular a los ministerios nacionales para que institucionalicen la evaluación de sus sistemas educativos y mantengan sus equipos nacionales del PASEC como una pequeña unidad de evaluación en el Ministerio de Educación. Los consejeros técnicos del PASEC organizan una sesión anual de formación a la que es invitado a participar por lo menos un miembro de cada equipo nacional.

Estudios de caso de países A continuación se presentan varios estudios de caso de países en los

que se han efectuado evaluaciones del PASEC. Estos estudios arrojan cierta luz sobre temas importantes de política abordados por las evaluaciones del PASEC y muestran hasta qué punto sus resultados han sido pertinentes para la reforma de la educación.

Los estudios de caso seleccionados cubren las evaluaciones por país más recientes del PASEC. Éstos comienzan con el análisis del panel de seis años de Senegal y prosigue con el examen de una evaluación del PASEC en Togo y en Guinea. Finalmente, se ofrece información complementaria sobre las evaluaciones efectuadas en otros países.

Senegal

El estudio de panel del PASEC en Senegal se inició en 1995 con una muestra representativa de estudiantes a comienzos del 2º grado. Se hizo un seguimiento de estos estudiantes hasta el año 2000, cuando aquellos que no habían repetido ningún grado completaron su educación primaria. Al fi nal de cada año académico, los estudiantes eran sometidos a pruebas de matemática y francés para obtener información acerca de su progreso en el tiempo. Además, se administraron los cuestionarios generales destinados a profesores, directores y estudiantes a fin de obtener información complementaria en el 2º grado y, en una versión algo reducida, en los grados subsiguientes.


250


El objetivo principal del análisis del panel fue comprender mejor los efectos de la repetición de grado, una práctica muy común en el África subsahariana francófona. En 2000, la tasa promedio de repetición en la educación primaria en el África subsahariana francófona fue de un 20 % contra un 10 % en el África anglófona y 2 % en los países de la OCDE (UIS, 2003; MINEDAF, 2002). A nivel de política, a comienzos de la década de los años noventa, se consideraba que reducir la repetición de grado podría impulsar el logro del objetivo de la universalización de la educación primaria. En primer lugar, el número limitado de plazas disponibles no estarían ocupadas por los mismos estudiantes durante varios años y, en segundo término, la reducción de la repetición podría reducir el abandono temprano. Sin embargo, esta ganancia en la matrícula se esperaba que ocurriera en asociación con una reducción de los niveles de aprendizaje. Es decir, se anticipaba una compensación cantidad-calidad. Se esperaba que el panel del PASEC aportaría información adecuada para examinar la validez de esta compensación propuesta.

Desde la presentación de los resultados inciales de los tres primeros grados en la reunión de la CONFEMEN ministerial en 1998 (CONFEMEN, 1999) hasta la publicación fi nal en 2004 (CONFEMEN/MEN, 2004), los resultados de los análisis fueron consistentes y claros. En promedio, un estudiante de primaria que repite un grado no rinde mejor que otro estudiante que no repite, a menos que cambien los antecedentes familiares y el entorno escolar, y si los estudiantes tienen como punto de partida el mismo nivel de rendimiento al comenzar el año de análisis.

La reunión de estudiantes en grupos de igual tamaño de estudiantes buenos, regulares y débiles en función de su rendimiento en las pruebas del PASEC a nivel nacional, muestra que el efecto de la repetición es insignifi cante para los estudiantes más débiles y perjudicial para los mejores. Además, se evidencia que mientras que la mayoría de los repetidores pertenece al tercio de estudiantes débiles, más de un cuarto de los repetidores pertenece al nivel intermedio o incluso al de los mejores alumnos. Por consiguiente, los resultados suministran pruebas de una signifi cativa inadecuación del objetivo. Finalmente, la hipótesis de que la repetición conduce a un mayor abandono también encuentra cierto apoyo empírico a partir de los análisis del panel.

Sobre todo, los resultados del PASEC indicaron claramente que una política de reducción de la repetición no tendrá ningún impacto negativo sobre la calidad de la educación y que es, defi nitivamente, una de las


251


maneras más efi cientes de facilitar un aumento en la matrícula y evitar el abandono prematuro en Senegal.

Estos resultados se presentaron a los actores interesados en el seno del sistema de educación en un seminario de difusión y, separadamente, al ministro de educación y su gabinete. Si bien la repetición había sido limitada legalmente a un 10 % a comienzos de la década de los ochenta, una nueva decisión ministerial la ratifi có en 2003, tras la presentación de los resultados del PASEC. Además, el ministerio decidió prohibir la repetición entre el 1º y el 2º grados, el 3º y el 4º grados, y el 5º y el 6º grados. Sin embargo, es importante notar aquí que la repetición no se puede disminuir por decreto, pues su ejecución puede ser muy difícil si los responsables de la toma de decisiones en la escuela no están de acuerdo.

De hecho, profesores, directores de escuela, inspectores e incluso los padres de familia parecían estar convencidos de que la repetición ayudaba a los estudiantes débiles a adquirir las competencias requeridas para proseguir su aprendizaje en grados superiores. Una encuesta administrada entre profesores de educación primaria en Senegal en una muestra del PASEC en 1999 indicó que el 77 % consideraba que la repetición de grado era un mecanismo efi ciente o incluso muy efi ciente para favorecer el aprendizaje del estudiante.

Un problema importante parece ser que el punto de vista de los profesores acerca de la repetición de grado se basa generalmente en la comparación entre el rendimiento de un estudiante considerado individualmente y el rendimiento de una clase como un todo. Ahora la repetición de grado conduce a una comparación con un grupo de pares diferente (con un nivel de competencia menor) y, comparado con este nuevo grupo de pares, el rendimiento del estudiante parece ser más alto de lo que realmente es.

El PASEC trató de informar el debate de política con sus resultados analíticos y aportar argumentos sólidos para convencer a los diferentes actores interesados. En Senegal, en los medios de comunicación impresos y electrónicos se mostró un gran nivel de interés en seguir el debate. Se publicaron alrededor de diez artículos de prensa sobre el tema, no sólo en francés, sino también en varias lenguas locales. Para entablar un debate más directo con los actores interesados, los participantes en el seminario de difusión propusieron seminarios regionales similares en los que participaran los responsables de la toma de decisión. Se señaló que un grupo de destinatarios muy importante (después de los inspectores) estaba


252


constitudo por los “consejeros pedagógicos”, responsables de la formación del personal docente en Senegal.

Dada su excepcional riqueza como base de datos, los datos del panel de Senegal también han atraído la atención de investigadores externos. Más importante aún, una cooperación con el INRA (Francia) y la Universidad de Cornell (EE.UU.) se inició en 2002 con el propósito de complementar los datos existentes mediante una encuesta de hogares. La investigación basada en este conjunto de datos enriquecido aportará nuevos conocimientoss sobre los vínculos entre los antecedentes sociales y la repetición, así como entre la repetición y el abandono prematuro.

Es importante tener en cuenta que ejercicios similares se han efectuado en Côte d’Ivoire y Burkina Faso. En Côte d’Ivoire, donde las tasas de repetición llegaron a ser muy altas, tanto como un 22 %, los resultados de la investigación fueron casi idénticos a los que se analizaron previamente. Sin embargo, dada la inestabilidad política general en Côte d’Ivoire, la gestión y el uso de los resultados del PASEC fueron considerablemente menos efi caces. En Burkina Faso, los resultados del PASEC aún no han sido totalmente analizados y no se realizó un seminario de difusión debido a que la recolección de datos se debe efectuar en fases sucesivas a causa de la falta de fi nanciación. Sin embargo, al tomar los resultados (provisionales) de los tres países conjuntamente, permitió que el PASEC presentara una imagen coherente en las reuniones ministeriales de la CONFEMEN en 2000 y 2002, promoviendo así la reducción de la repetición de grado como un objetivo general para los países del África subsahariana francófona. En el PASEC se ha previsto la publicación de un libro con los resultados combinados de estos tres países.

Togo y Guinea

En Togo y Guinea, las evaluaciones del PASEC se efectuaron con un foco temático especial sobre la formación de los profesores y los contratos para profesores que no eran funcionarios. Estos temas fueron planteados por los dos ministerios de educación debido a que reformas previas en las políticas de empleo del personal docente demandaban una evaluación de su impacto sobre la calidad de la educación.

Si bien en Togo se había comenzado a contratar profesores no funcionarios sobre una base contractual desde 1983, este proceso comenzó en Guinea sólo en 1998. En Guinea, los profesores recibían una breve formación pedagógica de seis a nueve meses de duración, mucho más corta que los programas tradicionales de formación de dos a tres años que


253


habían funcionado previamente. En Togo no recibían ninguna formación inicial.

En Guinea, los nuevos profesores fueron reclutados con al menos un nivel de segundo ciclo de educación secundaria (baccalauréat, BAC –bachillerato–); en Togo, si bien el requisito formal era el mismo, en la práctica se consideraba sufi ciente un nivel secundario inferior, es decir, el primer ciclo (Brevet d’études professionnelles, collège –BEPC–). En ambos países, el objetivo principal de la reforma política era reducir los costos a fi n de poder satisfacer la creciente demanda de nuevos profesores por parte de las escuelas.

Al mismo tiempo, había cierta preocupación sobre el impacto negativo que podrían tener estas reformas sobre el aprendizaje de los estudiantes: (a) se temía que el reclutamiento de profesores sobre bases contractuales –implicando salarios considerablemente más bajos y menos seguridad laboral– podrían tener un impacto negativo sobre su motivación y, por tanto, indirectamente, sobre el rendimiento de los alumnos en su clase; (b) se consideraba que una formación pedagógica de menos de un año podría ser muy breve para preparar efectivamente a los futuros profesores para su trabajo en clase; y (c) en el caso de Togo, se consideraba que profesores con solo BEPC no tendrían sufi ciente dominio de las disciplinas que se suponía debían enseñar. Sobre todo, se preveía que las reformas reducirían los costos de contratación de más profesores, pero al precio de una reducción considerable en la calidad de la educación.

Los resultados del PASEC muestran que en realidad este no es el caso. En general, los nuevos profesores empleados sobre una base contractual no lo están haciendo peor que sus colegas. En algunos casos y contextos, incluso parecen hacerlo mejor (CONFEMEN, 2004; CONFEMEN, 2003). Esto se puede explicar de la manera siguiente.

En primer lugar, si bien se redujo la duración de la formación pedagógica de los profesores, se reformó su contenido de tal manera que la reduccion de la duración podría compensarse con el aumento de su pertinencia y calidad. En el marco del nuevo Programa de Formación Inicial de Maestros del Banco Mundial en Guinea [Formation Initiale des Maîtres de Guinée, FIMG)], por ejemplo, se hace mucho hincapié en la experiencia práctica de la enseñanza bajo la orientación de profesores experimentados. Esto podría haber constituido una innovación efi caz en el programa de formación.


254


En segundo término, el nivel de estudios de los profesores más allá del BEPC a menudo ha mostrado ser de pertinencia limitada para el rendimiento de los profesores de primaria (CONFEMEN, 1999). Esto quizá esté relacionado con la calidad de la educación recibida por los propios profesores o a la baja pertinencia del conocimiento académico adquirido para la enseñanza práctica en la clase. Los resultados de la investigación del PASEC en otros países mostró, por ejemplo, que no había una correlación signifi cativa entre el nivel educativo de los profesores por debajo o por encima del BAC y su capacidad para indicar correctamente los errores en un dictado (Michaelowa, 2003). Más aún, existen ciertos indicios de que profesores con un nivel educativo más allá del BAC podrían estar menos motivados en el trabajo (Michaelowa, 2002).

En tercer lugar, los contratos en calidad de no funcionario podrían crear incentivos a fi n de que los profesores trabajaran más para mantener su puesto actual, o pasar posteriormente a un puesto permanente en su carrera.

Hasta cierto punto, esos argumentos fueron bienvenidos por los políticos, pues ofrecían justificaciones para las reformas políticas emprendidas bajo la presión de las restricciones presupuestarias. Al mismo tiempo, existe falta de comprensión sobre por qué los estándares de exigencias para los profesores de los países industrializados (como el BAC, por ejemplo) podrían ser inefi cientes y, por tanto, indeseables en los países africanos implicados. Finalmente, existe un gran descontento entre los profesores. Los profesores empleados bajo las nuevas condiciones sostienen que están mal pagados y se les exige que soporten condiciones inestables de trabajo, cuando hacen el mismo trabajo que otros profesores. Los viejos profesores se quejan de que las nuevas orientaciones podrían minar la valoración de la profesión docente en su conjunto.

Dada la naturaleza de las reformas, el diálogo con los diferentes actores fue particularmente importante. Desafortunadamente, tanto en Togo como en Guinea los sindicatos de profesores no participaron en el seminario de difusión debido a una disputa relativa a las dietas. Su exclusión de los debates fue más bien desafortunada, porque se trataba del grupo de actores que más se oponía a las reformas políticas.

Los profesores, los funcionarios del ministerio, los inspectores y los directores de escuela presentes en el seminario convinieron en la necesidad de una formación pedagógica de alta calidad para los profesores. El folleto con los resultados de la investigación del PASEC en Togo, editado


255


conjuntamente por el secretariado de la CONFEMEN y el Ministerio de Educación de Togo, defendían fi rmemente menores requisitos de ingreso a la profesión docente en términos de nivel educativo (sólo el BEPC), pero un período de formación pedagógica obligatoria para todos los profesores nuevos.

En relación con los cambios efectivos de política, los resultados del PASEC han estimulado a las autoridades togolesas a mantener el BEPC como el nivel académico mínimo de ingreso para los profesores de primaria. Todavía está por verse, sin embargo, si la formación pedagógica inicial para todos los profesores se asegurará en el futuro. En Guinea, la idea es continuar el programa de formación inicial en el marco del proyecto piloto FIMG [Formation Initiale des Maîtres de Guinée] del Banco Mundial. Dado que Guinea pertenece al grupo de países incluidos en la iniciativa de “vía rápìda”, la fi nanciación por parte de donantes estaría disponible para la futura formación de docentes. Esto muestra que la implementación de los resultados del PASEC también depende de la relación de las actividades del PASEC con las de otras organizaciones ineternacionales y proveedores de fondos bilaterales. Generalmente, dado que los países tienden a concentrar sus esfuerzos en programas importantes apoyados internacionalmente, tales como la “Educación para Todos” y los “Documentos de estrategia de lucha contra la pobreza” (DELP), el interés por los resultados del PASEC en los ministerios de educación nacional está altamente correlacionado con la utilidad percibida para la preparación e implementación de estos programas internacionales más amplios.

Así como el problema de las altas tasas de repetición discutidas en el contexto del Senegal, los problemas relativos a la contratación de profesores que no son funcionarios y la formación adecuada de los maestros son también pertinentes para muchos otros países africanos francófonos que introducen reformas políticas en estas áreas. Para que los resultados del PASEC atrajeran la atención de los responsables políticos en estos otros países, en la reunión ministerial de la CONFEMEN en Ouagadougou en 2002 se presentaron resultados analíticos y el secretariado de la CONFEMEN envió un comunicado de prensa a los medios de comunicación pertinentes de los Estados Miembros. Sin embargo, es conveniente notar que los países experimentan actualmente muy diversos tipos de contratos nuevos con los profesores y programas de formación. Los resultados de un país podrían no ser válidos para otro y, por consiguiente, parece necesario hacer un análisis caso por caso. Actualmente se ejecutan evaluaciones del PASEC con una orientación temática similar


256


en Malí y Níger, y será interesante comparar los resultados. Una encuesta en curso del Banco Mundial sobre los profesores en Senegal, Malí, Burkina Faso y Níger aportará información complementaria.

Otros ejemplos

Si bien lo que ocurre en Senegal, Guinea y Togo ha sido discutido en detalle, también sería conveniente mencionar algunos cambios que están ocurriendo en otros países. En Madagascar, por ejemplo, los resultados del PASEC mostraron en 1997-98 que una formación docente continua tenía un efecto negativo sobre el rendimiento de los estudiantes. Este resultado fue una sorpresa y dio lugar a un debate sobre por qué había sucedido. Se vio que la formación docente continua había tenido lugar fundamentalmente durante las horas de clase, reduciendo así la enseñanza. Consecuentemente, se ha cambiado esta práctica.

En Camerún, como resultado de la primera evaluación del PASEC, el ministerio creó una unidad especial de evaluación para asegurar la institucionalización de la evaluación educativa. En general, parece que el seguimiento exitoso de las evaluaciones del PASEC depende en gran medida de la estabilidad del equipo nacional del PASEC. Si no existe un grupo fi jo de personas que participen en la evaluación educativa en un Ministerio de Educación, es difícil lograr el intercambio de experiencias y obtener información que permita saber lo que realmente ocurrió como resultado de los análisis iniciales del PASEC. Además, si el equipo nacional del PASEC no está en condiciones de supervisar y apoyar la implementación de los resultados, es muy poco probable que algo suceda.

Si los miembros de un equipo rotan regularmente, la capacidad de seguimiento a nivel nacional es muy baja. En una situación semejante, los módulos de formación continua ofrecidos por los consejeros técnicos del PASEC se tornan más bien inefi cientes y la red de expertos construida mediante talleres regulares con representantes de todos los equipos nacionales del PASEC también deviene menos efi caz. En algunos estudios de caso de países, como la República Centroafricana o la Côte d’Ivoire, la estabilidad del equipo del PASEC, la implementación de sus resultados y el interés en la política educacional han sido gravemente afectados por confl ictos violentos y disturbios políticos.

Conclusión El análisis precedente muestra las difi cultades para manejar los

resultados de un programa internacional de evaluación como el PASEC.


257


Si bien existen muchas condiciones para asegurar un debate e implementación adecuados de los hallazgos, los resultados efectivos de política están sujetos a la estabilidad de los equipos nacionales del PASEC, a la estabilidad política nacional y a la capacidad para movilizar medios fi nancieros adicionales para sustentar las reformas. La experiencia ha mostrado que los resultados del PASEC atraen más la atención si se pueden aplicar directamente a las estrategias nacionales del sector de la educación o de lucha contra la pobreza, aumentando así las posibilidades de obtener fi nanciación de proveedores de fondos. Más importante aún, es vital que, desde el comienzo, en los países anfi triones de una evaluación del PASEC haya un genuino interés en la orientación temática de los resultados. Lo más deseable, como en Senegal, Togo y Guinea, sería que el PASEC aportara respuestas a cuestiones políticas de extrema relevancia. En estos casos, los resultados del PASEC hand sido generalmente bien recibidos y han llevado a una formulación de política coherente con sus resultados.

Bibliografía CONFEMEN. 1999. “Les facteurs de l’effi cacité dans l’enseignement

primaire: les résultats du programme PASEC sur neuf pays d’Afrique et de l’Océan indien”, en Programme d’analyse des systèmes éducatifs de la CONFEMEN (PASEC), Dakar.

CONFEMEN/MEN. 2003. Le Programme de formation initiale des maîtres et la double vacation en Guinée, Dakar: Ministère de l’Enseignement pré-universitaire et de l’Éducation civique de Guinée/CONFEMEN.

CONFEMEN/MEN. 2004. Le redoublement: pratiques et conséquences dans l’enseignement primaire au Sénégal, Dakar: Ministère de l’Éducation du Sénégal/CONFEMEN.

CONFEMEN/MEN du Togo. 2004. Recrutement et formation des enseignants du premier degré au Togo: quelles priorités? – Les résultats de l’évaluation thématique du Programme d’analyse des Systèmes Educatifs de la CONFEMEN (PASEC) sur les enseignants du Togo, Dakar: Ministère de l’Éducation nationale du Togo/CONFEMEN.

Michaelowa, K. 2002. Teacher job satisfaction, student achievement, and the cost of primary education in francophone sub-Saharan Africa, Hamburg: HHWQ (Hamburg Institute for International Economics) (Discussion Paper n.º 188).


258


Michaelowa, K. 2003. Determinants of primary education quality: What can we learn from PASEC for francophone sub-Saharan Africa? Background paper for the ADEA study: The challenge of learning: improving the quality of basic education in sub-Saharan Africa, Paris: ADEA.

MINEDAF. December 2002. Universal primary education – a goal for all. Statistical document MINEDAF VIII. Paper presented at the Eighth Conference of Ministers of Education of African Member States (MINEDAF VIII), Dar-Es-Salaam: United Republic of Tanzania.

UIS. 2003. Education statistics: statistical tables (EF). Acceso: 17 de mayo de 2004 en:www.uis.unesco.org/ev.php?URL_ID=5187andURL_ DO=DO_TOPICandURL_SECTION=201


http://www.uis.unesco.org/ev.php?URL_ID=5187andURL_

259

Capítulo 12

¿Cómo puede manejar un país el impacto de resultados “excelentes” de investigaciones

internacionales comparadas? (El estudio de caso de Finlandia)

Pirjo Linnakylä

IntroducciónSe puede ganar un considerable valor agregado de la participación en estudios internacionales comparados sobre calidad de la educación, tales como los realizados por la Asociación Internacional de Evaluación del Rendimiento Escolar (IEA) y la Organización para la Cooperación y el Desarrollo Económicos (OCDE). Las evaluaciones internacionales pueden revelar con más claridad que las evaluaciones nacionales las características especiales de un sistema educativo nacional y su cultura pedagógica. Si se observa de cerca, a menudo es mucho más difícil ver dónde están los puntos fuertes, dónde radica el mejor potencial y, por otra parte, qué es débil, problemático o está estancado.

Teniendo en cuenta lo anterior, se puede estar seguro de que los resultados de las investigaciones internacionales comparadas siempre generan vivas discusiones y acalorados debates entre investigadores, diversos grupos de interés y responsables de la formulación de política, y tienen más probabilidades de tener un fuerte impacto sobre la planifi cación de la educación y la práctica pedagógica. Este parece ser el caso, especialmente cuando los resultados de la evaluación son más bajos de lo esperado. En lo que se refi ere al Reading Literacy Study [Estudio sobre la lectura] de la IEA (Elley, 1992), esto sucedió en Dinamarca, y en relación con el estudio PISA de la OCDE (Adams y Wu, 2002) fue especialmente cierto en el caso de Alemania.

Tensiones entre los resultados nacionales e internacionales de las evaluaciones

En efecto, es muy extraño que cuando los resultados son excelentes, como lo fueron los de Finlandia, tanto en el estudio sobre lectura como en el de PISA, parecen provocar menos atención y debate y tener menos


260


pertinencia en materia de política a nivel nacional. Al mismo tiempo que la prensa a nivel internacional glorifi caba el éxito fi nlandés en PISA, en Finlandia el Ministerio de Educación y la prensa menguaban enérgicamente los hallazgos de la investigación y destacaban, por el contrario, las debilidades en materia de lectura y escritura reveladas en la evaluación nacional efectuada por el Consejo Nacional de Educación de Finlandia en 2001. El ministerio publicó los resultados de las dos evaluaciones al mismo tiempo, pero dieron mucha menos importancia a los hallazgos del PISA que a los estudios nacionales. Esta estrategia de información muy probablemente tuvo que ver con la nueva asignación de horas de clase a la educación básica, que el ministerio acababa de aprobar en 2001, y los planes curriculares, que aumentaron el número de horas asignadas a lengua materna, matemática y educación sanitaria en respuesta a las carencias alegadas en estas asignaturas. Los resultados a nivel internacional estaban en clara contradicción con los argumentos presentados en favor de estas reformas políticas.

Hubo una soprendente disparidad entre los resultados internacionales y los hallazgos de la evaluación nacional. Ésta última sostenía que la lectura entre los jóvenes, tanto en términos de rendimiento como de participación en actividades de lectura, había disminuido sensiblemente y que había una signifi cativa variación entre escuelas, regiones y grupos socioeconómicos, como resultado de la descentralización del poder de decisión. Ya se habían adoptado fi rmes decisiones políticas para remediar la situación: el propósito era volver a centralizar el poder de decisión, hacer los currículos más uniformes (especialmente el tronco común), disminuir la proporción de las asignaturas y cursos electivos, y defi nir los objetivos de aprendizaje y los estándares de califi cación (notas) con mayor precisión. En el nuevo Marco de referencia curricular [Curriculum Framework] publicado en 2002, el papel del tronco común –lengua materna, matemática, educacion cívica y educación sanitaria– se había fortalecido. Además, se agregaron criterios para el “buen rendimiento” en el 2º, 5º y 9º grados.

Variaciones en los niveles de interés: la prensa y los sindicatos de profesores

La cobertura de la prensa sobre los hallazgos iniciales del PISA fue limitada al comienzo. Los principales periódicos publicaron las “tablas de clasifi cación” internacionales, que ordenaban a los países participantes en función del puntaje promedio de rendimiento de los estudiantes. Sin


261

¿Cómo puede manejar un país el impacto de resultados “excelentes” de investigaciones internacionales comparadas?

embargo, los resultados de las evaluaciones nacionales tuvieron mayor cobertura, de modo que en los editoriales de los periódicos, así como en los programas de televisión sobre temas de actualidad, los medios expresaron una gran preocupación por las carencias detectadas en las competencias de alfabetización de los adolescentes fi nlandeses.

La información que aparece en el Cuadro 12.1 presenta la cuantifi cación de la cobertura que la prensa asignó a los resultados de la investigación del PISA un mes después de su difusión. Es evidente que, a partir de estas cifras, hubo un interés inicial relativamente pequeño en los resultados del PISA en Finlandia, como fue también el caso con el estudio de la IEA diez años antes.

El Ministerio de Educación fue bastante activo en la publicación de los resultados de la IEA, pero el sindicato de profesores fue más cauto y tenía miedo de perder recursos para la instrucción. El sindicato estaba particularment preocupado por el aumento del tamaño de las clases, pues según los resultados de la IEA, el buen rendimiento ocurría tanto en clases grandes como pequeñas.

Cuadro 12.1 Cobertura de prensa en los países participantes en el PISA un mes después aproximadamente de la difusión de los resultados de la investigación

País Número de páginas País Número de páginas Alemania 687 Estados Unidos 36Suiza 149 Bélgica 32Canadá 93 Nueva Zelandia 25Reino Unido 88 República de Corea 21Japón 84 Finlandia 8Australia 54

En el contexto del PISA, sin embargo, el sindicato de profesores aplaudió los resultados y elogió el buen trabajo de los profesores. Esto podría tener algo que ver con el hecho de que el sindicato de profesores estaba buscando apoyo del público para sus demandas de aumento de salarios.

El sindicato de profesores estaba a favor del mantenimiento de las asignaturas electivas en el currículo. Los hallazgos del PISA apoyaban este punto de vista al mostrar que el alto rendimiento en el tronco común era posible en asociación con un grado de elección relativamente alto de la asignatura y que un mayor grado de elección no producía mayores


262


diferencias entre las escuelas. Sin embargo, Teacher –la revista del sindicato– nunca publicó los resultados iniciales del PISA. Esto ocurrió mucho más tarde, después que las delegaciones extranjeras y las visitas de estudio empezaran sus estampidas hacia las escuelas fi nlandesas.

La atención internacional aumenta los niveles de interés en Finlandia

La prensa internacional siguió elogiando el sistema fi nlandés de educación debido al éxito mostrado por los resultados del PISA (OECD, 2001, 2002). Esto condujo incluso a un nuevo tipo de “turismo”, en el que cientos de visitantes –entre ellos periodistas, profesores, investigadores y delegaciones ofi ciales de diferentes países– venían a explorar el “secreto del éxito fi nlandés”. Esta amplia y sostenida atención internacional empezó a tener repercusiones en Finlandia. Súbitamente, la prensa fi nlandesa empezó a preocuparse sobre el nivel “real” del rendimiento de los estudiantes fi nlandeses y empezaron a explorar por qué se estaba prestando tan extraordinaria atención al sistema de educación fi nlandés. La prensa incluso empezó a citar artículos publicados en el exterior acerca del éxito fi nlandés.

Todo esto comenzó a parecer excesivo a varios profesores fi nlandeses que habían completado sus estudios en Alemania. Ellos se quedaron impresionados cuando los resultados del PISA mostraron que los estudiantes alemanes rendían mucho menos que sus homólogos fi nlandeses, y manifestaron su sorpresa y desaprobación. Incluso sugirieron que se prohibiera criticar los desempeños escolares de un viejo país civilizado como Alemania.

Los profesores manifestaron sus dudas acerca de la validez de las pruebas, la equivalencia de las traducciones y la comparabilidad de los datos y análisis. Otros investigadores especializados en estudios sobre la mujer minimizaron la brecha de género en favor de las niñas, que era evidente en los resultados del PISA, y presentaron hallazgos de investigación que destacaban la discriminación de las niñas en las prácticas escolares cotidianas (Gordon y Lahelma, 2004). Además, algunos sociólogos criticaron la pertinencia de las evaluaciones internacionales, cuestionaron el papel de la OCDE en el campo de la evaluación de la educación y expresaron su preocupación de que Finlandia debería prestar más atención a las evaluaciones nacionales focalizadas en la política nacional de educación (Ball, 2004; Rinne et al., 2004).


263


Sin embargo, la enorme y persistente atención internacional comenzó a incidir gradualmente sobre las actitudes del personal de alto nivel del Ministerio de Educación. Empezaron a tomar en serio los resultados del PISA, si bien recordando a los otros que no había razón para entusiasmarse con los resultados internacionales de Finlandia y que todos deberían tener en cuenta los alarmantes resultados nacionales. Finalmente, las “buenas noticias” empezaron a fi ltrarse a nivel de la escuela, reforzando la autoestima profesional de directores y profesores, y aumentando la confi anza de los padres de familia en la calidad de la educación fi nlandesa.

En los debates públicos, los profesores y sus asociaciones empezaron a explicar los excelentes resultados de Finlandia en el PISA, acentuando el signifi cado de la sólida formación del personal docente. Los defensores de la educación cívica independiente subrayaron la importancia de los servicios de biblioteca actualizados y las actividades de lectura durante el tiempo de ocio, mientras que las personas involucradas en el sector de los servicios sociales destacaron el apoyo social y cultural suministrados a las familias. Los psicólogos propusieron explicaciones relacionadas con la claridad y la transparencia de la ortografía fi nlandesa (Aro, 2004), mientras que los sociólogos atribuyeron el éxito a la tradicional creencia fi nlandesa en la educación y a la estricta disciplina escolar (Simola, 2004).

La atención internacional aumenta los niveles de interés en otros países participantes en el PISA

La prensa centroeuropea publicitó muy activamente los resultados comparativos del PISA y ensalzó al sistema educativo fi nlandés quizá, o muy probablemente, por los resultados por debajo del promedio obtenidos en sus propios países. Parece ser que, en la perspectiva de los medios de comunicación, “los bajos resultados hacen las mejores noticias”. También parece que los recursos para investigación y desarrollo de la educación están más rápidamente dipsonibles cuando los niveles de rendimiento son bajos.

Esto sucedió, por ejemplo, en Dinamarca tras el Estudio de competencia en lectura de la IEA, cuando el ministro danés de educación fi nanció un estudio adicional comparado sobre prácticas pedagógicas a fi n de descubrir por qué los países nórdicos con altos rendimientos (espcialmente Suecia y Finlandia) tenían mejor desempeño que Dinamarca, donde los niveles de rendimiento se encontraban entre los más bajos. Un resultado clave de este estudio fue que las expectativas de los profesores y los padres de familia tienen un impacto signifi cativo sobre el rendimiento


264


de los estudiantes. También se observó que en Finlandia y Suecia las expectativas de los profesores eran signifi cativamente más altas que en las escuelas danesas.

En el sistema educativo danés, el mismo profesor sigue al mismo grupo de estudiantes a lo largo de su escolaridad primaria. El resultado es que los profesores conocen bien a sus estudiantes pero, por otra parte, sus expectativas tienden a ser menores que en las escuelas fi nlandesas y suecas, donde los profesores cambian después de los grados escolares del nivel primario, dando como resultado, fi nalmente: (a) mayores exigencias sobre los estudiantes de los grados más avanzados; y (b) la elusión del peligro de una categorización subjetiva persistente de los estudiantes por parte de los profesores. La hipótesis inicial de los investigadores daneses en el sentido de que la disciplina estricta y las pruebas exigentes eran las fuerzas impulsoras de los buenos resultados de los estudiantes fi nlandeses no fueron respaldadadas por los análisis (Sommer et al., 1996).

Las autoridades educativas alemanas también se interesaron por el sistema de educación básica fi nlandés, especialmente en el currículo nacional, la formación previa y en servicio de los profesores, los estándares de aprendizaje de los estudiantes, la enseñanza y el aprendizaje en grupos heterogéneos, la educación especial y las prácticas de evaluación. Además, el Ministerio Federal de Educación e Investigación de Alemania fi nanció un estudio comparativo –Condiciones del rendimiento escolar en siete países–, con el propósito de comprender las variaciones internacionales en los resultados del PISA e identifi car qué factores del sistema escolar y de las culturas educativas iban asociados con el alto rendimiento en Canadá, Finlandia, Francia, Inglaterra, los Países Bajos y Suecia, en comparación con el rendimiento en Alemania (Döbert et al., 2004; Linnakylä, 2004). Uno de los resultados de este estudio comparativo fue que los investigadores y responsables políticos alemanes decidieron introducir estándares basados en competencias generales en las escuelas alemanas y comenzaron a planifi car un programa nacional de evaluación a fi n de monitorear la evolución de los resultados del aprendizaje (Klieme, 2004).

Importantes hallazgos de la investigación para Finlandia Gradualmente, las fortalezas y debilidades del sistema educativo

fi nlandés reveladas por los resultados del PISA fueron objeto de análisis y revisión más detallados por parte de los investigadores fi nlandeses. Los resultados se presentaron en tres informes nacionales (Välijärvi et al., 2001; Välijärvi y Linnakylä, 2002; Linnakylä et al., 2004a). Además, el


265


equipo de investigación fi nlandés del PISA publicó –a menudo instados por las partes interesadas en el exterior y no gracias al estímulo del Ministerio de Educación de Finlandia– sus propias conclusiones y debates explicativos en inglés (Välijärvi e Linnakylä, 2002). En estas publicaciones, los investigadores hicieron hincapié en lo que ellos consideraban los resultados más signifi cativos de la investigación del PISA: que calidad y equidad no tienen por qué competir o excluirse mutuamente, sino que pueden ser complementarios, como fue claramente el caso de Finlandia. La interpretación nórdica del principio de igualdad, que favorece la política de acceso equitativo, igualdad de oportunidades para aprender y apoyo especial para las personas débiles y vulnerables, fue claramente estimulada por los resultados del PISA. Carroll (1987) sostuvo hace casi dos décadas que todo avance en términos de más altos niveles promedio en la alfabetización a nivel nacional se había logrado gracias a la mejora en el rendimiento entre los estudiantes más desfavorecidos. Este punto de vista fue respaldado por los resultados del PISA en Finlandia.

Uno de los hallazgos más importantes del PISA, en términos de importancia política, fue que en Finlandia la diferencia entre los estudiantes con altos y bajos rendimientos era estrecha, con una varianza en el rendimiento del estudiante que era la segunda más pequeña después de la República de Corea. Además, Finlandia mostró un impacto promedio bajo entre los países de la OCDE del origen socioeconómico de los padres sobre el rendimiento de los estudiantes, y las diferencias entre las escuelas en el rendimiento promedio de los estudiantes estaban entre las más pequeñas en todos los países de la OCDE. También fue particularmente interesante para los responsables políticos el hecho de que el último 10 % de las escuelas fi nlandesas con rendimiento más bajo registró un puntaje de casi 100 puntos por encima del promedio respectivo de la OCDE (Välijärvi y Malin, 2003) y que las diferencias regionales en los resultados del PISA en el país eran insignifi cantes.

En síntesis, se mostró que en Finlandia no hay mucha diferencia en relación con la región en la que se vive y a qué escuela se va, porque las oportunidades que los estudiantes tienen de aprender son casi las mismas en todo el país.

Sin embargo, Finlandia tuvo menos éxito en garantizar la igualdad entre los géneros, lo que ya había sido indicado en el PISA por la diferencia en la comprensión de lectura que era la más amplia en Finlandia. Ésta fue de 51 puntos, mientras que el promedio de la OCDE se situaba en 32 puntos.


266


Si se compara con evaluaciones internacionales anteriores, parecía que la brecha de género se había ampliado no sólo en Finlandia, sino también en otros países de la OCDE. Esta diferencia, sin embargo, no se debía a que los niños fi nlandeses lo estuvieran haciendo mal, sino a que las niñas fi nlandesas se desempeñaban excepcionalmente bien.

Hay que destacar que los niños fi nlandeses tuvieron un mejor puntaje que los niños de cualquier otro país de la OCDE, e incluso mejor que el de las niñas en muchos de los países participantes. Sin embargo, subsiste el hecho de que en Finlandia la brecha de género en comprensión de lectura fue excepcionalmente alta. Este mismo hallazgo alarmante también se había dado en las evaluaciones nacionales.

Retos para las políticas y prácticas de reforma El desafío más importante que afronta Finlandia en relación con el

desarrollo de la comprensión de lectura parece estar relacionado con la reducción de la brecha de género en el desempeño en comprensión de lectura y la participaciòn en actividades de lectura fuera de la escuela. Dado que la participación en actividades de lectura ha demostrado ser el factor más importante del buen rendimiento, las cuestiones clave son cómo estimular el interés y la participación entre los niños, y cómo ayudarlos a encontrar placer en la lectura. La búsqueda de respuestas a estas preguntas ha tenido implicaciones signifi cativas para la política y la investigación. El Consejo Nacional de Educación lanzó un programa nacional y un programa nórdico conjunto para mejorar las competencias de lectura de los lectores débiles, especialmente niños. La campaña nacional “Finlandia lee” definió los siguientes objetivos para el período 2002-2004, convergentes con los retos que surgieron de los resultados del PISA: (a) mejorar el rendimiento de la quinta parte más débil de los estudiantes; (b) desarrollar métodos para hacer que la lectura fuera más atractiva para los varones; (c) mejorar el rendimiento de la lectura crítica y refl exiva; (d) aumentar el tiempo que los estudiantes destinan a leer y escribir en la escuela y en su tiempo libre; (e) mejorar las condiciones de las bibliotecas escolares y consolidar la cooperación entre las escuelas y las bibliotecas de la comunidad; (f) aumentar los esfuerzos de los profesores para desarrollar las competencias en materia de comprensión de lectura y escritura; (g) mejorar las competencias de los profesores de aula en lengua materna y enseñanza de la literatura; (h) mejorar el conocimiento de los profesores de la literatura para niños y jóvenes; (i) ampliar la cooperación entre la escuela y los hogares de los estudiantes en el campo de la lectura


267


y la escritura; y (j) mejorar la instrucción de los estudiantes inmigrantes, tanto en fi nlandés como segunda lengua como en su primera lengua.

Como puede verse a partir de lo anterior, el Ministerio y el Consejo Nacional de Educación adoptaron medidas para mejorar las competencias lingüísticas y de alfabetización de los inmigrantes. Esto es en parte consecuencia de los resultados del PISA. Si bien el porcentaje de inmigrantes en la población fi nlandesa es bastante bajo, los resultados del PISA de otros países nórdicos y de Europa central indican que hay buenas razones para abordar el desarrollo de las competencias de alfabetización de los niños inmigrantes lo más temprano posible para evitar los problemas que surgen debido a pobres competencias en alfabetización y la consecuente falta de movitación para proseguir los estudios y aprovechar las oportunidades para ejercer una ciudadanía activa.

Mejora de la cooperación en investigación entre los países nórdicos

Fuera del Ministerio de Educación existen varios estudios en curso sobre el PISA, tanto nacionales como bajo la modalidad de proyectos de cooperación nórdica. Esta cooperación, que ya había comenzado en el marco del Estudio de Competencia en Lectura de la IEA, también ha sido activa en el marco del PISA, y se ha concentrado particularmente en la comprensión más detallada de las diferencias y similaridades en las culturas escolares y también en los esfuerzos pedagógicos conjuntos para mejorar el rendimiento en alfabetización de los estudiantes en situación de riesgo, provenientes de medios sociales desfavorecidos.

Incluso la Academia de Ciencias de Finlandia ha apoyado diversos estudios sobre los datos del PISA sobre Filandia. Esta investigación se ha interesado en explorar los factores que inciden sobre la equidad en la evaluación y el rendimiento en comprensión de lectura. Por ejemplo, una futura tesis doctoral se ha concentrado en la equivalencia de las traducciones internacionales de las pruebas y otra en la “autenticidad” de las pruebas de lectura en el contexto cultural fi nlandés. También ha habido tesis que exploran las diferencias entre las escuelas mediante modelos multinivel.

La cooperación nórdica entre los investigadores del PISA ha posibilitado la realización de un reguero de estudios adicionales. En 2003, los investigadores publicaron Northern Lights on PISA (Lie et al., 2003), que se concentró en la igualdad con especial énfasis en género. Un estudio secundario del que se da cuenta en el libro sugirió que entre los factores


268


afectivos clave detrás de la brecha de género en los países nórdicos estaban la participación en la lectura, la lectura frecuente de literatura de fi cción, una fuerte autoestima por aprender a leer, así como los esfuerzos y la perseverancia de los estudiantes. Al controlar simultáneamente estos factores, fue posible construir una situación “imaginaria” en la que niños y niñas “participaban igualmente” en la lectura en la escuela y en el tiempo de ocio, en el que la autoestima de los varones eran tan fuerte como la de las niñas, en la que varones y niñas mostraban iguales esfuerzos y perseverancia en relación con la lectura. En esta situación imaginaria, la brecha de género desaparecía –como en Dinamarca– o por lo menos disminuía signifi cativamente –como fue el caso en todos los otros países nórdicos–. En Dinamarca, la diferencia tras el control de los factores clave incluso se tornó ligeramente ventajosa para los varones. Estos hallazgos de la investigación destacaron la importancia de ligar los elementos cognitivos y afectivos del aprendizaje.

Los resultados del PISA sugieren que los países nórdicos podrían aprender más acerca de la igualdad de género de otros países, especialmente en relación con la lectura refl exiva y evaluativa de los varones. En Australia, Estados Unidos, Irlanda y Nueva Zelandia había menores brecha de género que en la mayoría de los países nórdicos en lectura refl exiva y evaluativa, que era el área en la que los países nórdicos se enfrentaban a un desafío.

La cooperación entre los investigadores nórdicos ha incluido un número especial de la Scandinavian Journal of Educational Research, titulada ‘Nordic PISA 2000 in a Socio-cultural Perspective’ [PISA 2000 en los países nórdicos en una perspectiva sociocultural] (Lie y Linnakylä, 2003). Los artículos de este número especial se concentran en el capital socioeconómico y cultural asociado a los resultados del aprendizaje en los campos de la comprensión de lectura y conocimientos básicos en ciencias. En los artículos que se concentran en la comprensión de lectura, el énfasis se coloca en los determinantes del bajo rendimiento entre estudiantes minoritarios y mayoritarios, así como en los perfi les de diferentes tipos de alfabetización de los estudiantes (Hvistendahl y Roe, 2004; Linnakylä et al., 2004a; Leino et al., 2004).

Incluso si el rendimiento en comprensión de lectura de los estudiantes fi nlandeses, a la luz del PISA 2000, fue excelente en promedio, todavía hay lugar para la mejora. Sin embargo, esta mejora presupone desarrollar la sensibilidad para captar y atender las necesidades individuales de los


269


estudiantes. En el PISA, por ejemplo, se encontró que 7 % de los estudiantes finlandeses encontraban graves dificultades. Según los estándares internacionales, la proporción es pequeña, pero si se asume que cada estudiante tiene el derecho y se supone que debe lograr un adecuado nivel de aprendizaje y el éxito relativo correspondientes, la lucha para minimizar el bajo rendimiento debe proseguir. Los investigadores suecos y fi nlandeses han conjugado esfuerzos para analizar más detalladamente qué factores aumentan el riesgo de un bajo rendimiento en alfabetización (Linnakylä et al., 2004b). Los hallazgos de este estudio adicional no dieron lugar a la revelación de grandes sorpresas, pero probaron nuevamente que el género –ser varón–, el estatus de inmigrante, el origen socioeconómico bajo, el número de hermanos, la baja autoestima académica, la falta de participación en lectura y el uso excesivo de la computadora eran factores que estaban significativameante asociados con bajos niveles de rendimiento en comprensión de lectura en Finlandia y Suecia, cuando se controlaban los otros factores. En Suecia, el riesgo de tener bajo rendimiento aumentaba adicionalmente por pertenecer a una familia monoparental y la falta de un capital cultural relacionado con la cultura clásica. En Finlandia, el riesgo aumentaba por la escasa comunicación cultural en el hogar y la inasistencia a la escuela (Linnakylä et al., 2004a).

Conclusión Los resultados de las investigaciones de la IEA y el PISA muestran

que el sistema de escuelas secundarias no selectivas de Finlandia tiene éxito al ofrecer a la mayoría de sus estudiantes un sólido fundamento para proseguir sus estudios. Los resultados también auguran un auspicioso futuro para la pequeña nación cuya originalidad cultural, éxito económico y cohesión social están basados en el desemepeño de su sistema educativo. Los resultados de la investigación del PISA en Finlandia muestran que un sistema educativo que hace hincapié en la igualdad también puede alcanzar una alta calidad.

La prosecución de la tradición fi nlandesa de igualdad será puesta a prueba seriamente dentro de poco tiempo debido al creciente número de estudiantes inmigrantes y al aumento de la heterogeneidad cultural. Para afrontar este problema, Finlandia tendrá que aprender mucho de los países que han tenido una vasta experiencia en la gestión de programas educativos para niños inmigrantes.

El pueblo fi nlandés cree fuertemente en el sistema de educación básica no selectivo, en el que cada niño asiste a la escuela gratuita durante


270


nueve años, desde los 7 hasta los 16 años. La escuela no selectiva, sin embargo, no sólo es un sistema. Es también un asunto de concepción y práctica pedagógicas. Enfatiza el hecho de que las escuelas tienen que adecuarse a las necesidades del niño y no a la inversa.

La pedagogía aplicada en las escuelas fi nlandesas ha sido concebida para afrontar grupos heterogéneos de estudiantes y su propósito es enseñar a todos los niños a aprender y trabajar juntos y, en última instancia, a fortalecer la cohesión social. En este sistema, los profesores no pueden excluir a nadie o simplemente mandar a un alumno débil a otra escuela. Por el contrario, en cada escuela se deben tomar en cuenta los intereses y preferencias de los estudiantes cuando se selecciona el contenido de los cursos, los textos esolares, las estrategias de aprendizaje y los mecanismos de evaluación. El éxito al abordar esta diversidad en el seno de la escuela sólo se puede lograr con clases de tamaño pequeño, un currículo fl exible basado en la escuela y planifi cado por los profesores, una instrucción centrada en el estudiante, la orientación y la educación especial que apoya a los estudiantes con difi cultades.

En la cultura fi nlandesa, la enseñanza está clasifi cada entre las profesiones más importantes de la sociedad y se ha invertido una gran cantidad de recursos en la formación del personal docente. También se espera que los profesores den lo mejor de sí mismos en su calidad de verdaderos expertos en pedagogía que gozan de una considerable independencia en el aula. Igualmente, las escuelas gozan de una gran autonomía en la organización de su trabajo, dentro de los fl exibles límites de un marco de referencia curricular nacional. Esta autonomía será, esperémoslo, sostenida en el futuro, ya que hace que la profesión docente sea más atractiva y permite atraer a los estudiantes más capaces hacia los programas de formación de docentes. Se trata de profesores creativos, independientes y responsables, que tienen una fuerte motivación y, sobre todo, la mejor garantía para educar a una nueva generación de personas creativas, independientes y socialmente responsables.

No obstante, el sistema y la cultura de evaluación están cambiando en Finlandia, en parte debido al PISA. La controversia acerca de los resultados nacionales e internacionales de las evaluaciones, y el menoscabo de los resultados internacionales, ha desempeñado cierto papel en la reorganización de la evaluación de la educación a nivel nacional en Finlandia. Basándose en un decreto del Consejo de Estado, el Ministerio de Educación creó un órgano independiente en la primavera de 2003, el Consejo de Evaluación Educacional, con la responsabilidad de planifi car y coordinar todas las evaluaciones


271


nacionales e internacionales en Finlandia. El secretariado del consejo tiene como sede la Universidad de Jyväskylä, que tiene una larga tradición en la gestión de evaluaciones internacionales comparadas de resultados de aprendizaje. El tiempo nos dirá hasta qué punto este nuevo órgano ha tenido éxito en sus esfuerzos para desarrollar un programa de evaluación independiente de la administración, en el que las evaluaciones nacionales e internacionales son razonablemente equilibradas y coordinadas para complementarse unas a otras, al mismo tiempo que evitan soberecargar y limitar el trabajo de las escuelas y los profesores.


Aro, M. 2004. Learning to read. The effect of orthography, Jyväskylä, Finland: University of Jyväskylä (Jyväskylä studies in education, psychology and social research, publication n.º 237).

Ball, S. 2004. Suorituskeskeisyys ja yksityistäminen jälkihyvinvointivaltion koulutuspolitiikassa [Performativity, privatisation and the educational policy of the post-welfare state], The Finnish Journal of Education Kasvatus, vol. 35, n.º 1, pp. 6-20.

Carroll, J.B. 1987. “The national assessments in reading: are we misreading the fi ndings?”, Phi Delta Kappa, n.º 68, pp. 424-430.

Döbert, H.; E. Klieme; W. Sroka (Eds.). 2004. Conditions of school performance in seven countries. A quest for understanding the international variation of PISA results, Waxmann: Münster.

Elley, W. 1992. How in the world do students read?, Hamburg: International Association for the Evaluation of Educational Achievement (IEA).

Gordon, T.; E. Lahelma. 2004. “Etnografi nen katse koulutuspolitiikkaan [Ethnographic view to educational policy]”, The Finnish Journal of Education Kasvatus, vol. 35, n.º 1, pp. 66-78.

Hvistendahl, R.; A. Roe. 2004. “Achievement, family background and motivation among students with an immigrant background in Norway”, Scandinavian Journal of Educational Research, n.º 3.

Klieme, E. 2004. “Zur Entwicklung nationaler Bildungsstandards. Grundpositionen einer Expertise”, en Th. Fitzer (Hrsg.), Bildungsstandards. Inernationale Erfahrungen – Schulentwicklung – Bildungsreform, Bad Boll: Evangelische Akademie, pp. 256-265.


272


Leino, K.; P. Linnakylä; A. Malin. 2004. “Finnish students’ multiliteracy profi les”, Scandinavian Journal of Educational Research, n.º 3.

Lie, S.; P. Linnakylä (Eds.). 2003. “Nordic PISA 2000 in a socio-cultural perspective”, Scandinavian Journal of Educational Science, n.º 3.

Lie, S.; P. Linnakylä; A. Roe. 2003. Northern lights on PISA. Unity and diversity in the Nordic countries in PISA 2000, University of Oslo, Department of Teacher Education and School Development.

Linnakylä, P. 2004. “Finland”, en Döbert, H.; E. Klieme; W. Sroka (Eds.), Conditions of school performance in seven countries. A quest for understanding the international variation of PISA results, Waxmann: Münster, pp. 150-218.

Linnakylä, P.; S. Sulkunen; I. Arffman. 2004a. Tulevaisuuden lukijat. Suomalaisia lukijaprofi ileja. PISA 2000 [Readers for future. Finnish students’ reader profi les], University of Jyväskylä, IER.

Linnakylä, P.; A. Malin; K. Taube. 2004b. “Factors”, Scandinavian Journal of Educational Research, n.º 3.

OECD. 2001. Knowledge and Skills for Life. First results from PISA 2000, Paris: OECD.

OECD. 2002. Reading for Change. Performance and engagement across countries, Paris: OECD.

Rinne, R.; J. Kallo; S. Hokka. 2004. “Liian innokas mukautumaan? OECD: n koulutuspolitiikka ja Suomen vastauksia [Too eager to comply? Educational policies of the OECD and the Finnish response]”, The Finnish Journal of Education Kasvatus, vol. 35, n.º 4, pp. 34-54.

Simola, H. 2004. “Kenraali Aadolf Ehrnrooth ja PISA:n ihme – koulutussosiologisia huomautuksia erääseen suomalaiseen menestystarinaan”, The Finnish Journal of Education Kasvatus, vol. 35, n.º 4, pp. 91-98.

Sommer, M.; J. Lau; J. Mejding. 1996. Nordlaes – en nordisk undersögelse af laesefaerdigheder i 1.-3. klasse, Copenhagen: Danmarks Paedagogiske Institut.

Swap, S. 1993. Developing Home-School Partnerships, New York: Teachers College Press.


273


Söderberg, S. 2001. “Attitudes and expectations in relation to school: Swedish fi ndings and some international comparisons”, en Schooling for tomorrow: what schools for the future, Paris: OECD.

Välijärvi, J.; P. Linnakylä (Eds.). 2002. “Tulevaisuuden osaajat. PISA 2000 [Competent for future]”, University of Jyväskylä, IER.

Välijärvi, J.; P. Linnakylä; P. Kupari; P. Reinikainen. 2001 Suomen tulevaisuuden osaajat [Competent for future in Finland], University of Jyväskylä, IER.

Välijärvi, J.; P. Linnakylä; P. Kupari; P. Reinikainen; I. Arffman. 2002. The Finnish success in PISA – and some reasons behind it, University of Jyväskylä, IER.


274

Capítulo 13

¿Cómo puede un país manejar el impacto de resultados “pobres” en un estudio

internacional comparado? (El estudio de caso de Alemania)

Jeanne Rubner

Introducción Muchos padres de familia alemanes piensan que la escuela es un lugar necesario pero desagradable. Esta actitud ha tenido una larga tradición y en cierto sentido nos explica por qué las escuelas primarias funcionan únicamente en la mañana y los niños pasan las tardes en casa. Los padres de familia alemanes también tienden a ver el mundo de la educación como si tuviera dos propósitos distintos: formar la personalidad y suministrar conocimiento. El primero es visto como el coto privado de los padres, quienes son responsables de educar a los niños, y el segundo como un asunto de la escuela, que se espera se concentre en el desarrollo cognitivo de los niños.

Durante mucho tiempo, el público alemán ha tenido la impresión de que esta “separación de poderes” funcionaba bien. Asumieron que las escuelas alemanas eran mejores que las de otros países desarrollados y estaban convencidos de que el Abitur alemán era superior en relación con el contenido, el equilibrio y el reto intelectual cuando se comparaba con otros diplomas de educación secundaria europeos o estadounidense.

Estos presupuestos fueron destrozados hacia fi nes de 2001, cuando aparecieron los resultados de la investigación del Programa Internacional de Evaluación de Estudiantes (PISA) (OECD, 2001), ejecutado por la Organización para la Cooperación y el Desarrollo Económicos. Estos resultados mostraron que los estudiantes alemanes de 15 años se desempeñaban de manera relativamente pobre cuando se los comparaba con jóvenes de 15 años en otros países de la OCDE. En efecto, los jóvenes de 15 años alemanes ocupaban solamente el puesto 25 de un total de 32 países en lectura y el puesto 21 en matemática y ciencias. Un resultado incluso más chocante fue que en Alemania la correlación entre el origen socioeconómico de los estudiantes y su rendimiento educacional era muy


275

¿Cómo puede un país manejar el impacto de resultados “pobres”?

fuerte. Esto indicaba que había importantes diferencias de rendimiento educacional entre niños provenientes de familias pobres y ricas. Tomados en conjunto, estos resultados de investigación aportaron pruebas fehacientes de que el sistema educativo alemán estaba lejos de muchos otros países de la OCDE en relación con la “calidad” y la “equidad”.

Justo cuando estas sombrías noticias se estaban asimilando en Alemania, otras preocupaciones aparecieron en relación con los vínculos entre educación y mercado de trabajo. En particular, se indicó que, comparados con otros países de la OCDE, los graduados de la universidad alemana son muy “viejos”, con una edad promedio de alrededor de 27 años. Esto ha sucedido debido a un proceso en tres etapas: (a) los estudiantes de las escuelas secundarias alemanas no se gradúan hasta que tienen, en promedio, alrededor de 19 años; (b) luego tienen que cumplir un año de servicio militar; y, fi nalmente, (c) completar un ciclo para graduarse en la universidad toma mucho tiempo. Durante muchos años, el público alemán no se preocupó mucho por esta cuestión, porque simplemente asumía que el sistema de educación alemán producía graduados más viejos, pero mejores. Sin embargo, los resultados de la investigación del TIMSS y el PISA, combinados con un aumento en la movilidad de la fuerza de trabajo en la Unión Europea, provocaron ansiedad, dado que incluso los alemanes con un alto nivel de educación estaban preocupados por la “competición por los puestos de trabajo” en un mundo crecientemente globalizado.

Varios años antes de la publicación de los resultados del PISA, el primer estudio del TIMSS (Beaton et al., 1996) ejecutado por la Asociación Internacional de Evaluación del Rendimiento Escolar (IEA) aportó mensajes similares sobre el bajo rendimiento del sistema educativo alemán. La prensa alemana se quedó “estupefacta” al dar cuenta de que las escuelas de los Estados Unidos, ampliamente consideradas como algo inferiores, se clasifi caban casi en el mismo nivel que las alemanas en matemática y ciencias.

A pesar de estas tempranas “señales de alarma” sobre la calidad de la educación en Alemania, los resultados del TIMSS no produjeron una gran cantidad de debate entre el gobierno, el público y los profesores. Algunas personas habían sugerido que la razón de todo esto estaba en que el TIMSS, a diferencia del PISA, no aplicó pruebas de lectura, que siempre había sido considerada en Alemania como algo que desempeñaba un papel central de la escuela y un pilar esencial de una sociedad cultivada. Otros pensaron que


276


las limitadas reacciones ante los resultados del TIMSS se debieron a que “rompían el hielo”, en el sentido de que iniciaban una ola de toma de conciencia del gobierno y el público sobre las comparaciones. Por tanto, los resultados del PISA capitalizaron esta acrecentada conciencia varios años más tarde. Otros consideraban incluso que porque el PISA había sido patrocinado por la OCDE estaba en mejores condiciones para relacionar el rendimiento educativo comparado con el rendimiento económico nacional, justo en el momento en que se producían debates políticos acerca de una percepción ampliamente difundida entre el público de un deterioro de la ventaja de Alemania con respecto a la competencia en nuevas tecnologías e industria manufacturera.

¿Qué resultados consideró importantes el ministerio y por qué?

Diferencias regionales de rendimiento

Es importante tener en mente que, comparada con muchos otros países europeos, la “política educativa” es un asunto complicado en Alemania debido a que hay un ministerio de educación para cada uno de los 16 Länder (estados federados). Cada estado federal es responsable de sus escuelas, universidades y desarrollo cultural. En años recientes, ha habido cierto progreso en la cooperación entre los Länder en relación con la aceptación de los diplomas secundarios expedidos por los otros estados federados. Sin embargo, todavía son muy comunes los acalorados debates acerca de la educación, especialmente entre los Länder gobernados por diferentes partidos políticos.

Una de las grandes sorpresas observadas en los resultados de la investigación del PISA fue que el alumno promedio de 15 años de edad en varios Länder estaba adelantado un año en relación con el alumno de 15 años de otros Länder. En efecto, durante cierto tiempo, las diferencias de niveles de rendimiento entre Baviera y Renania Septentrional-Wesfalia atrajeron más la atención de los ministerios de educación, los padres de familia y los periódicos que el bajo rendimiento de Alemania en su conjunto.

Duración de la educación secundaria

Los resultados de la investigación del TIMSS plantearon interrogantes acerca de la estructura y la duracción del segundo ciclo de educación secundaria en Alemania. Ya había un debate en curso sobre este asunto cuando se publicaron los resultados del TIMSS, debido a que la unifi cación de Alemania oriental y Alemania occidental se había acompañado de diferentes


277


enfoques de los Länder en relación con la duración total de la escolaridad. Por ejemplo, varios de los “nuevos” Länder en Alemania oriental tenían 12 grados; sin embargo, algunos pasaron a 13 grados a fi n de alinearse con muchos de los Länder de Alemania occidental.

Estos cambios en la duración de la escolaridad fueron cuestionados por los resultados de la investigación del TIMSS, porque se demostró que las ganancias en conocimientos entre el 12º y el 13º grados en Alemania sólo se percibía en el área de física, y esto lo explicaron los científi cos como un resultado de la enseñanza adicional de la física cuántica moderna que ayudó a los estudiantes a comprender mejor algunos conceptos físicos. Sin embargo, fueron los resultados en matemática –en los que no se notó ninguna ganancia entre el 12º y el 13º grados– los que provocaron un debate público sobre la duración de la educación secundaria.

Debido a los resultados del TIMSS, los Länder “conservadores” inmediatamente emprendieron planes para acortar la duración de la educación secundaria, mientras que los Länder “social demócratas” eran reacios a seguir. La cuestión fue, y aún lo es, muy controvertida, ya que los sindicatos de profesores y la mayoría de las organizaciones de padres de familia apoyan la opción de 13 grados. Los profesores han sostenido públicamente que un menor número de años reduciría la cantidad de conocimientos que los alumnos obtienen en la escuela y en privado han manifestado sus preocupaciones sobre la reducción de la duración de la escolarización, aduciendo que se vería seguida de una reducción en el número de profesores. Por el contrario, los padres de familia estaban preocupados porque un número menor de años en la escuela ejercería más presión sobre sus hijos, pues se sostuvo que cualquier reforma en esta área no reduciría los niveles de rendimiento de los estudiantes.

Comparaciones con otros países

Los resultados de la investigación del TIMSS también mostraron que los estudiantes alemanes habían tenido un rendimiento bajo comparado con varios países del Asia Sudoriental. Esto suscitó la búsqueda de explicaciones, que a veces se convirtió en la búsqueda de una “varita mágica” que ofreciera una pasarela inmediata y exitosa hacia la reforma de la educación. Las “explicaciones” más generalizadas estaban asociadas con diferencias entre Alemania y los países del Asia Sudoriental en relación con los métodos de enseñanza, la formación del personal docente y la segregación escolar.


278


■ Métodos de enseñanza

Registros en video de la investigación del TIMSS muestran que los profesores de matemática alemanes y japoneses tienen enfoques de enseñanza diferentes. Esto provocó llamados a los profesores alemanes para que siguieran a sus colegas japoneses y pusieran más énfasis en el conocimiento de los conceptos matemáticos que en el aprendizaje memorístico de fórmulas y estimularan a los estudiantes para que buscaran diferentes maneras de resolver un problema en lugar de insistir en una única “solución” correcta.

■ Formación del personal docente

Los sindicatos de profesores no quisieron ser tratados como chivos expiatorios por los problemas educativos y plantearon la necesidad de una mayor formación de los profesores en su asignatura y en pedagogía. Dada la duración para la obtención de diplomas en la universidad alemana, se llegó al acuerdo de que los profesores alemanes estaban bien formados en su asignatura y que el “problema de formación” estaba asociado a un défi cit en el aspecto pedagógico. Esto se abordó de muy diversas maneras en todos los Länder, incluyendo el cambio en la organización de los diplomas universitarios para pasar a una estructura licenciatura-maestría que brindaría formación en la asignatura durante la fase de licenciatura, y pedagogía y psicología durante la fase de maestría.

■ Segregación escolar

Tras cuatro años de educación primaria, los niños alemanes continúan su educación básica hasta el noveno grado o prosiguen la escuela media hasta el décimo grado o asisten a la escuela secundaria durante ocho o nueve años, dependiendo de sus niveles de rendimiento en la escuela primaria. Esta segregación en diferentes tipos de escuela ha sido un problema durante muchos años en Alemania. En la década de los setenta, hubo un intento de crear un sistema escolar no selectivo en los Länder gobernados por el Partido Social Demócrata. Sin embargo, la idea de escuelas no selectivas nunca se aceptó en Alemania debido a una presunción generalizada de que un sistema selectivo es mejor para los niños porque aprenden más efi cazmente si se los coloca en grupos de capacidades homogéneas.

Los resultados de la investigación del PISA cuestionaron esta presunción. Varios países con un buen rendimiento en el PISA tenían sistemas de educación no selectivos, siendo Finlandia y Suecia los países


279


modelo. La concepción en las escuelas no selectivas de estos países era que había que apoyar a cada niño todo lo que fuera posible y, aun así, se obtienen excelentes resultados. Muchos políticos, investigadores, funcionarios y representantes de sindicatos de profesores alemanes viajaron a estos dos países con el propósito de descubrir por qué el apoyo a los estudiantes y el rendimiento de los estudiantes no eran excluyentes. En Alemania tuvo lugar un vigoroso debate en dos niveles diferentes: entre diversos ministerios de educación de los Länder y varios grupos de actores en los Länder.

■ Equidad social

El Gobierno Federal de Alemania se percibe a sí mismo como el guardián de la igualdad de oportunidades y esta misión aparece en la Constitución de Alemania. No obstante, los resultados del PISA indicaron fracasos en esta área. Por ejemplo, jóvenes de 15 años en Bremen registraron niveles similares a sus contrapartes en países en desarrollo, mientras que jóvenes de 15 años de Baviera estaban más próximos de niveles de rendimiento asociados con países más desarrollados. Aún más perturbador fue el descubrimiento de que la correlación entre los orígenes sociales de los estudiantes y sus niveles de rendimiento eran mayores en Alemania que en cualquier otro país de la OCDE. Esta investigación del PISA provocó mucha especulación sobre por qué las escuelas alemanas tenían un nivel tan alto de desigualdad social. Los educadores indicaron tres razones principales de esta situación.

Primera, había habido poca integración de los niños inmigrantes en el sistema de escuelas alemanas y muchos de estos niños (especialmente los de la comunidad turca) no habían podido seguir las lecciones en las clases. Entre las reformas que se sugirieron estaban mejores métodos de evaluación de lenguas y la oferta de clases intensivas de idioma.

Segunda, los niños alemanes empiezan la escuela mucho más tarde que los niños de otros países y la mayoría de los niños alemanes no tienen acceso a la educación preescolar, que incluye tiempo de enseñanza formal. El resultado fue que hubo mucho debate entre los ministerios de educación de los Länder acerca de la introducción de un curriculo formal en la educación preescolar que incluyera la exigencia de satisfacer estándares educativos mínimos.

Tercera, Alemania es uno de los pocos países industrializados en el mundo donde los niños no van a la escuela en la tarde. Por ejemplo, la


280


mayoría de los días la escuela termina a la 1:00 pm, hora en la que se espera que los niños retornen a casa para el almuerzo y realicen sus tareas bajo la supervisión de su madre. Aún se discuten reformas en esta área en los ministerios de educación de los Länder y se promueven de manera activa por el Gobierno Federal de Alemania.

¿Qué tipo de diálogo, presentación de resultados y grupos destinatarios utilizó el ministerio y por qué?

Los investigadores alemanes que participaron en los proyectos TIMSS y PISA trabajaban en el Instituto Max Planck de Investigación Educacional en Berlín. Estos investigadores, junto con representantes de la Conferencia de los Ministerios de Educación de los Länder, presentaron los resultados de los estudios en conferencias de prensa. Los resultados se publicaron en forma de libros y los investigadores dieron entrevistas. Los investigadores tuvieron cuidado de que sus declaraciones no fueran mal utilizadas con propósitos políticos. Sin embargo, algunos políticos y sindicatos consideraron esta actitud como una manera “diplomática” de interpretar los resultados. Los ministerios de educación de los Länder concentraron sus estrategias de difusión en los científi cos y no previeron la participación directa de otros grupos.

Cuando se publicaron los datos del TIMSS y el PISA, hubo apuro en volver a analizar los datos con la esperanza de que las “malas noticias” de estos proyectos se debieran a alguna falta en los análisis de los datos. Por ejemplo, algunos científi cos cuestionaron la clasifi cación de los países hecha en el TIMSS, sosteniendo que se había incluido en la prueba a los alumnos alemanes menos capaces de las escuelas ténicas, mientras que en Francia y en otros países sólo se había incluido a los estudiantes de secundaria orientados más académicamente.

¿Qué reformas de política y práctica ministeriales derivaron de los resultados?

Uno de los más importantes impactos de los proyectos TIMSS y PISA en Alemania ha sido la manera en que precipitaron la aceptación de la necesidad de una amplia reforma de la educación tras muchos años de autosatisfacción equivocada y cierto espíritu de campanario. Esto situó a Alemania y sus 16 ministerios de educación en el camino del cambio, guiada por los resultados de los estudios internacionales comparados sobre la calidad de la educación.


281


En Alemania hubo cuatro áreas importantes en las que se produjeron reformas concretas de política y práctica gracias a la disponibilidad y uso de los resultados del TIMSS y el PISA.

El establecimiento de “estándares” y otras mediciones comunes

Los ministros de educación de los Länder decidieron establecer “estándares” convenidos bajo la forma de objetivos educativos para grados escolares específi cos. Esto quiere decir que los ministros de educación aceptaron fi nalmente que hay cosas en común en Alemania en relación con “lo que cada estudiante debe aprender”. Ya se han publicado los primeros “estándares” y serán obligatorios para todas las escuelas en todos los Lánder a partir del año académico 2005-2006. Este resultado es, en efecto, notable, porque durante muchos años no hubo acuerdo en los Lánder acerca del contenido y la secuencia del currículo.

Mientras tanto, los ministros han creado una agencia responsable de la producción de pruebas a fi n de supervisar los estándares. Esta agencia es un instituto situado en la Universidad Humboldt en Berlín y entraría en funciones plenamente a fi nes de 2005.

Un resultado más simbólico es el acuerdo entre el Gobierno Federal y los Lánder para publicar cada dos años un informe común sobre el sistema educativo. Hasta ahora, dada la responsabilidad compartida, los Länder han publicado más o menos regularmente esos infomes sobre el sistema educativo, mientras que el Gobierno Federal publicaba informes sobre la educación profesional. En el futuro, ambas instancias publicarán sus informes en un solo libro.

Escolarización de jornada completa

Se ha planifi cado un programa federal, con un costo inicial de 4 mil millones de euros, que progresivamente hará que los estudiantes alemanes pasen a tener una escolarización de jornada completa. Tras un amplio debate, todos los Länder suscribieron el acuerdo con la propuesta federal y se esperaba que la fi nanciación comenzara a asignarse a las regiones en 2005. Por ahora, todos los Länder han comenzado a utilizar el dinero federal y se acepta más ampliamente que Alemania necesita más escuelas de jornada completa.

Duración de la educación secundaria

En muchas regiones, las escuelas secundarias han cambiado –o cambiarán– de un sistema de 13 grados a otro de 12. Incluso el más


282


bien conservador y tradicional Länder social demócrata de Renania Septentrional-Wesfalia decidió recortar la duración de la educación secundaria y no sería demasiado ambicioso predecir que, dentro de 10 años, todos los estudiantes de secundaria recibirán su diploma tras 12 años de escolarización y no 13.

Segregación escolar

Con cada nuevo ciclo de resultados del PISA (el último ocurrió en diciembre de 2004), se reanuda el debate sobre la estructura del sistema educativo alemán, principalmente acerca de la segregación de los niños de 10 años de edad en diferentes tipos de escuela. Esta temprana separación es, según muchos expertos, una de las causas de la desigualdad social, o al menos la refuerza. Otros niegan que exista tal correlación y siguen creyendo en los benefi cios de diferentes tipos de escuelas. El gobierno federal ha tradado de promover el debate público sobre un sistema escolar integrado, pero la opinión general no es favorable. Sin embargo, algunos Länder, como el de Renania Palatinado, han aumentado el número de escuelas integradas. Otros, especialmente en la antigua Alemania oriental, tuvieron siempre (después de la reunifi cación) sólo dos tipos de escuelas y se dan cuenta de que también es menos costoso que tres o incluso cuatro tipos paralelos de escuela, especialmente en las áreas menos pobladas. Dada la disminución de la tasa de nacimientos, Alemania debería encaminarse, en el largo plazo, hacia un sistema menos diferenciado.

Los dos últimos años de escuela

La reforma en esta área es limitada y controvertida. Los Länder de Baviera y Baden-Württemberg han asumido el liderazgo decidiendo estructurar más los mecanismos existentes. Se había permitido que los estudiantes mayores pudieran escoger dos asignaturas principales y dos secundarias, una de las cuales era sometida a una prueba oral. En estas dos regiones, esta fl exibilidad ha sido reemplazada por la exigencia de escoger alemán, matemática, una lengua extranjera y una asignatura científi ca.

Conclusión El impacto global más importante de la participacion de Alemania

en los estudios internacionales comparados sobre la calidad de la educación ha sido una reconsideración de conjunto del papel de la escolarización en un mundo cada vez más globalizado. Se han cuestionado tradiciones de larga data, se han tomado en consideración nuevos enfoques sobre la


283


gestión y el funcionamiento de las escuelas, se han sostenido nuevos debates sobre estrategias educacionales efi caces entre los ministerios de educación de los Länder y se ha promovido la participación del público en el debate sobre la naturaleza e importancia de un sistema educativo efi caz. Estos satisfactorios resultados se basan en pruebas sólidas derivadas de los resultados de las investigaciones del TIMSS y el PISA.

Bibliografía Beaton, A.; M. Martin; I. Mullis; E. Gonzalez; T. Smith; D. Kelly. 1996.

Science achievement in the middle school years, Boston: IEA, TIMSS International Study Center.

OECD. 2001. Knowledge and skills for life: fi rst results from PISA 2000, Paris: OECD.


284

Capítulo 14

¿Cómo pueden trabajar las organizaciones internacionales con los medios de

comunicación para manejar los resultados de los estudios internacionales comparados?

(El estudio de caso de la OCDE) Andreas Schleicher

Introducción El objetivo principal del Programa Internacional de Evaluación de los Estudiantes (PISA, por sus siglas en inglés: Programme for International Student Assessment) que dirige la Organización para la Cooperación y el Desarrollo Económicos (OCDE) es trabajar con los gobiernos de los países de la OCDE para producir una masa crítica de puntos de referencia comparados en materia de política, que se concentren en la calidad de la educación ofrecida por los sistemas educativos.

Muchos investigadores que inician un trabajo en esta área asumen, si diseñan y administran los instrumentos de la recolección de datos que suministran datos comparativos nacionales válidos, que los resultados serán tomados en consideración automáticamente por los responsables de la formulación de política quienes, a su vez, facilitarán la publicación y utilización de los hallazgos más importantes. Desafortunadamente, esas conexiones lineales entre ‘información’, ‘difusión’ e ‘impacto de política’ son prácticamente inexistentes en el campo de la educación. Por esta razón, los investigadores que deseen infl uir sobre la política deben integrar estrategias para una amplia difusión de los resultados de la investigación en el diseño de los estudios internacionales comparados.

Los investigadores que deseen maximizar el impacto de los estudios internacionales comparados deben prever la difusión y el uso de los resultados de la investigación en dos fases. La primera persigue obtener y difundir resultados internacionales comparados válidos y analizar sus implicaciones políticas. La segunda está relacionada con la concienciación


285

¿Cómo pueden trabajar las organizaciones con los medios de comunicación?

de las implicaciones políticas entre los principales actores, de manera que se motive al gobierno a responder con una acción apropiada. Sin embargo, a fi n de fortalecer los vínculos entre los resultados de la investigación y la acción, también se requiere comprender plenamente cómo responden los gobiernos a los hallazgos de los estudios internacionales comparados y qué los lleva a la implementación de política. Además, es necesario pensar en cómo sostener el impacto de la investigación mediante la implementación de evaluaciones regulares en un marco de referencia coherente a largo plazo.

¿Qué sabemos acerca de la calidad de la educación? La educación es un campo cuestionado entre diferentes grupos de

interés. Existe una considerable cantidad de pruebas provenientes de la investigación (OECD y UNESCO, 2003) que muestran que la educación es un determinante clave del éxito individual y también una importante fuerza impulsora detrás del rendimiento económico agregado de los países. Por tanto, padres de familia y gobiernos están preocupados por la calidad de la educación que ofrece su propio sistema educativo. Los profesores también tienen intereses personales y profesionales en ser puntos focales para asegurar una oferta educativa de alta calidad. Tomados en su conjunto, estos grupos de interés cubren un porcentaje signifi cativo de la población de la mayoría de los países del mundo y es por esto que en los medios de comunicación se ha tomado conciencia de la importancia que tiene dar a conocer los resultados de las comparaciones internacionales de los productos de la educación.

Sin embargo, ¿qué sabemos realmente sobre la calidad de la educación? ¿Qué saben los profesores acerca del trabajo de sus colegas en el aula contigua? ¿Qué se sabe en las escuelas acerca de cómo las escuelas del entorno abordan retos similares? ¿Qué es lo que los responsbles de la formulación política saben realmente acerca de la efi cacia de sus sistemas de educación? La respuesta a todas estas preguntass en la mayoría de los países es: “muy poco”.

Muchos sistemas educativos operan en la oscuridad, tomando decisiones sobre “reformas” sin tener un conocimiento sólido sobre el rendimiento de sus escuelas y con una limitada comprensión del impacto potencial de los cambios políticas. Esos enfoques se basan generalmente en la creencia de que tener buenas intenciones es sufi ciente para obtener resultados positivos. El problema aquí es que la toma de decisiones sin información puede ser dominada por tradiciones, ideologías y puntos de


286


vista de las personas infl uyentes o los grupos de presión. Incluso peor, malas decisiones pueden conducir a problemas a largo plazo debido a la falta de información acerca de las incidencias de la política. En un contexto semejante, los medios de comunicación pueden especular libremente sobre los sistemas de educación y confundir a actores importantes al publicar opiniones confl ictivas emitidas por “expertos”.

Estudios comparados bien diseñados del desempeño de los sistemas educativos pueden ayudar a iluminar algo esta área con el propósito de impulsar la toma de decisiones bien informada. No obstante, los estudios comparados de alta calidad a menudo revelan importantes diferencias entre los sistemas educativos y esto generalmente aumenta el interés de los medios de comunicación porque muchas nuevas “historias” se ven impulsadas por una sed de información de contrastes, tales como: éxitos-fracasos, mejoras-deterioros y diferencias-similitudes.

Algunas implicaciones políticas debidas al PISA Los medios de comunicación desempeñaron un papel clave en la

toma de conciencia de las implicaciones políticas de los resultados de la investigación del PISA, porque fueron capaces de describir dónde se encontraban los sistemas de educación unos en relación con otros y también sugerir que los sistemas con mejores rendimientos ofrecían pruebas concretas de “lo que podría ser posible” para todos los sistemas.

Descripción del rendimiento de los estudiantes

Cuando los estudiantes reciben notas en las escuelas, sus padres y el público en general a menudo se preguntan lo que estos números realmente signifi can, en términos de qué es lo que los estudiantes son capaces de hacer realmente. El mismo problema puede surgir en los estudios internacionales comparados sobre la calidad de la educación, si a cada país simplemente se le asigna un “puntaje” que sea igual al promedio del rendimiento de los estudiantes en ese país. Los puntajes promedio nacionales no ofrecen información acerca de las competencias subyacentes de los estudiantes.

A fi n de abordar este problema, la OCDE presentó el rendimiento de los estudiantes en el proyecto PISA mediante la construcción de “niveles de rendimiento”. Por ejemplo, los datos del PISA mostraron que alrededor del 10 % de los estudiantes de 15 años de los países de la OCDE alcanzan un “nivel muy alto de alfabetización”. Eso quiere decir que son capaces de formular sus propias hipótesis, tienen un conocimiento bastante sofi sticado y pueden manejar conceptos más allá de las expectativas.


287


Por el contrario, en el nivel más bajo del espectro de rendimiento también había un 10 % de estudiantes de 15 años de los países de la OCDE que sólo tenían conocimientos y competencias básicas. Estos estudiantes no eran capaces de utilizar la información creativamente a fi n de ampliar su propio conocimiento.

Las implicaciones del défi cit de competencias En el nivel más bajo de rendimiento se situó alrededor del 5 % de

los estudiantes de 15 años, cuyas competencias eran tan limitadas que parecía que habían “perdido contacto” con los requerimientos de rendimiento fundamentales de la escuela formal. Estos estudiantes enfrentan ciertamente perspectivas sombrías para el futuro, especialmente en relación con el empleo.

Algunas personas creen que los défi cit de competencias se pueden enfrentar y superar posteriormente mediante la educación y la formación continua. Desafortunadamente, las pruebas suministradas por el Proyecto de Indicadores de la OCDE (OECD y UNESCO, 2003) mostraron que éste no es el caso. La última cosa que los jóvenes adultos con importantes défi cit de competencias tienen en mente es retornar a un entorno de aprendizaje en el que sólo experimentaron el fracaso. Además, incluso si encuentran un empleo, es poco probable que sus empleadores inviertan en su educación y formación. La investigación de la OCDE ha mostrado que estos desafortunados estudiantes de 15 años tienen importantes défi cit de competencias que probablemente los colocarán en situación de desventaja a lo largo de su vida.

¿Existe un elemento de compensación entre calidad y equidad?

La primera reacción de los medios de comunicación cuando se publican los resultados de los estudios internacionales comparados es colocar a los países en una “tabla de clasifi cación” en la que se ordenan yendo del que tiene el puntaje promedio de rendimiento estudiantil más alto hasta el más bajo. Muchas personas consideran que esas tablas deben interpretarse en asociación con datos contextuales. Por ejemplo, se sabe que los niveles promedio de rendimiento de los estudiantes están relacionados con factores tales como el producto interior bruto (PIB) per cápita, y los niveles de educación y las tasas de alfabetización de la población adulta. Sin embargo, los gobiernos que desean mejoras en un mercado de trabajo competitivo para el desarrollo económico nacional a menudo están más interesados en lo que sus sistemas de educación ofrecen a cohortes de estudiantes y no sólo al “estudiante promedio”.


288


Al tratar de mejorar la calidad del rendimiento de los estudiantes existe la necesidad de tener en cuenta los niveles de rendimiento del estudiante promedio y las cuestiones de equidad. El proyecto PISA evaluó estas dos dimensiones construyendo el diagrama que se presenta en el Gráfi co 14.1. El eje horizontal representa los puntajes promedio de los estudiantes de los países de la OCDE. Estos puntajes se escalonaron sobre el promedio de la OCDE fi jado como cero. El eje vertical representa el grado de equidad social (medido por el valor de la relación entre el origen socioeconómico del estudiante y su rendimiento educativo). Estos puntajes también se escalonaron sobre un promedio de la OCDE fi jado en cero.

Los países en el cuadrante superior derecho del gráfi co están en la muy deseable posición de tener rendimientos relativamente altos de los estudiantes (‘alta calidad’) y relaciones relativamente bajas entre el origen socioeconómico y el rendimiento educativo (‘alta equidad’). La posición menos deseable para un país es estar situado en el cuadrante inferior izquierdo, donde la calidad y la equidad son bajas.

Gráfi co 14.1 La calidad y la equidad de la educación

Alto rendimiento

Hong Kong

Alemania Hungría

República Checa

SuizaDinamarca

PortugalGrecia

Polonia

Italia

Reino Unido

Bélgica

FranciaEstados Unidos

Australia

Nueva Zelandia

AustriaNoruega

Irlanda

Canadá

Suecia

Finlandia

Islandia

CoreaJapón

España

450

-25 -20 -15 -10 -5 0 5 10 15 20 25Bajo rendimiento

Fuente: OECD, 2001.


289


Los países situados en el cuadrante superior izquierdo del Gráfi co 14.1 tienen alta calidad y baja equidad.

Algunas personas podrían considerar que en estos sistemas educativos la calidad de la educación disminuiría si trataran de lograr un alto grado de equidad en el desempeño educacional. También podrían sostener que la aplicación de políticas destinadas a mejorar la calidad de la educación en los países con bajo rendimiento situados en el cuadrante inferior derecho correrían el riesgo de perder en equidad. Sin embargo, hay muchos países, como Canadá, Finlandia, Hong Kong, Japón, República de Corea y Suecia que lo hacen bien en las dos dimensiones. El desempeño de estos países ofrece pruebas concretas de que es posible que los países tengan alta calidad y alta equidad.

Por el contrario, hay algunos países (por ejemplo, Alemania, Hungría, la República Checa y Suiza) en los que los niveles promedio de rendimiento de los estudiantes son relativamente bajos y hay desigualdades sociales signifi cativas en relación con el rendimiento de los estudiantes.

El mensaje más importante que surge del Gráfi co 14.1 es que no hay un elemento de compensación entre calidad y equidad, porque hay pruebas de que algunos países logran ambas. Esto quiere decir que los gobiernos y los ministerios de educación deben reconocer que la calidad y la equidad no se deben considerar como objetivos políticos que compiten entre sí.

¿En qué se concentraron los medios de comunicación? Muchos de los primeros informes de los medios de comunicación

sobre el PISA simplemente documentaron la “tabla de clasifi cación” de los resultados y la posicion de sus países en ella. Buena parte de este material se concentró en un debate “ganadores y perdedores”. Sin embargo, con el transcurso del tiempo se realizaron intentos para obtener lecciones de política a partir de los resultados. A continuación se presentan algunos de ellos.

De los insumos a los resultados y los factores que inciden sobre éstos

Uno de los impactos más importantes de los informes de los medios de comunicación sobre los resultados del PISA fue impulsar debates públicos sobre la calidad de los sistemas de educación que no se concentraban en los insumos materiales y de recursos humanos, sino en un análisis más intensivo de los resultados de la educación y los factores que inciden sobre ellos.


290


El PISA mostró que la participación de los estudiantes en sus estudios y su motivación para tener éxito estaban fuertemente relacionadas con los resultados de su aprendizaje. Si bien aún no se han establecido relaciones directas causa-efecto, esos resultados indican que los padres de familia y las escuelas deben reconocer que el entusiasmo, el placer y la participación (así como el trabajo serio) son factores que, hay que reconocer, contribuyen a lograr resultados de aprendizaje positivos.

El PISA también suscitó mensajes políticos en esta área que fueron importantes para los administradores escolares. Mostró que un entorno escolar que se caracteriza por altas expectativas de rendimiento, disponibilidad para invertir esfuerzo, buenas relaciones profesores-estudiantes y un cuerpo docente con una moral alta estaba asociado con mejores resultados de aprendizaje de los estudiantes.

Descentralización, evaluación y rendición de cuentas

El PISA aportó sugerencias de política para las operaciones generales de los sistemas educativos. En particular, indicó que las incidencias benefi ciosas sobre el rendimiento de los estudiantes estaban relacionadas con países que habían cambiado progresivamente el foco de la política y la práctica de la educación del control centralizado sobre los recursos, las estructuras y los contenidos de la educación hacia un perfi l más alto de la gestión basada en la escuela. Las incidencias beneficiosas sobre el aprendizaje también se habían observado en países que habían defi nido objetivos educativos claros en asociación con sistemas para el monitoreo y la evaluación del logro de esos objetivos. Los exámenes y las evaluaciones centralizadas pueden ser elementos importantes de esas estrategias; sin embargo, lo más importante es que los resultados de las evaluaciones retroalimenten al sistema educativo para ayudar a los estudiantes a aprender mejor, a los profesores a enseñar mejor y a las escuelas a ser más efi caces.

Recolectar datos no es sufi ciente, si los datos obtenidos de esta actividad no se pueden utilizar para hacer que las escuelas funcionen mejor. Muchos de los países con mejor rendimiento, como Finlandia y Suecia, son buenos ejemplos. En ambos países hay sistemas nacionales de evaluación que defi nen los marcos de referencia dentro de los cuales los profesores evalúan el rendimiento de los estudiantes y son responsables de sus resultados. Al fi nal del año, es responsabilidad de los profesores trabajar con los estudiantes y los padres de familia para defi nir programas


291


basados en la atención individualizada del estudiante a fi n de mejorar el rendimiento.

Autonomía y heterogeneidad

Si las escuelas deben rendir cuentas, también necesitan un grado adecuado de autonomía a fi n de implementar políticas y estrategias destinadas a lograr metas de rendimiento. El PISA mostró que las escuelas en muchos de los países con mejor rendimiento tenían un alto grado de libertad en relación con la selección y asignación de los profesores, los niveles salariales de los maestros, el diseño y la gestión del entorno de aprendizaje, así como de la elección de las asignaturas que se ofrecían a los estudiantes.

Algunos educadores han sotenido que dar mayor libertad a las escuelas conducirá a una mayor diferenciación entre las escuelas y, por consiguiente, a mayores desigualdades en el rendimiento del aprendizaje. Éste es ciertamente un riesgo. Sin embargo, varios países que participaron en el PISA han mostrado que eso se puede evitar. Por ejemplo, mientras que Finlandia y Suecia dan a sus escuelas un grado muy alto de autonomía, en estos dos países la varianza en el rendimiento de los estudiantes que se puede atribuir a diferencias entre las escuelas es muy pequeña, de alrededor del 10 %. Esto quiere decir que los padres de familia de Suecia y Finlandia pueden enviar a sus hijos a cualquier escuela y esperar similares resultados de aprendizaje.

Tanto en Suecia como en Finlandia, la mayor autonomía se combina con: (a) un alto grado de rendición de cuentas exigido a las escuelas en relación con sus resultados y (b) una mayor responsabilidad para abordar las necesidades de una clientela diversifi cada. Por el contrario, cuando los estudiantes de Alemania y Francia no logran alcanzar las metas de rendimiento mínimo, a menudo tienen que repetir el grado y, por tanto, tienden a recibir “más de lo mismo”. Casi todos los países que tuvieron un buen rendimiento en el PISA mostraron que la repetición de grado no tenía por qué ser el resultado automático de difi cultades de aprendizaje. En estos países la escuela tenía la responsabilidad de manejar constructivamente la heterogeneidad de rendimiento, encontrar soluciones para los défi cit de rendimiento sin recurrir a la repetición de grado o a la transferencia del estudiante a otras ramas educativas o a diferentes tipos de escuela con menores expectativas y exigencias de rendimiento.


292


Fundamentos para el aprendizaje a lo largo de toda la vida

El PISA suministró varios indicios sobre experiencias educativas que favorecen la mejora de los resultados del aprendizaje. Los estudiantes que rinden bien tienden a ser los que más “participan” en su propio aprendizaje. Esto quiere decir que son capaces de planifi car lo que necesitan saber en lugar de esperar ser nutridos con la información que ofrece el profesor. Desarrollar la predisposición de los estudiantes a participar en el aprendizaje y la capaciead de hacerlo efi cazmente es un aspecto que requiere recibir más atención en los sistemas educativos dados los importantes benefi cios que esto tiene en la estimulación del aprendizaje a lo largo de toda la vida. Los estudiantes que salen de la escuela con la autonomía para defi nir sus propios objetivos de aprendizaje (y con el sentimiento de que pueden lograr estos objetivos) son potenciales educandos a lo largo de toda la vida.

La motivación y la participación también pueden infl uir, si los estudiantes desean aprovechar las oportunidades de proseguir su educación o las que les brinda el mercado de trabajo. Los sistemas educativos de muchos países tienen un largo camino por recorrer a fi n de reformar sus prácticas educativas en estas áreas. Si no se realizan estas reformas se corre el riesgo de que un número signifi cativo de estudiantes desarrollen actitudes negativas hacia el aprendizaje y no participen en la escuela. Las actitudes negativas no sólo están asociadas con un rendimiento más bajo de los estudiantes, sino que es menos probable que los estudiantes desmotivados con el aprendizaje en la escuela participen en actividades de aprendizaje fuera de la escuela más adelante.

Agrupamiento por competencias

Así como las causas de las diferencias en el rendimiento de los estudiantes difi eren, también difi eren los enfoques escogidos en distintos países para abordarlos. Algunos países no tienen sistemas educativos selectivos y tratan de ofrecer a todos los estudiantes las mismas oportunidades de aprendizaje y exigen que cada escuela atienda toda la gama de rendimiento del estudiante. Otros países responden a la diversidad formando grupos de estudiantes con similares niveles de rendimiento mediante la selección, dentro o entre escuelas, con el propósito de servir a los estudiantes en función de sus necesidades específi cas.

¿Cómo afectan esas políticas al rendimiento de los estudiantes? La pregunta es difícil de responder, pero el PISA ha sugerido que tanto la


293


variación global en el rendimiento del estudiante como las diferencias de rendimiento entre las escuelas tienden a ser mayores en aquellos países que tienen prácticas rígidas de selección a una edad temprana entre tipos de programa y escuela. El PISA también ha indicado que el efecto del agrupamiento social es mayor en los sistemas escolares con tipos diferenciados de escuela que en los sistemas en los que el currículo no varía signifi cativamente entre escuelas. Los sistemas escolares que agrupan a los estudiantes por competencias desde una edad temprana (por ejemplo, Alemania, Austria y Suiza) también muestran grandes diferencias de rendimiento entre las escuelas, que es lo que se puede esperar en sistemas altamente selectivos. Ninguno de estos sistemas educativos estaba entre los países con mejor rendimiento. Esto quiere decir que los resultados de la investigación del PISA ilustran que las pasarelas educativas más integradas y fl exibles, combinadas con el apoyo individual a los estudiantes, tienden a conducir a mejores resultados y a una distribución más equilibrada de las oportunidades educativas.

Estas conclusiones políticas subrayan claramente la necesidad de colocar el aprendizaje y los educandos en el centro, en lugar de hacerlo con los programas o las instituciones. Todos los países que lograron un gran éxito en el PISA han adoptado medidas para integrar las alternativas educacionales y marchar hacia la promoción individual de los estudiantes, empezando con la educación preescolar, y aportando mayor fl exibilidad en las pasarelas educativas. La promoción integrada e individual de los estudiantes en países tales como Finlandia, Japón, Canadá, República de Corea y Suecia constituyen ejemplos de cómo se pueden lograr una alta matrícula en ramas que conducen a la obtención de califi caciones más altas de salida y altos niveles de rendimiento. Estos países no sólo lograron un rendimiento global por encima del promedio, sino que también lograron una explotación signifi cativamente mejor del potencial de rendimento, especialmente de los estudiantes de origen social desfavorecido.

Es necesario señalar que los sistemas no selectivos no constituyen una receta para el éxito. Hubo algunos sistemas no selectivos en el PISA que tuvieron rendimientos bajos. Lo que se requiere es un enfoque global de escolarización asociado con bastante apoyo individualizado a los estudiantes. En Finlandia y Suecia, hasta un 40 % del currículo es individual y hay bastante apoyo individual a los estudiantes –bajo diversas modalidades– que posibilita que aprendan satisfactoriamente. La concentración en la enseñanza individualizada permite que los sistemas educativos compensen las diferencias de capacidades y disposiciones de


294


aprendizaje de los estudiantes, contrarrestando o evitando así las desventajas, al mismo tiempo que se impulsa el talento y la excelencia.

El PISA ha suministrado pruebas sólidas de que en los sistemas educativos a menudo se efectúan juicios errados acerca del potencial de los estudiantes. El resultado es que los estudiantes tienden a ser seleccionados en función de su origen social y no de su capacidad real. Esto conduce a una pérdida de potencial humano, como se destacó en el rendimiento de los países con sistemas educativos muy selectivos que participaron en el PISA.

Conclusión La presentación de los resultados del PISA por los medios de

comunicación se concentró inicialmente, como se esperaba, en la visión de la “tabla de clasifi cación” en que se colocaron a los países, congratulando o recriminando por la posición ocupada. Con el tiempo, comenzó a producirse cierto grado de madurez a medida que en los medios se percibían más profundamente las implicaciones de los resultados del PISA y su potencial para orientar la política destinada a mejorar la calidad de la educación.

Los periódicos y otros medios de comunicación de muchos países ahora amplían la cobertura de los resultados del PISA para plantear preguntas relacionadas con la calidad y la equidad, la incorporación de la descentralización y la rendición de cuentas, los vínculos entre autonomía y heterogeneidad, así como la gestión de grupos de estudiantes con diferentes competencias. Los resultados de la investigación del PISA han aportado una base de información sólida como un recurso para realizar debates informados sobre estas áreas vitales de política. Esto ha cuestionado el conformismo de muchos “educadores”, cuyos puntos de vista a menudo han derivado de una exagerada dependencia de la tradición y la opinión personal.

Los investigadores del PISA, por consiguiente, han tenido éxito al elevar la calidad del debate sobre la política educativa por encima del discurso sobre las “tablas de clasifi cación”, suministrando a una audiencia más amplia de padres de familia, estudiantes y al público en general instrumentos de información que se pueden utilizar para que los responsables de la toma de decisiones de alto nivel participen en debates bien informados. Sin embargo, aún queda mucho trabajo por hacer, especialmente en lo que se refi ere a la búsqueda de nuevas maneras (especialmente de formatos visuales y gráfi cos)


295


de presentar síntesis informativas que transmitan “el signifi cado subyacente en el PISA”.

Bibliografía OECD. 2001. Knowledge and skills for life. First results from PISA 2000,

Paris: OECD.

OECD; UNESCO. 2003. Literacy skills for education in 21 countries: a technical report, Stockholm: Almqvist and Wicksell.


PARTE IV Conclusión


299

Capítulo 15

“Principales mensajes” del Foro de Política Kenneth N. Ross, Carola Donner-Reichle, Ingrid Jung, Ulrike Wiegelmann,

Ilona Jürgens Genevois y Laura Paviot

Introducción Una de las características clave del debate mundial sobre la necesidad de lograr la Educación para Todos (EPT) ha sido una interpretación más amplia de este reto para asegurar que la expansión de la participación en la educación se haga en asociación con mejoras en las condiciones de escolarización y en los niveles de rendimiento de los estudiantes. La intensifi cación de la concentración en la calidad ha sido estimulada por le emergente creencia de que los sistemas de educación pueden actuar como pasarelas hacia el desarrollo económico nacional en un mundo cada vez más globalizado y competitivo (Hanushek, 2005).

Estas tendencias, asociadas con enormes gastos de los gobiernos en la educación, han precipitado demandas de más información y rendición de cuentas en relación con la calidad de la educación. Los gobiernos sólo pueden responder a estas demandas si han formado personal capaz de emplear métodos de investigación modernos para validar las comparaciones del (a) rendimiento de sistemas educativos considerados individualmente a lo largo del tiempo (“¿Estamos mejorando, estamos estancados o en peor situación?”); (b) el rendimiento relativo de diversos sistemas educativos, especialmente de aquellos que comparten similares condiciones socioeconómicas y pautas de desarrollo histórico (“¿Somos mejores, iguales o peores que otros países como nosotros?”); y (c) el rendimiento de uno y varios sistemas educativos en temas específi cos de las disciplinas escolares (“¿Lo estamos haciendo bien o mal en los temas X e Y en la asignatura escolar Z, y cómo se desempeñan otros países como los nuestros en estos temas?”).

La mayoría de los países industrializados ya ha creado sistemas para monitorear y evaluar la calidad de la educación como parte de las operaciones normales de gestión de sus ministerios de educación. Algunos de estos sistemas se han desarrollado como parte integral de los estudios internacionales comparados sobre la calidad de la educación en gran escala que han sido organizados por la Organización para la Cooperación y el Desarrollo Económicos (por ejemplo, el proyecto PISA de la OCDE) y la


300


Asociación Internacional de Evaluación del Rendimiento Escolar (por ejemplo, el proyecto TIMSS de la IEA).

Importantes reuniones internacionales, como la Conferencia Mundial sobre la Educación de Jomtien en 1990 y el Foro Mundial sobre la Educación de Dakar en 2000, han fortalecido el interés de los países en desarrollo en la creación de similares mecanismos de monitoreo y evaluación porque las declaraciones finales de estas dos reuniones animaron a los países a lograr la EPT de modo que se pudiera garantizar el logro de “[...] los parámetros más elevados, para conseguir resultados de aprendizaje reconocidos y mensurables [...]” (UNESCO, 2000: p. 8). En África, por ejemplo, un grupo regional de 14 países –conocido como el Consorcio del África Meridional y Oriental para el Monitoreo de la Calidad de la Educación (SACMEQ, por sus siglas en inglés)– ha respondido a estas declaraciones emprendiendo un conjunto de estudios internacionales comparados sobre la calidad de la educación.

El Instituto Internacional de Planeamiento de la Educación de la UNESCO en Francia ha trabajado durante más de una década con ministerios de Educación de África y Asia a fi n de abordar las declaraciones de Jomtien y Dakar ofreciendo programas de formación de planifi cadores e investigadores de la educación en el área de métodos cuantitativos de monitoreo y evaluación sobre la calidad de la educación. La Internationale Weiterbildung und Entwicklung (InWEnt) en Alemania también ha brindado importantes oportunidades de fortalecimiento institucional a los países en desarrollo mediante la organización de actividades de formación, intercambio y diálogo concebidas para mejorar la calidad de la educación y fortalecer la gestión del sector de la educación.

El Foro de Política y este libro Tras el diálogo entre miembros del personal del IIPE y la InWent a

comienzos de 2004, se acordó que el creciente interés de los países desarrollados y en desarrollo en participar en estudios internacionales comparados sobre la calidad de la educación requería ser acompañado de esfuerzos destinados a segurar que se obtuvieran los máximos benefi cios de esa investigación.

A partir de ese diálogo, el IIPE y la InWent decidieron organizar un Foro Internacional de Política en París en junio de 2004 en el que se compartiría el conocimiento disponible a nivel global y las experiencias nacionales relativas al tema “Estudios internacionales comparados sobre la calidad de la educación: la planifi cación de su diseño y la gestión de su impacto”.


301

“Principales mensajes” del Foro de Política

Los capítulos previos de este libro están constituidos por las ponencias presentadas en este foro. Este capítulo fi nal busca destacar los principales mensajes destinados a los ministerios de educación que surgieron a partir de los documentos y debates del Foro de Política, especialmente de los insumos recibidos de los participantes en el Foro de Política durante las “Sesiones abiertas” con las que se concluyó el foro.

Las sesiones abiertas estaban constituidas por pequeños grupos de discusión que brindaron un entorno favorable para que los participantes en el Foro de Política pudieran refl exionar, criticar y sintetizar cuestiones clave que habían surgido durante las presentaciones formales en el foro. Los participantes podían circular libremente entre los grupos de discusión y esta “membrecía fl otante” generó intercambios animados, innovadores y útiles. El líder de cada grupo de discusión sintetizó las contribuciones de los participantes y este material se agregó a las ponencias del Foro de Política como un recurso adicional para la preparación de este libro.

Cinco grupos de “mensajes del Foro de Política” Las ponencias y las sesiones abiertas del Foro de Política cubrieron

muy diferentes temas y una gran diversidad de experiencias. Algunas veces, los participantes en el Foro de Política compartían una visión común acerca de las sugerencias que se deberían hacer a los ministerios de educación en lo relativo a las decisiones, acciones y métodos que se requerían para lograr el máximo posible de benefi cios de política de la participación en los estudios internacionales comparados sobre la calidad de la educación. En otros casos, los participantes tenían preocupaciones acerca de rasgos específi cos, complejidades o defectos de esos estudios, y todos estos se utilizaron para elaborar sugerencias sobre estrategias que permitieran enfrentar esos retos.

Todas estas sugerencias –que los participantes en el foro describieron como “Mensajes del Foro de Política”– representan una rica fuente que puede ser utilizada por los ministerios de educación como parte de un diálogo continuo en el seno de sus instituciones y también con otros asociados externos.

Los participantes en el Foro de Política identifi caron en total 18 mensajes. Cada uno de ellos se colocó en uno de los cinco grupos siguientes y se presentaron luego en forma de un debate general seguido de “Recomendaciones” que sugerían lo que los ministerios de educación deberían hacer a fi n de responder al mensaje.


302


Mensajes del Grupo 1: planifi car el diseño de la medición de los estudios internacionales comparados

Se espera que la mayoría de los sistemas escolares ofrezca instrucción efi caz a los estudiantes en un conjunto de asignaturas escolares “básicas” similares, tales como lengua nacional, matemática y ciencias. Por esta razón, los estudios internacionales comparados sobre la calidad de la educación han tendido a concentrarse en la evaluación del rendimiento de los estudiantes en estas asignaturas escolares “centrales”.

Si bien la elección de la asignatura a medir ha sido muy similar en la mayoría de los estudios internacionales comparados, han habido importantes cambios durante los últimos 15 años en relación con las técnicas de medición que se han utilizado. Las más importantes entre éstas se han interesado en: diferentes enfoques en la construcción de los marcos de referencia de las pruebas, el uso de técnicas avanzadas de medición que permitan que los investigadores evalúen a los estudiantes con una mayor cobertura del contengan de las asignaturas, la conexión (o equiparación) de las pruebas que contienen ítems-ancla comunes y una tendencia que se aleje de las descripciones cuantitativas del rendimiento de los estudiantes (en la forma tradicional de puntajes totales de pruebas) para adoptar informes descriptivos jerarquizados de las competencias de los estudiantes.

Estos cambios han fortalecido la validez y la utilidad de los resultados de la investigación derivados de los estudios internacionales comparados, pero también han exigido que los países participantes entablaran debates preliminares y adoptaran decisiones sobre cuestiones relativas a la medición que defi nieran el foco específi co de atención de lo que se debe medir y cómo.

Hubo cinco mensajes del Foro de Política en relación con las cuestiones de medición: construir marcos de referencia de las pruebas, monitorear los sistemas educativos o medir el cambio en los estudiantes considerados individualmente, evaluar las competencias del personal docente, escoger entre un estudio internacional y otro regional y, fi nalmente, monitorear la adquisición de competencias para el desarrollo sostenible.


303


Mensaje 1(a): construir marcos de referencia de las pruebas

Un marco de referencia de prueba brinda un sistema de reglas para defi nir “lo que se debe medir” mediante la especifi cación de directivas claras que guíen la construcción de los ítems de la prueba, de la misma manera en que el plano de un arquitecto describe especificaciones detalladas sobre “lo que se debe construir” cuando se edifi ca una casa. Los ministerios deben participar en las principales decisiones relacionadas con la preparación de los marcos de referencia de pruebas porque, una vez completados, la elaboración y la selección de los ítems se transforma en un proceso muy restrictivo, con poco margen de maniobra.

Los participantes en el Foro de Política observaron que los programas de investigación internacionales comparados más vastos y más complejos a nivel mundial –la serie de estudios del TIMSS de la IEA y del PISA de la OCDE– adoptaron muy diferentes enfoques para la construcción de los marcos de referencia de pruebas que se utilizaron para guiar el diseño de las pruebas para los estudiantes.

Por ejemplo, las pruebas de matemática del TIMSS utilizaron análisis internacionales detallados de los currículos escolares para preparar marcos de referencia de pruebas defi nidos por dos dimensiones: (1) una de ‘contenido’, con cinco categorías: númeración, álgebra, medición, geometría y datos; y (2) otra ‘cognitiva’, con cuatro categorías: conocimiento de hechos y procedimientos, utilización de conceptos, resolución de problemas rutinarios y, fi nalmente, razonamiento (Mullis et al., 2001).

Por el contrario, la prueba de matemática para el estudiante del PISA empleó marcos de referencia de prueba defi nidos por tres dimensiones: (1) una de ‘contenido’, con cuatro categorías: cantidad, espacio y forma, cambio y relaciones, e incertidumbre; (2) una de ‘proceso’ (similar a la dimensión ‘cognitiva’ del TIMSS) con tres categorías: reproducción de pasos básicos, conexión de ideas matemáticas con problemas y refl exión (en términos de pensamiento y perspicacia matemáticos); y (3) una dimensión de ‘situaciones’, con cinco categorías: vida privada, vida escolar, trabajo y deporte, comunidad local y científi ca.

El marco de referencia de prueba del TIMSS se diseñó para ofrecer una representación del tronco común del currículo ‘ofi cial’ cubierto en la mayoría de los países participantes. Por el contrario, el marco de referencia de la prueba del PISA fue diseñado para producir pruebas que fueran: (1) “previsoras,


304


centradas en la capacidad de los jóvenes para utilizar sus conocimientos y competencias para afrontar los desafíos de la vida real, en lugar de hasta qué punto dominaban un currículo escolar específi co”; (2) interesadas en las “cosas que los jóvenes de 15 años necesitarán en su vida futura”; y 3) dirigidas hacia “lo que los estudiantes pueden hacer con lo que aprendan en la escuela y no simplemente con lo que hayan aprendido” (OECD, 2001: p. 14).

Los participantes en el Foro de Política observaron que estas diferencias sutiles, pero importantes, entre los marcos de referencia de pruebas del TIMSS y el PISA tenían consecuencias sobre la manera en la que se les podían pedir cuentas a los sistemas escolares en relación con el rendimiento de sus estudiantes. Por ejemplo, si los gobiernos otorgaran una alta prioridad a los objetivos curriculares explícitos, se podría sostener que las pruebas del TIMSS ofrecían una evaluación más precisa sobre la calidad de la educación ofrecida por los sistemas educativos. Por otra parte, si los gobiernos se interesaran más en la capacidad de los sistemas educativos para ofrecer a los estudiantes las competencias requeridas para afrontar “los retos de la vida real” en su “vida futura”, entonces se podría afirmar que las pruebas del PISA eran más precisas para juzgar el rendimiento del sistema educativo.

Recomendación 1(a): los ministerios de educación deben participar plenamente en todas las decisiones relativas al diseño, construcción y aplicación de los marcos de referencia de pruebas de los estudios internacionales comparados sobre la calidad de la educación y comprender las implicaciones de la selección de los marcos de referencia de pruebas específi cos para formular juicios acerca del rendimiento de los sistemas educativos.

Mensaje 1(b): monitoreo de los sistemas de educación o medición del cambio en las personas

Los participantes en el Foro de Política observaron que desde los primeros momentos del diseño de la investigación era necesario decidir si un estudio internacional comparado se debería concentrar en una recolección de datos transversales (en la que los datos del rendimiento educativo se recolectan a partir de una muestra de estudiantes en un punto en el tiempo) o una recolección de datos longitudinal (en la que los datos de rendimiento educativo se recolectan a partir de la misma muestra de estudiantes en dos o más puntos en el tiempo).

Es preferible un enfoque longitudinal de la recolección de datos (siempre y cuando esté bien realizado), porque permite que los investigadores respondan


305


a las mismas preguntas de la investigación que el enfoque transversal, pero también ofrece mayores posibilidades de un examen detallado de los factores asociados al entorno educativo que contribuyen al mejoramiento del aprendizaje del estudiante. Sin embargo, es importante observar que una recolección de datos longitudinal requiere una mayor complejidad en la investigación (dada la necesidad de evaluar –y seguir– al mismo grupo de estudiantes en por lo menos dos ocasiones y, luego, conectar estos dos cuerpos de información en la fase del procesamiento de datos) y mayores costos (porque hay que hacer por lo menos dos visitas a las escuelas muestreadas).

Los participantes en el Foro de Política señalaron la necesidad de efectuar una elección cuidadosa del marco de referencia temporal para una recolección de datos longitudinal. Esta elección depende de si se estudia el impacto de un profesor específi co (con recolección de datos en dos puntos en el tiempo en un año académico) o el impacto general de la escuela (con recolección de datos al ‘ingresar’ a la escuela y nuevamente tras varios años de escolarización).

El primer enfoque se utilizó durante el Estudio del aula [Classroom Environment Study] de la IEA durante la década de los ochenta, pero los resultados de este estudio sugirieron que el comportamiento de los profesores tenía impacto limitado sobre el rendimiento de los estudiantes (Anderson et al., 1989). Desde la conclusión de este estudio han surgido varias técnicas de análisis potentes (incluyendo el Modelo lineal jerárquico) que pueden ofrecer mejores vías para detectar los efectos de la escuela y el profesor sobre el aprendizaje de los estudiantes.

Recomendación 1(b): los ministerios de educación deben pedir a los especialistas en investigación que diseñen estudios internacionales comparados sobre la calidad de la educación que justifi quen su elección de una recolección de datos transversal o longitudinal. Si se selecciona el último enfoque, será necesario plantear preguntas adicionales a estos especialistas en lo que respecta a: (1) si el “valor agregado” de un entorno educativo se vinculará con un profesor considerado individualmente (durante un único año académico) o un conjunto de profesores (durante varios años); (2) la magnitud de los costos adicionales (relacionados con la logística y la duración) debido a múltiples recopilaciones de datos; y (3) la selección de las técnicas de análisis de datos más apropiadas.

Mensaje 1(c):evaluar las competencias de los profesores

Los participantes en el Foro de Política reconocieron que la “formación del personal docente” era el aspecto más importante de la


306


política educativa en relación con los insumos de la educación, ya que en muchos países la partida de gastos más grande en la educación escolar está constituida por los salarios de los profesores. Los participantes observaron con preocupación que los gobiernos, organismos y proveedores de fondos han planteado muchas preguntas importantes de política sobre este tema que han sido ignoradas o escasamente investigadas en los estudios internacionales comparados sobre la calidad de la educación. Consecuentemente, hay importantes vacíos en el conocimiento disponible acerca de los aspectos fundamentales de la formación del personal docente.

Por ejemplo: (1) ¿Cuál es el equilibrio óptimo en los programas de formación de profesores entre el tiempo empleado en la adquisición del conocimiento de la asignatura y el tiempo empleado en el desarrollo de las competencias pedagógicas?; (2) ¿Cuál es el “valor agregado” de la formación del personal docente en relación con las difrencias en el rendimiento de los estudiantes cuando están expuestos a profesores formados o no formados?; y (3) ¿Qué es lo que tiene más impacto sobre el rendimiento de los estudiantes: la mejora de la formación de los profesores, la mejora de los procedimientos de reclutamiento de los profesores o la mejora de los sistemas de incentivos del personal docente?

Los participantes convinieron en que estas y otras preguntas de investigación relativas a la formación de los profesores no se podían examinar sistemáticamente a menos que se evaluara el conocimiento de la asignatura por parte de los profesores. Desafortunadamente, la evaluación de los profesores ha sido problemática en muchos países debido a la fuerte oposición de los sindicatos de profesores.

El programa de investigación del SACMEQ ha sido una excepción en esta área. Los coordinadores nacionales de investigación del SACMEQ fueron capaces de demostrar a los profesores y sus sindicatos que los puntajes de las pruebas de los profesores se podían recolectar confi dencialmente y luego utilizarse de manera productiva para una amplia gama de aplicaciones sin criticar el profesionalismo de los profesores. La investigación del SACMEQ utilizó pruebas “superpuestas” de lectura y matemática para profesores y estudiantes (Andrich et al., 2007) a fi n de califi car a los estudiantes de 6º grado y sus profesores como si hubieran completado la misma prueba. Estos datos permitieron la identifi cación de vacíos en el conocimiento de la disciplina por parte de los profesores y


307


esta información se utilizó posteriormente para identifi car los temas que habría que incluir en los programas de formación de docentes en activo.

Recomendación 1(c): los ministerios de educación que participan en un estudio internacional comparado sobre la calidad de la educación deben: (1) estimular a sus equipos nacionales de investigación para que desde el inicio del diseño de la investigación incluyan preguntas con muy alta prioridad sobre la formación del personal docente; (2) asegurar que estos estudios aborden los importantes vacíos existentes en los datos disponibles acerca de los profesores; y (3) negociar con los sindicatos de profesores para obtener permiso en relación con la confi dencialidad de las pruebas a los profesores y el uso responsable de estos datos con fi nes de investigación y formación.

Mensaje 1(d): escoger entre un estudio internacional y otro regional

Los participantes en el Foro de Política observaron que una de las cuestiones importantes que enfrentan los ministerios de educación es si participan en un “estudio internacional” sobre la calidad de la educación que incluya a países de todo el mundo (como el TIMSS) o si participan en un “estudio regional” que se limite a países cercanos con niveles más parecidos de desarrollo social y económico (como el SACMEQ).

Antes de la década de los noventa, los procedimientos utilizados para aumentar la escala en la mayoría de los estudios internacionales comparados exigían que los estudiantes recibieran los mismos cuadernillos de pruebas y se les pedía que completaran todos los ítems de la prueba. Los enfoques de la moderna teoría de la respuesta al ítem (TRI) [Item Response Theory], que se aplicaron más ampliamente durante la década de los noventa, eliminaron estas restricciones. Ahora los investigadores son capaces de aplicar pruebas en escuelas dando a los estudiantes cuadernillos de pruebas “diferentes pero superpuestas” (que contienen ítems de prueba únicos y comunes –ancla–). Luego, utilizando la “magia” de la TRI, los estudiantes pueden ser califi cados como si hubiesen completado todos los cuadernillos de pruebas. Este nuevo enfoque revolucionario ha permitido la expansión de la coberura de las pruebas posibilitando la inclusión de un mayor número de ítems de prueba en las sesiones de evaluación sin colocar una carga indebida sobre los estudiantes considerados individualmente.

Los participantes observaron que otro aspecto muy importante de la TRI era que se podía utilizar para equiparar pruebas utilizadas en diferentes estudios de distintos grupos de estudiantes. Esto quiere decir que en la


308


medida en que dos estudios diferentes (que se han concentrado en el mismo tipo de rendimiento de los estudiantes) han empleado pruebas “diferentes pero superpuestas”, entonces los estudiantes de uno de los estudios puede ser califi cado en la otra prueba de investigación y viceversa.

Luo et al. (2007) demostraron esta técnica equiparando las pruebas de lectura utilizadas en el Estudio Internacional de Competencia en Lectura [International Reading Literacy Study] de la IEA en 1990 (Elley, 1992) y las pruebas de lectura utilizadas en el proyecto SACMEQ II de 2000 (Ross et al., 2004). Esto permitió que los estudiantes de los 30 países desarollados que participaron en el estudio de la IEA fueran califi cados como si hubieran completado la prueba de lectura que se dió a los estudiantes de 14 países africanos durante el proyecto SACMEQ II. Esto quiere decir que la técnica ofrecida por la TRI hizo posible hacer comparaciones válidas entre los 14 países del SACMEQ que habían participado en un “estudio regional” y los otros países que habían participado en un “estudio internacional” diferente.

Los países en desarrollo que participaron en los estudios del SACMEQ prefirieron este enfoque para efectuar comparaciones internacionales porque podían emprender comparaciones válidas de la calidad a nivel mundial y, al mismo tiempo, proseguir con su propio programa de investigación bajo su control y en función de su propio cronograma. También tenían la libertad de utilizar cuestionarios destinados a los estudiantes, los profesores y las escuelas que estaban más vinculados con sus prioridades políticas y asegurar que sus programas de investigación no fueran dominados por equipos de investigación técnicamente más capaces procedentes de los países desarrollados.

Los participantes en el Foro de Política convinieron en que el uso de la TRI por el SACMEQ había demostrado que un enfoque para estimular a todos los países del mundo a monitorear la calidad de sus sistemas educativos consistiría en reemplazar (o quizá complementar) los estudios internacionales como el TIMSS y el PISA con un conjunto conectado de “estudios regionales” basados en conjuntos adecuados de ítems-ancla. También observaron que la sinergia que puede surgir del uso de ítems de prueba comunes en diferentes estudios indicaba que existía la necesidad de considerar cómo se podría desarrollar y mantener un “Banco Internacional de Ítems Ancla”.

La UNESCO parecería estar bien situada por su mandato y programa para asumir el liderazgo en esta área, tal vez organizando una reunión


309


inicial de los expertos mundiales en medición para debatir las ventajas y desventajas de estas propuestas.

Recomendación 1(d): los ministerios de educación, en asociación con los organismos internacionales apropiados, deberían convocar una reunión de los expertos mundiales en medición para debatir las ventajas y desventajas de propuestas destinadas a: (1) crear redes conectadas de “estudios regionales” e “internacionales” sobre la calidad de la educación; y (2) crear un “Banco Internacional de Ítems Ancla” que se podría utilizar para suministrar ítems de prueba a fi n de efectuar comparaciones internacionales válidas mediante la utilización de redes conectadas de estudios regionales e internacionales.

Mensaje 1(e): monitorear la adquisición de competencias para el desarrollo sostenible

Los participantes en el Foro de Política observaron que la Cumbre de Johannesburgo sobre Desarrollo Sostenible de 2002 había vinculado el concepto de «desarrollo sostenible» con los objetivos educativos de los Objetivos de Desarrollo del Milenio (2000) y de la Conferencia Mundial sobre la Educación para Todos de Dakar (2000). Esta cumbre propuso que el período 2005-2014 fuera conocido como el ‘Decenio de las Naciones Unidas de la Educación para el Desarrollo Sostenible’. Esta propuesta fue ratifi cada por la Asamblea General de las Naciones Unidas y la UNESCO fue designada organismo rector.

Los participantes estuvieron de acuerdo en que a fi n de monitorear el progreso en la implementación del Decenio de las Naciones Unidas de la Educación para el Desarrollo Sostenible era necesario evaluar las competencias pertinentes impartidas a los estudiantes en los sistemas educativos. Esto requeriría la elaboración de una lista concertada de objetivos de aprendizaje en el campo del desarrollo sostenible que luego se podría utilizar para elaborar un marco de referencia de prueba y las preguntas de las pruebas asociadas. Desafortunadamente, en la mayoría de los sistemas educativos los objetivos de aprendizaje disponibles en esta área ofrecen muy poca orientación específi ca para la construcción de pruebas porque tienden a describir en términos vagos (tales como “las competencias requeridas para satisfacer las necesidades sociales, económicas y medioambientales de la generación actual sin comprometer las necesidades y recursos disponibles para las futuras generaciones”).

Varios participantes en el Foro de Política indicaron que algunos sistemas educativos han hecho más progresos que otros en la exploración


310


de vías para especifi car y elaborar programas educativos para el desarrollo sostenible y se convino en que se podría obtener gran provecho si se tuviera en cuenta este trabajo exitoso. Los participantes propusieron que se pidiera a un organismo internacional que organizara una reunión de expertos en la que los países más avanzados pudieran presentar y compartir sus “prácticas idóneas” y material de enseñanza.

Un enfoque alternativo explorado por los participantes consistía en vincular la noción de «desarrollo sostenible» con el concepto más amplio de «competencias para la vida». Nuevamente, sin embargo, se observaron problemas para identificar una definición “operacional” aceptada universalmente de «competencias para la vida» que se pudieran utilizar para guiar la construcción de medidas válidas. Varios participantes indicaron que esta difi cultad también la encontró el Grupo de Trabajo Interinstitucional sobre Competencias para la Vida [Interagency Working Group on Life Skills], que concluyó que es “difícil identifi car indicadores que demuestren el progreso en este campo a nivel internacional” (UNESCO, 2004: p. 11). Los ejemplos siguientes ilustran por qué ha habido un progreso limitado en la elaboración de medidas e indicadores en este campo.

El UNICEF (2005) ha defi nido ‘competencias para la vida’ bajo la forma de una lista de 28 competencias psicociales e interpersonales agrupadas bajo tres categorías principales: comunicación-interpersonal, toma de decisiones-pensamiento crítico y solucionar-autogestión. La perspectiva de la OCDE establece una clara distinción entre ‘competencias para la vida en el trabajo’ y ‘competencias para la vida cotidiana’, pero también ha reconocido la imposibilidad de concordar en una lista de todas las competencias específi cas para la vida (Werquin, 2004). La Ofi cina Internacional de Educación (OIE) de la UNESCO derivó su comprensión de las competencias para la vida de los cuatro pilares del aprendizaje del informe Delors (Singh, 2004) y defi ne ‘competencias para la vida’ como “gestión personal y competencias sociales necesarias para funcionar adecuadamente con independencia en áreas tales como aprender a conocer, aprender a hacer, aprender a ser y aprender a vivir juntos”. La Organización Mundial de la Salud complicó aún más el asunto al defi nir ‘competencias para la vida’ como ‘competencias psicosociales’ tales como manejar el confl icto y la autoridad, resolver problemas, hacer y mantener amigos y relaciones, cooperar, tener conciencia de sí, pensar creativamente, tomar decisiones, pensar críticamente, afrontar el estrés, negociar, clarifi car valores, resistir a la presión, manejar el desengaño, planifi car, tener


311


empatía, manejar las emociones, ser fi rme, escuchar activamente, respetar, ser tolerante, confi ar, compartir, tener simpatía, sentir compasión, ser sociable y tener autoestima (WHO, 1999).

Recomendación 1(e): los ministerios de educación deben crear mecanismos para monitorear el progreso internacional comparado de los sistemas educativos en relación con la mejora de las competencias para el desarrollo sostenible de los estudiantes y los primeros pasos deben ser: (1) la organización de una reunión internacional en la que se presenten y compartan las “prácticas idóneas” y el material pedagógico de los sistemas educativos más avanzados; (2) la elaboración sistemática de una defi nición “operacional” de ‘desarrollo sostenible’ concertada a nivel internacional que se pueda utilizar para guiar la especifi cación de las competencias requeridas de los estudiantes y los marcos de referencia de pruebas y de ítems de pruebas relacionados; y (3) la exploración del posible vínculo de estas actividades con un debate más amplio del concepto de «educación en competencias para la vida».

Mensajes del Grupo 2: planifi car los diseños muestrales de los estudios internacionales comparados

Las recolecciones de datos para los estudios internacionales comparados sobre la calidad de la educación generalmente se han limitado al estudio de una muestra en lugar de tener una cobertura completa de la población bajo estudio. Siempre y cuando se utilicen procedimientos científi cos de muestreo probabilístico, el uso de una muestra en vez de una población completa (censo) ofrece varias ventajas: costos reducidos asociados con la recolección y el análisis de los datos; más rapidez en la mayoría de aspectos de la preparación de los datos para el análisis; reducción de las necesidades logísticas y de personal, y mayor exactitud en la medición debido a un mayor control del trabajo de campo.

Los “buenos” diseños muestrales para los estudios internacionales comparados sobre la calidad de la educación se construyen sistemáticamente utilizando procedimientos muestrales ya probados, combinados con un conocimiento sólido y práctico de las maneras en que las poblaciones de escuelas, clases y estudiantes se organizan administrativa y geográfi camente.

Hubo tres mensajes del Foro de Política en relación con las cuestiones de muestreo: escoger entre poblaciones objetivo basadas en


312


la edad o el grado; estimar el tamaño requerido de la muestra y, fi nalmente, comprender y utilizar ponderaciones y errores de muestreo.

Mensaje 2(a): escoger entre poblaciones objetivo basadas en la edad o el grado

Los participantes en el Foro de Política convinieron en que el principal objetivo de los estudios internacionales comparados sobre la calidad de la educacion era hacer comparaciones válidas de las condiciones de escolarización y los niveles de rendimiento de los estudiantes que fueran considerados de interés por los investigadores, los padres de familia, el público y los gobiernos. Abordar este objetivo requería la identifi cación de poblaciones objetivo adecuadas y en el campo de la investigación de la educación esto quiere decir que los invetigadores deben decidir primero si hay que emplear una defi nición de población objetivo basada en la edad o en el grado. Esta decisión se adoptaba generalmente tras haber tomado en cuenta las principales preguntas de la investigación. Sin embargo, tomar esta decisión puede convertirse en algo muy complicado cuando los estudios son conducidos por múltiples intereses políticos nacionales e internacionales.

El proyecto PISA de la OCDE utilizó una defi nición de población objetivo basada en la edad concentrada en “todos los estudiantes de 15 años de un sistema nacional de educación” (Adams y Wu, 2002). Las definiciones basadas en la edad atraen a los economistas por su interpretación simple y directa. Sin embargo, en el contexto de estudios internacionales comparados, las poblaciones objetivo basadas en la edad pueden ofrecer muy diferentes resultados si se las compara con las poblaciones objetivo basadas en el grado porque las muestras resultantes de estudiantes pueden estar diseminadas entre diferentes grados, dependiendo de la medida en que los sistemas educativos aplican la repetición de grado o tienen políticas fl exibles de ingreso a la escuela.

Las muestras basadas en la edad difi cultan la elaboración de modelos explicativos que tienen en cuenta las características de las aulas y las prácticas educativas, ya que las muestras intraescuela de estudiantes a menudo se diseminarán ligeramente entre grados y aulas. Además, también presentan problemas en relación con la interpretación de estadísticas sintéticas básicas, tales como califi caciones promedio de los profesores o porcentaje de estudiantes con acceso a una computadora, ya que la distribución de los recursos humanos y materiales en un sistema educativo


313


pueden verse infl uidos por diferentes decisiones administrativas que operen en los diferentes grados.

Por el contrario, los estudios de la IEA han tendido a concentrarse en un grado específi co o en un conjunto específi co de grados. Por ejemplo, en el Estudio Internacional de Competencia en Lectura [International Reading Literacy (IRL) Study] de la IEA una de las poblaciones objetivo se describió como “todos los estudiantes en el grado en el que la mayoría de los niños de 9 años de edad se encuentren en el octavo mes del año escolar” (Elley, 1992). Las defi niciones basadas en el grado atraen a los educadores porque toda la muestra de estudiantes de un país determinado habrá sido expuesta al mismo currículo y también porque los procedimientos mecánicos requeridos para el muestreo intraescuela son más fáciles de aplicar, ya que las escuelas se organizan administrativamente por grado.

El problema con las muestras basadas en el grado es que la edad del estudiante promedio puede variar mucho entre países debido a diferencias en los requisitos para ingresar en la escuela y las políticas de repetición de grado. Por ejemplo, en el IRL, la edad promedio de la Población A de estudiantes (tal como se la defi nió previamente) en los Países Bajos fue de 9,2 años, mientras que en Portugal fue de 10,4 años.

Recomendación 2(a): en los ministerios de educación se debería tener conciencia de las ventajas y desventajas del empleo de diseños muestrales basados en la edad o el grado en los estudios internacionales comparados sobre la calidad de la educación y se debería estar plenamente informado acerca del impacto de estos diferentes enfoques de muestreo sobre: (1) los tipos de investigación y de cuestiones políticas que se pueden abordar; y (2) la interpretación de las diversas estadísticas sintéticas que describen el rendimiento de los estudiantes y las condiciones de escolarización.

Mensaje 2(b): calcular el tamaño requerido de la muestra

Los estudios internacionales comparados sobre la calidad de la educación generalmente emplean procedimientos de muestreo complejos que incluyen el uso de la estratifi cación, la selección desproporcionada de escuelas y estudiantes entre los estratos, la selección de la muestra en múltiples etapas, así como la selección de los estudiantes en agrupamientos. Estas complejidades, combinadas con la naturaleza de la población objetivo bajo estudio, pueden conducir a que se necesiten diferentes tamaños de muestras en los países a fi n de lograr el mismo nivel de precisión de la muestra.


314


Un cálculo preciso del “tamaño requerido de la muestra” asegura que la recolección de datos para el componente nacional de un estudio internacional comparado aporte respuestas a las preguntas clave de la investigación sin perder dinero en muestras excesivamente grandes de escuelas y estudiantes. Aquí, el principal peligro es, en realidad, subestimar el tamaño requerido de la muestra, que puede producir errores de muestreo tan grandes que haya un alto grado de incertidumbre al tratar de responder a las preguntas clave de la investigación.

Los participantes en el Foro de Política observaron que algunos sistemas educativos tenían grandes variaciones entre escuelas en el rendimiento promedio de los estudiantes debido a la segregación residencial de los grupos socioeconómicos o al uso de diferentes “agrupamientos” de escuelas para estudiantes con diferentes niveles de rendimiento. En estos tipos de sistemas educativos generalmente se necesitaba seleccionar muestras relativamente más grandes de escuelas y estudiantes a fi n de lograr un nivel dado de precisión en el muestreo.

El grado de variación entre las escuelas se medía generalmente mediante el coefi ciente de correlación intraclase (rho) y el valor de esta medida estadística puede variar signifi cativamente entre los sistemas educativos que participan en el mismo estudio internacional comparado. También fue importante observar que esta medida estadística variaba según el grado y la asignatura, por lo que se requería asegurar que los cálculos del rho fueran adecuados para el estudio que se planeaba.

Por ejemplo, en el proyecto SACMEQ II, los valores de rho para el rendimiento en lectura de los estudiantes del 6º grado variaban desde alrededor de 0,25 en Botswana y Mauricio hasta 0,60 o más en Namibia y Sudáfrica. Esto significa que, para un número fijo de 20 estudiantes seleccionados en cada escuela, las muestras totales requeridas de escuelas para lograr un nivel dado de precisión de la muestras en Namibia y Sudáfrica eran dos veces y media más grandes que en Botswana y Mauricio (Ross, 2005).

Se convino en que los ministerios de educación no tendrían necesidad de contar imperativamente con un estadístico califi cado en materia de muestreo en el equipo investigador a cargo del trabajo nacional en un estudio internacional comparado sobre la calidad de la educación. Sin embargo, era esencial que el equipo investigador tuviera una buena comprensión de los principios fundamentales del muestreo y, en caso


315


necesario, tuviera acceso a un estadístico especialista en muestreo a fi n de clarifi car preguntas y verifi car los detalles de los cálculos.

Varios participantes en el Foro de Política indicaron que los cálculos que se requerían para adoptar decisiones adecuadas acerca del tamaño de las muestras necesarias de escuelas y estudiantes para un estudio internacional comparado sobre la calidad de la educación se podría simplifi car mediante el uso de “tablas de diseño de muestras” (Ross, 2005) y sistemas computarizados especiales para el diseño de muestras (tal como el paquete SAMDEM desarrollado por el IIPE a fi n de explorar muy rápidamente una gran variedad de opciones de muestreo que tengan en cuenta el tamaño del coefi ciente de correlación intraclase (Sylla et al., 2005).

Recomendación 2(b): los ministerios de educación que participan en estudios internacionales comparados sobre la calidad de la educación deben asegurar que sus equipos de investigación comprendan y sepan aplicar las reglas básicas del muestreo que se utilizan para estimar la “talla necesaria de la muestra” y que tengan acceso a: (1) buenas estimaciones nacionales del coefi ciente de correlación intraclase para el grado y las áreas disciplinarias pertinentes; (2) un estadístico califi cado en materia de muestreo (si es necesario); y (3) formación en el uso de instrumentos de investigación que faciliten la rápida exploración y verifi cación de las opciones de diseño de muestras (tales como “tablas de diseño de muestras” y sistemas computarizados especiales para el diseño de muestras).

Mensaje 2(c): comprender y utilizar ponderaciones muestrales y errores de muestreo

Los participantes en el Foro de Política debatieron varias cuestiones relacionadas con la aplicación de ponderaciones muestrales y errores de muestreo en los estudios internacionales comparados. Estas dos medidas estadísticas se consideraron esenciales para interpretar las estimaciones de las muestras en materia de calidad de la educación.

Los participantes subrayaron que en muchos estudios el cálculo y la verifi cación de estas estadísticas era una tarea compleja que normalmente requeriría la asistencia de estadísticos con experiencia en muestreo. Sin embargo, se convino en que los equipos de investigación que participaran en estudios internacionales comparados sobre calidad de la educación deberían ser capaces de entender y aplicar: (1) las ponderaciones muestrales antes de los análisis de los datos principales (durante la fase de preparación de los datos de un estudio); y (2) errores de muestreo


316


después de los análisis de los datos principales (durante la fase de preparación del informe de un estudio).

Las ponderaciones muestrales son necesarias a fi n de dar cuenta de las desiguales probabilidades en la selección de la muestra. Por ejemplo, cuando se aplica el muestreo desproporcionado a los estratos de la población tomando muestras de igual tamaño en regiones de educación que difi eren signifi cativamente en talla, es esencial evitar sesgos en las estimaciones de la muestra mediante el aumento de los pesos de las muestras de los estudiantes seleccionados de estratos grandes, y viceversa para los estudiantes seleccionados de estratos pequeños. A menudo, las ponderaciones muestrales requieren ser “afi nadas” a fi n de compensar las deficiencias en los marcos muestrales y menores niveles de no respuesta.

Las ponderaciones muestrales se calculan generalmente de manera que la suma de los ponderaciones muestrales en la muestra sea igual al tamaño de la población (“ponderaciones de la población”) o la suma de las ponderaciones muestrales en la muestra sea igual al tamaño alcanzado por la muestra (“ponderaciones estandarizadas”). Ambos tipos de ponderaciones se deben calcular y agregar a los archivos de datos, porque cada uno tiene ventajas en ciertas circunstancias importantes. Por ejemplo, las ponderaciones de la población son útiles si la investigación requiere estimaciones del número real de estudiantes en la población objetivo defi nida con una característica específi ca; mientras que las ponderaciones estandarizadas son preferibles si un equipo de investigación no está habituado a obtener una diferencia entre el número real de personas que responden al cuestionario y el “número ponderado de casos” indicados por los sistemas estadísticos informatizados.

Los errores de muestreo de las estimaciones de la encuesta son necesarios para suministrar medidas de la confi anza que podemos tener en la estabilidad de las estimaciones muestrales entre todas las muestras posibles que se podrían haber obtenido utilizando el mismo diseño muestral. Afortunadamente, existen procedimientos estadísticos disponibles que permiten que los investigadores calculen esta medida de confi anza mediante el uso de datos provenientes de una muestra para inferir lo que habría sucedido a todas las muestras posibles.

El uso más importante de los errores de muestreo tiene lugar en la construcción de límites de confi anza para las estimaciones muestrales de las características de la población. Por ejemplo, si vamos a estimar un


317


puntaje nacional promedio de rendimiento del estudiante de 550 puntos con un error muestral de 5 puntos, entonces podríamos tener un 95 % de confi anza de que el verdadero puntaje nacional promedio del estudiante se sitúa entre 550, más o menos 2 x 5 = 10 puntos. Esto es entre 540 y 560 puntos. Estos intervalos de confi anza son esenciales, si deseamos hacer comparacioanes válidas y signifi cativas entre (1) los promedios nacionales de los puntajes de los estudiantes para dos países diferentes y (2) los promedios nacionales de los puntajes de los estudiantes para un país en dos ocasiones diferentes.

Recomendación 2(c): los ministerios de educación que participan en estudios internacionales comparados sobre la calidad de la educación deberían asegurar que sus equipos de investigación sean capaces de: (1) tener acceso a un estadístico experimentado en muestreo para calcular y verifi car las ponderaciones muestrales y los errores de muestreo; (2) comprender y aplicar ponderaciones muestrales antes de los análisis de datos (durante la fase de preparación de los datos de un estudio); y (3) comprender y aplicar los errores muestrales después de los análisis de datos (durante la fase de preparación del informe de un estudio).

Mensajes del Grupo 3: planifi car el diseño logístico de los estudios internacionales comparados

El diseño logístico de un estudio internacional comparado sobre la calidad de la educación en un país tiene que ver con la gestión de los recursos humanos, materiales y fi nancieros necesarios para la exitosa ejecución del estudio. Los participantes en el Foro de Política observaron que el diseño logístico para el mismo estudio puede ser muy diferente en distintos países, dependiendo de la naturaleza de las organizaciones nacionales responsables de ejecutarlo.

Los participantes en el Foro de Política observaron que en el centro mismo de una ejecución exitosa de un estudio internacional comparado sobre la calidad de la educación en un país había dos ingredientes esenciales: (1) un equipo de investigación bien formado, experimentado y motivado, conducido por un Coordinador Nacional de Investigación capaz y que estimule al grupo; y (2) un plan y programas claramente detallados para el despliegue de todos los recursos y actividades asociados con la implementación de la investigación.


318


La entidad responsable de un estudio puede ser un órgano gubernamental (por ejemplo, un ministerio de educación), una institución fi nanciada por el gobierno (por ejemplo, una universidad pública) o una institución independiente (por ejemplo, una universidad privada, un centro de investigación o un consorcio de organizaciones privadas). Si el estudio es organizado por un órgano público o una institución fi nanciada por el gobierno es probable que haya una alta proporción de costos “ocultos” que se puedan cubrir con los presupuestos existentes. Si el estudio es ejecutado por una institución independiente, entonces la mayoría de los costos serán “visibles”, en el sentido de que se traducirán en gastos monetarios efectivos que sobrepasen los presupuestos existentes.

Hubo dos mensajes principales del Foro de Política en relación con las cuestiones de logística: la creación y mantenimiento de un equipo interno de investigación y la preparación de planes logísticos detallados.

Mensaje 3(a): la creación y mantenimiento de un equipo interno de investigación

La manera en que un ministerio de educación enfoca la gestión del componente nacional de un estudio internacional comparado sobre la calidad de la educación puede variar mucho. En algunos países, todo el trabajo –hasta la provision de apoyo técnico y de ofi cinas adicionales– es suministrado por el ministerio. En otros casos, los ministerios utilizarán recursos externos en diverso grado para suministrar apoyo a algunas o todas las tareas relacionadas con la impresión, recolección de datos sobre el terreno, introducción y análisis de datos.

El primer enfoque es preferible porque permite que el ministerio tenga pleno control sobre todos los aspectos de la investigación y ofrece excelente formación práctica a los planifi cadores e investigadores del ministerio de educación. El segundo enfoque es aceptable, si se subcontrata una parte del trabajo.

Los participantes en el Foro de Política hicieron hincapié en que independientemente del enfoque que se adoptara, era importante que el equipo interno de investigación estuviera bien constituido, bien gestionado y tuviera acceso a un espacio, equipamiento y condiciones de trabajo adecuados. Estos dispositivos de trabajo tenían más probabilidades de estimular a los miembros de los equipos de investigación para permanecer juntos durante la realización del estudio y proseguir en otros estudios importantes en los que su formación y experiencia se pudiera utilizar con


319


buenos resultados. Incluso cuando se subcontratan algunos componentes de la investigación es necesario contar con sólidas competencias internas a fi n de disponer de un mecanismo de control de calidad de los contratados externos.

Los participantes en el Foro de Política convinieron en que en los ministerios de educación debe tenerse conciencia que las competencias elevadas requeridas para ejecutar un estudio internacional comparado sobre la calidad de la educación son “vendibles” en muchas otras áreas. Por consiguiente, una importante inversión en la creación de un equipo de investigacion para un proyecto que dura varios años debe ser apuntalado por una adecuada estructura de recompensas que mantenga motivado al equipo de investigación y también estimule a sus participantes a permanecer en el equipo, así como a compartir su experiencia y formación con otras personas.

Los participantes observaron que las estructuras de recompensa para los investigadores talentosos y serios no siempre se basaban únicamente en cuestiones de orden fi nanciero. Las mejores personas en este campo también están interesadas en publicar, tener oportunidad de encontrar y trabajar con otros profesionales de ideas afi nes, así como de viajar y adquirir mayor formación.

Recomendación 3(a): los ministerios de educación que participan en estudios internacionales sobre la calidad de la educación deben crear sistemas de reclutamiento y recompensa necesarios para: (1) seleccionar y constituir un equipo de investigación bien formado, experimentado y motivado; (2) mantener a este equipo de investigación durante todo el período de vida de un estudio internacional comparado sobre la calidad de la educación que dura varios años; (3) estimular a este equipo de investigación para que permanezca en el ministerio a fi n de lograr un benefi cio pleno de sus competencias en investigación y de su capacidad para asistir y formar a otros miembros del personal.

Mensaje 3(b): la preparación de planes logísticos detallados

La tarea consistente en gestionar cotidianamente las operaciones del componente nacional de un estudio internacional comparado sobre la calidad de la educación es responsabilidad del Coordinador Nacional de Investigación (CNI), quien normalmente es un miembro de alto nivel de la ofi cina de investigación y planifi cación de un ministerio de educación. Varios participantes en el Foro de Política que habían actuado previamente como CNI indicaron que este papel exige competencias avanzadas en


320


planifi cación y liderazgo, a fi n de manejar el trabajo del proyecto que cambia signifi cativamente en relación con el tema, la magnitud, el personal y las presiones a medida que se va ejecutando.

En diferentes etapas del estudio, el CNI necesitará el apoyo de especialistas para guiar el trabajo de elaboración de pruebas, muestreo y análisis de datos. En otras fases, se requerirá aumentar el personal de apoyo para asistir en la gestión del fl ujo y procesamiento de los materiales de recoleccion de datos, administración de pruebas, introducción y depuración de datos. Se necesitará otro grupo de personas –a menudo profesores– para califi car las preguntas abiertas, los ítems prácticos de las pruebas y el material escrito recolectado durante las pruebas de lenguaje. También se necesitará otro grupo de personas –frecuentemente planificadores o investigadores del ministerio de educación– para: coordinar la interfaz entre el trabajo del proyecto y la “maquinaria del ministerio” mediante el contacto y la información al personal de alto nivel, formar a los coordinadores del proyecto en las escuelas, obtener autorizaciones importantes de los directores de escuela y enfrentar el “trabajo en situaciones de emergencia y crisis”.

Estos recursos humanos deben administrarse en asociación con los recursos materiales adecuados, tales como espacio y equipos de ofi cina, teléfonos y otros sistemas de comunicación, computadoras, sistemas de archivo, áreas de trabajo abiertas (para empaquetado, distribución, devolución, calificación, almacenamiento e instrumentos para la verifi cación de la recolección de datos). En diferentes fases del proyecto, las ofi cinas y los espacios de trabajo se convierten en factores importantes, mientras que en otras es posible que las computadoras, los sistemas de comunicación o los medios de transporte sean prioritarios.

Todas las tareas enunciadas previamente constituyen un verdadero desafío de planifi cación para los CNI. Los participantes en el Foro de Política convinieron en que, para tener éxito, un CNI tenía que ser capaz de elaborar y trabajar en el marco de un calendario detallado, en el que durante un período de dos a tres años cada semana de trabajo estuviera totalmente planifi cada en relación con los puntos de referencia y las fechas límite que debían respetarse para que se completara el estudio oportuna y científi camente. Se señaló que todo este trabajo debía ser ejecutado dentro del marco de una estructura administrativa de apoyo suministrada por los responsables de la toma de decisiones de alto nivel del ministerio de educación.


321


Recomendación 3(b): los ministerios de educación sólo pueden participar exitosamente en un estudio internacional comparado sobre la calidad de la educación si nombran un Coordinador Nacional de Investigación califi cado y experimentado que tenga: (1) la capacidad de planifi car y gestionar a largo plazo la distribución de una amplia gama de recursos humanos y materiales; (2) las calidades personales requeridas para ejercer un liderazgo inspirador y sostenido durante todo el período de vida del proyecto (dos o tres años); y (3) el pleno apoyo de los responsables de la toma de decisiones de alto nivel del ministerio de educación.

Mensajes del Grupo 4: gestionar el impacto de los estudios internacionales comparados

Muchos países que han participado en estudios internacionales comparados sobre la calidad de la educación han acumulado una gran cantidad de datos y producido numerosas publicaciones conteniendo los resultados de la investigación. Sin embargo, la existencia de datos y resultados de investigación no siempre ha implicado (1) la disponibilidad de pruebas sólidas que se puedan utilizar para orientar la política o (2) un entorno que sea favorable para transformar la política en reformas concretas.

Los participantes en el Foro de Política convinieron que lo que se requería en esta situación era ir más allá de los datos y resultados de la investigación y pasar de la construcción de una política basada en resultados a su ejecución subsecuente. Algunos de los participantes caracterizaron este proceso como sinónimo de ‘paso del discurso a la acción’.

Los participantes observaron que se podría lograr un mayor impacto sobre la política si se prestara más atención a cuatro dimensiones: (1) “qué” preguntas de investigación se seleccionaron a fi n de ser estudiadas y luego ser objeto de presentación; (2) “quiénes” participaron dando, recibiendo y gestionando los fl ujos de comunicación acerca de los resultados; (3) “cómo” se comunicaron estos resultados; y (4) “cuándo” se comunicaron estos resultados. Se hizo hincapié en que todas las dimensiones se debían abordar exitosamente y que esto a menudo planteaba problemas porque frecuentemente se requerían competencias que estaban fuera de la experiencia y los intereses de los planifi cadores e investigadores de la educación.


322


Hubo cinco mensajes importantes del Foro de Política relacionados con la gestión del impacto de los resultados de la investigación. Estos se alinearon con las cuatro dimensiones previas de la manera siguiente: (1) “qué”: delimitar las preguntas importantes de la investigación; (2) “quién”: trabajar con los ministros y los responsables de la toma de decisiones de alto nivel; (3) “cómo”: dar a conocer los resultados de la investigación y ampliar la participación en el debate de sus resultados; y (4) “cuándo”: evitar el retraso.

Mensaje 4(a): delimitar las preguntas de política importantes

En diversos momentos del Foro de Política los participantes debatieron las opciones disponibles para crear vínculos más fuertes entre resultados, reformas de política y acción. Se convino en que el simple acto de suministrar datos y pruebas a un responsable de la toma de decisiones en materia de educación representaba una comunicación genuina sólo cuando el responsable de la toma de decisiones escuchara activamente y se concentrara en un problema afín. Sin estas condiciones, los planifi cadores e investigadores de la educación se pueden encontrar a sí mismos aportando pruebas a una audiencia que sólo está interesada en encontrar respuestas a otras preguntas.

Los fallos de este tipo en la comunicación nunca se pueden mejorar suministrando más información. Sólo se pueden abordar si los planifi cadores e investigadores de la educación superan un enfoque mecanicista de transmisión de datos y pruebas y, en su lugar, desarrollan estrategias interactivas de difusión basadas en el diálogo con los responsables de la toma de decisiones.

El propósito de este diálogo no es examinar los tipos de preguntas impulsadas por la curiosidad que son centrales en los programas de investigación de los profesores universitarios. Más bien, el propósito es estimular a los planifi cadores e investigadores de la educación para: (1) escuchar a los responsables de la toma de decisiones que exigen información en función de sus prioridades; (2) comprender cómo interpretan y comprenden un problema los responsables de la toma de decisiones; y (3) adoptar una postura dinámica ayudando a los responsables de la toma de decisiones a delimitar sus preguntas y preocupaciones de política susceptibles de ser objeto de investigación de manera técnicamente solvente.

Varios participantes en el Foro de Política observaron que el enfoque de investigación adoptado por el SACMEQ era innovativo al armonizar


323


el diseño de la investigación con las preocupaciones más importantes de política del ministerio. Esto funcionó como un proceso en tres etapas que se puso en ejecución antes de que comenzara el trabajo de implementación del estudio internacional comparado sobre la calidad de la educación.

En el primer paso se invitó a los responsables de alto nivel de la toma de decisiones en los ministerios de educación a debatir sus preocupaciones políticas y ordenarlas según su prioridad. Después, estas preocupaciones políticas se combinaron entre los países para lograr un conjunto de “preocupaciones generales de política”. En el segundo paso los investigadores utilizaron las preocupaciones generales de política para construir “preguntas de política específi cas” más detalladas, que brindaran una orientación precisa en relación con la información que era necesario recolectar. Finalmente, se prepararon “tablas fi cticias” o “tablas en blanco” [dummy tables o blank tables] en el debate con los responsbles de la toma de decisiones de modo que se ofrecieran plantillas para la presentación de los resultados de la investigación.

Estos tres pasos se utilizaron para guiar todas las etapas del proceso de diseño de la investigación del SACMEQ, lo que garantizó que los responsables de la toma de decisiones de alto nivel desempeñaran un papel clave en la decision de qué datos se deberían recolectar y cómo serían sintetizados y presentados.

Recomendacion 4(a): los ministerios de educación deberían insistir en un componente de “preplanifi cación” para los estudios internacionales comparados sobre la calidad de la educación en el que: (1) los asuntos políticos más importantes de los responsables de alto nivel se utilicen para suministrar un marco de referencia para el diseño de la investigación; y (2) los responsables de alto nivel sean consultados sobre todos los aspectos relativos a la síntesis de los datos y el informe de la investigación antes de implementar un estudio.

Mensaje 4(b): trabajar con los ministros y los responsables de la toma de decisiones de alto nivel

Varios participantes en el Foro de Política indicaron la necesidad de que los planifi cadores e investigadores de la educación comprendieran lo que los ministros y los responsables de la toma de decisiones de alto nivel de los ministerios de educación “piensan realmente” sobre los estudios internacionales comparados sobre la calidad de la educación. Para estas personas, dichos estudios comportan riesgos debido a que los resultados


324


de la investigación podrían mejorar su imagen pública o minar la confi anza en su calidad de dirigentes.

Los participantes convinieron en que un requisito esencial para trabajar con ministros y responsables de la toma de decisiones de alto nivel era que estas personas tuviesen confi anza en las competencias y experiencia técnicas de sus equipos de investigación, de modo que, independientemente de las declaraciones o explicaciones que pudieran ofrecer por los resultados de la investigación, se podría verifi car su exactitud y coherencia antes de su publicación. Aquí debe hacerse hincapié en que, incluso si en un ministerio se decidió subcontratar muchas (o la mayoría) de las tareas involucradas en la participación en un estudio internacional comparado, subsistía la necesidad de que un equipo “interno” brindara sabios consejos en la etapa en la que los resultados se iban a publicar, discutir y debatir.

Los participantes discutieron opciones para reducir la inquietud en relación con los riesgos. Observaron que era esencial que los responsables de la toma de decisiones de alto nivel fueran actores activos en la conceptualización y evolución de los estudios internacionales comparados, de modo que se consolidara su sentimiento de propiedad de los resultados. El tema principal aquí fue que se evitaran las “sorpresas” en todas las etapas de la investigación, especialmente en la fase de información, en la que puede haber una mezcla de “buenas noticias” y “malas noticias” sobre las condiciones de la educación y la calidad de la educación.

Varios participantes informaron que los ministros de sus países habían apreciado ser informados acerca de los resultados de la investigación mucho antes de que circularan o fuesen publicados. Los ministros deseaban tener tiempo para “digerir” las principales cuestiones que emergían de la investigación, así como tiempo sufi ciente para consultar con sus asesores antes de que los medios de comunicación o el parlamento les pidieran que “explicaran” los resultados.


325


Recomendación 4(b): los ministerios de educación deben asegurar que los equipos de investigación que se constituyen para el estudio internacional comparado sobre la calidad de la educación: (1) tengan las competencias y experiencia necesarias para inspirar confi anza entre los responsables de la toma de decisiones de alto nivel; (2) incluyan a los responsables de la toma de decisiones de alto nivel en el proceso del estudio, de modo que tengan un sentimiento de propiedad; (3) se aseguren de que no hay “sorpresas” para el personal responsable de la toma de decisiones de alto nivel por los buenos o malos resultados; y (4) brinden información y explicaciones sobre los resultados de la investigación al ministro de educación mucho antes de su publicación, de modo que pueda presentar y defender con confi anza los resultados a los medios de comunicación y al parlamento.

Mensaje 4(c): presentar los resultados de la investigación

Los participantes en el Foro de Política consideraron que muchos planificadores e investigadores de la educación no eran buenos comunicadores de los resultados de la investigación. La principal razón de esta situación es que han sido formados durante muchos años para leer, respetar y valorar la presentación de la investigación en el lenguaje y estilo de las revistas académicas tradicionales, que tienden a ser algo inaccesibles fuera de los límites de las universidades dedicadas a la investigación.

Los participantes convinieron en que a fi n de llegar a audiencias más vastas de actores interesados con un impacto más directo sobre la política y la práctica educativas, los resultados provenientes de muchos estudios internacionales comparados sobre la calidad de la educación deberían difundirse de manera más competente y esmerada, utilizando métodos de comunicación más atractivos y accesibles.

Por ejemplo, es necesario otorgar más atención a liberarse de los formatos de la presentación académica tradicional empleando: (1) periodistas y expertos en publicidad que reescriban los resultados de la investigación en formatos más comunicativos; (2) medios electrónicos para difundir los resultados de la investigación al público; (3) informes de investigación más cortos y accesibles, con el material técnico colocado en apéndices; y (4) mayor cantidad de “material visual” (por ejemplo, gráfi cos en colores, ilustraciones e imágenes, en lugar de una sucesión de páginas con cifras tabuladas).

Los participantes en el Foro de Política también observaron que era necesario abordar el “tono y equilibrio” general de los informes de investigación En particular, sugirieron que se reexaminara el difundido “estilo académico de redacción” sobre los problemas, fallas, limitaciones,


326


desigualdades y discrepancias que tendían a restar importancia a los esfuerzos, mejoras, contribuciones, trabajo intensivo y logros. Este problema lo complican los medios de comunicación, que en algunos países tienden a tratar los problemas educativos a “golpe de titulares”.

Los participantes convinieron en que una presentación prudente de los resultados de la investigación controvertibles o “duros” podía generar un debate de política productivo y reformas, siempre y cuando se presentaran de manera equilibrada, de modo que los hallazgos positivos se presentaran con el mismo entusiasmo que los resultados negativos. Este enfoque también exigía tener cuidado en la presentación de las opciones de reforma de política para asegurar que fueran realistas y asequibles, y que se postulara sin culpar a personas o grupos por esas carencias.

Asimismo, la presentación de los resultados de la investigación debía tener en cuenta que una perspicaz elección de los temas de la investigación podría mejorar la recepción de los informes en los ministerios de educación. Por ejemplo, varios informes del proyecto PISA de la OCDE abordaron “temas candentes” en los países de la OCDE (por ejemplo, relaciones entre autonomía de la escuela y rendimiento escolar; la importancia de que los estudiantes llegaran a ser educandos automotivados y el impacto del agrupamiento en el rendimiento de los estudiantes). Por consiguiente, estos informes de investigación del proyecto PISA fueron capaces de “atraer la atención” de los responsables de la toma de decisiones de alto nivel de los ministerios y el público.

Recomendación 4(c): los ministerios de educación deberían ampliar sus enfoques de difusión al presentar los resultados de los estudios internacionales comparados sobre la calidad de la educación: (1) evitando el estilo tradicional de las revistas académicas para utilizar alternativas más accesibles que incluyan enfoques periodísticos, difusión mediante medios electrónicos, formatos atractivos de presentación que sean breves, visuales y en colores; (2) equilibrando más la presentación de los resultados positivos y negativos de la investigación; (3) presentando opciones de política realistas y asequibles que no busquen descargar la culpa por las carencias encontradas; y (4) tomando debida cuenta de los problemas y preocupaciones en materia de educación, que son “temas candentes” para los responsables de la toma de decisiones de alto nivel del ministerio de educación y el público.


327


Mensaje 4(d): ampliar la participación en los debates sobre los resultados de la investigación

Los participantes en el Foro de Política observaron que el enfoque tradicional de presentación e intercambio de los resultados de la investigación de los estudios internacionales comparados sobre la calidad de la educación a menudo tenían como destinatarios a los profesionales de los ministerios de educación, universidades, instituciones de formación de profesores, así como de organizaciones y agencias específi cas de educación. Se convino en que este enfoque más bien estrecho puede ser contraproducente, pues ignora el hecho de que muchos otros grupos de actores interesados desempeñan un papel importante en relación con la aceptación y la ejecución de reformas de política educativa.

Entre estos grupos ignorados (a menudo inadvertidamente) estaban medios de comunicación, organizaciones religiosas, el sector privado, organizaciones no gubernamentales, parlamentos, sindicatos de profesores, grupos de padres de familia y directores de escuela. En muchos casos, estas personas –especialmente los parlamentarios y los directores de escuela– representaban a importantes “defensores” en fases críticas de un ciclo de investigación-política-acción, porque desempeñan un papel importante en la toma de decisiones relacionadas con la identifi cación, facilitación y otorgamiento de aprobaciones; legislación, fi nanciación y apoyo de la base necesarios para transformar los resultados de la investigación en política formal y, posteriormente, en acciones concretas.

Los participantes en el Foro de Política observaron que era particularmente preocupante que mientras que las leyes sobre los sistemas educativos se hacían en los parlamentos, muy pocos planifi cadores e investigadores de la educación hubieran informado o debatido con parlamentarios considerados individualmente o con grupos de parlamentarios (que no fueran los ministros de educación) acerca de las implicaciones políticas que surgían de los estudios internacionales comparados sobre la calidad de la educación. Los participantes consideraron que esta situación requería atención inmediata y animaron a los ministros de educación a pensar cuidadosamente sobre cómo se podría abordar este problema, especialmente en países donde la cultura política era muy voluble y no podía animar ni permitir que los planifi cadores e investigadores de la educación empleados como funcionarios establecieran contacto con los parlamentarios.


328


Otro grupo muy importante, pero también olvidado frecuentemente, era el de los directores de escuela. Los participantes en el Foro de Política observaron que este grupo se había convertido en una audiencia objetivo muy importante en relación con los resultados de la investigación, porque la tendencia a una mayor descentralización del poder para la toma de decisiones en los sistemas educativos a nivel mundial había dado a los directores de escuela mayor autoridad sobre muchos aspectos de la organización escolar.

Se convino en que los directores de escuela apreciaban la retroalimentación a partir de las investigaciones en que participaban sus propias escuelas, siempre y cuando los resultados comparados sobre el rendimiento de los estudiantes fueran presentados conjuntamente, es decir, los resultados de “la escuela promedio” y los resultados de “otras escuelas que tienen una admisión de estudiantes similar a la de mi escuela”.

Varios participantes en el Foro de Política propusieron que la comunicación de los resultados de la investigación a algunos grupos de actores interesados en los ministerios de educación podría ser más efi caz si se efectuase en un marco internacional. El propósito aquí era ofrecer oportunidades a los países para que aprendieran unos de otros al compartir sus experiencias nacionales. Esto podría adoptar la forma de conferencias o talleres internacionales destinados a grupos con intereses y responsabilidades comunes en un ministerio de educación (por ejemplo, personal directivo, secretarios permanentes y directores de las áreas de currículo y exámenes).

Recomendación 4(d): los ministerios de educación deberían incorporar a una mayor diversidad de grupos de actores interesados en los debates y reuniones que ofrecen información en relación con las implicaciones políticas de los estudios internacionales comparados sobre la calidad de la educación, especialmente parlamentarios y directores de escuela, pero también a personas provenientes de los medios de comunicación, organizaciones religiosas, el sector privado, ONGs, sindicatos de profesores, padres de familia y responsables de alto nivel de los ministerios de educación. La comunicación de los resultados de la investigación a ciertos grupos que trabajan en los ministerios de educación podría ser más efi caz si se efectuara en un marco internacional, con el propósito de estimular a responsables de los países para que aprendan unos de otros al compartir sus experiencias nacionales acerca de las estrategias utilizadas para transformar los resultados de la investigación en política y acción.


329


Mensaje 4(e): evitar retrasos

En diversos momentos del Foro de Política los participantes indicaron que los resultados de la investigación provenientes de los estudios internacionales comparados sobre la calidad de la educación a menudo llegaban muy tardíamente a los responsables de la toma de decisiones de alto nivel del ministerio. Sin embargo, se convino en que la rapidez con la que se terminaban los informes de investigación dependía en gran medida de si dicho estudio daba la más alta prioridad a la produccion de indicadores educativos (tales como los de los estudios del TIMSS de la IEA o el PISA de la OCDE) o al suministro de formación avanzada en las competencias técnicas requeridas para monitorear y evaluar la calidad de la educación (como en el caso de los estudios del SACMEQ).

La OCDE y (más recientemente) la IEA han asignado una muy alta prioridad al suministro oportuno de indicadores internacionales comparados en la primera ola de informes de investigación para cada recolección de datos. Esto ha requerido que la producción de los informes iniciales fuera puesta en manos de un pequeño círculo centralizado de personas con las competencias y experiencia requeridas para elaborar excelentes informes muy rápidamente, una vez concluída la recolección de los datos.

Por el contrario, los estudios del SACMEQ fueron concebidos para dar la más alta prioridad a la formación práctica de los equipos nacionales de investigación. El objetivo fue asegurar que los coordinadores nacionales de investigación del SACMEQ comprendieran y completaran cada paso del proceso de investigación de política educativa, incluyendo la conceptualización, el diseño de la investigación, la construcción de instrumentos, el muestreo, la gestión de los datos, la califi cación de las pruebas, el análisis de los datos y los informes, independientemente de cuánto tiempo tomara completar cada una de estas etapas.

El problema con el enfoque del SACMEQ para dirigir una investigación internacional comparada ha sido que retrasa la entrega de los informes iniciales de investigación. Un ejemplo como ilustración: en el proyecto del SACMEQ II, los planifi cadores e investigadores de la educación de varios países (Mozambique, Tanzania, Uganda, Zambia y Zanzíbar) tomaron cerca de dos años para completar las fases de depuración de datos según los estándares establecidos para el estudio. Esto retrasó la conclusión de todos los informes de investigación del SACMEQ, porque se requirió disponer de los datos de todos los países para completar el


330


escalonamiento y la califi cación de los datos de las pruebas aplicadas a los estudiantes.

Recomendación 4(e): los ministerios de educación que participen en estudios internacionales comparados sobre la calidad de la educación deben reconocer que la rapidez con la que se presentan los resultados de la investigación internacional comparada en una forma adecuada para su uso en el análisis y elaboración de política depende de si se asigna la más alta prioridad a la producción y presentación de indicadores educativos internacionales comparados o a la oferta de formación práctica a los equipos nacionales de investigación en todas las etapas del proceso.

Mensajes del Grupo 5: necesidades y modalidades del fortalecimiento de capacidades

La complejidad de la metodología requerida para diseñar y ejecutar investigaciones de política internacional comparada ha aumentado signifi cativamente durante los últimos 50 años. A fi nes de la década de los cincuenta y comienzos de la de los sesenta, cuando los programas iniciales de investigación de la IEA estaban en pleno auge, la mayoría de los coordinadores nacionales de investigación de la IEA no tenían acceso a computadoras y sólo un pequeño número de investigadores especializados de la sede de la IEA tenían acceso a “computadoras centrales” (que tenían pocos recursos, eran difíciles de utilizar y contaban con un número limitado de aplicaciones).

Este temprano entorno de investigación constrasta signifi cativamente con las condiciones y expectativas actuales, en las que los planifi cadores e investigadores de educación (incluyendo a los de los países en desarrollo) deben saber cómo utilizar computadoras para: (1) formatear las pruebas y los manuales para el trabajo sobre el terreno; (2) diseñar y sesleccionar las muestras de escuelas y estudiantes; (3) introducir y depurar datos; (4) califi car las pruebas y elaborar registros; (5) tabular y analizar datos; (6) preparar informes; (7) registrar electrónicamente los datos de la investigación y los instrumentos relacionados; y 8) intercambiar información y recursos de investigación entre los países participantes.

La “era moderna” ha visto también avances en la metodología de la investigación. Por ejemplo, actualmente, los equipos de investigación son capaces de efectuar estudios internacionales comparados benefi ciándose de las nuevas técnicas de medición educacional (por ejemplo, el escalonamiento de Rasch y su aplicación a pruebas “superpuestas”) y


331


nuevos sistemas informáticos (por ejemplo, programas computarizados para efectuar cálculos de error muestral y potentes análisis de datos multinivel).

Todos estos avances técnicos han exigido que los coordinadores nacionales de investigación y sus equipos tengan niveles de formación y experiencia mucho más elevados en métodos cuantitativos de investigación de política educativa basados en el uso de computadoras, lo que ha generado la necesidad de ampliar las oportunidades de fortalecer las capacidades nacionales de los planifi cadores e investigadores de la educación, especialmente en los países en desarrollo.

Hubo tres mensajes del Foro de Política en relación con las necesidades de formación de los participantes en estudios internacionales comparados sobre la calidad de la educación: formación en métodos cuantitativos avanzados, formación para la adquisición de competencias en la transmisión de información y utilización de modalidades de formación efi caces.

Mensaje 5(a): formación en metodologías técnicas avanzadas

Los participantes en el Foro de Política observaron que los estudios internacionales comparados sobre la calidad de la educación modernos se habían tornado muy complejos, provocando la tentación de centralizar en grupos de expertos la responsabilidad de tomar la mayoría de las decisiones importantes acerca de cuestiones técnicas. Los participantes advirtieron que esta situación aumentaba el riesgo de que algunos países con equipos de investigación con menos conocimientos técnicos pudieran ser excluidos de importantes debates y decisiones acerca del diseño de la investigación.

Un ejemplo como ilustración: el uso de la técnica del “condicionamiento de la califi cación de la prueba” se ha difundido mucho en los estudios internacionales comparados sobre la calidad de la educación. Esta técnica “compensa” las califi caciones de los estudiantes para dar cuenta de la información suplementaria sobre un estudiante y su entorno educacional. Algunos observadores cuestionaron esta práctica basándose en que parece raro (e incluso “injusto”) compensar la califi cación de la prueba del estudiante hacia abajo si el estudiante logra un puntaje muy alto y proviene de un hogar relativamente desfavorecido y de un entorno escolar relativamente pobre en recursos. Desafortunadamente, los procedimientos técnicos requeridos para implementar el condicionamiento y las


332


justifi caciones para emplear este procedimiento son muy complejos. Por consiguiente, los ministerios de educación sólo pueden hacer contribuciones signifi cativas en el debate sobre si se utiliza o no el condicionamiento si cuentan con personal con un sólido conocimiento sobre la teoría moderna de la respuesta al ítem.

Hubo muchas otras decisiones importantes sobre el diseño de la investigación de la que los ministerios de educación podrían haber sido excluidos, si hubieran carecido de equipos de investigación con formación y experiencia avanzadas en técnicas de construcción y escalonamiento, muestreo, así como en la gestión y el análisis de datos recolectados en gran escala.

Algunas de estas decisiones importantes implican elegir entre diseños de investigación competitivos tales como: “aplicar un muestreo basado en la edad o un muestreo basado en el grado”, “emplear la misma prueba para todos los estudiantes o formatos de pruebas rotatorios”, “administrar una prueba de una hora a estudiantes de 10 años o una prueba de dos horas”, “basar el proyecto de pruebas en marcos de referencia curriculares ofi ciales o en predicciones de los expertos sobre las necesidadaes futuras de competencias”, “utilizar sólo cuestionarios con respuestas de elección múltiple u otros formatos de preguntas tales como respuestas abiertas o preguntas prácticas”, “permitir el reemplazo de las escuelas elegidas que no quieran participar o utilizar sólo escuelas que acepten participar”, “califi car los ítems de las pruebas que no fueron respondidos como ‘incorrectos’ o califi carlos como sin ‘respuesta’”, “utilizar sólo traducción directa de las pruebas, o utilizar traducción directa e inversa”, “presentar las califi caciones de las pruebas en formato de escalas numéricas o transformarlas en escalas descriptivas que reflejen los niveles de competencia” y “reducir las ponderaciones muestrales extremas o dejarlas tal como fueron calculadas”.

Recomendación 5(a): los ministerios de educación que desean participar plenamente en debates y decisiones de carácter metodológico y técnico importantes relacionados con el diseño fundamental de estudios internacionales comparados sobre la calidad de la educación deben asegurar que sus equipos de investigación hayan sido formados en las metodologías y técnicas punta relacionadas con: el muestreo aplicado a encuestas; la elaboración, el escalonamiento y la califi cación de pruebas de rendimiento de estudiantes, así como en técnicas de análisis de datos para la investigación de política educacional.


333


Mensaje 5(b): formacion para la adquisición de competencias en la transmisión de la información

Varios participantes en el Foro de Política indicaron que muchos ministerios de educación que habían participado en estudios internacionales comparados a menudo disponían de grandes cantidades de datos y muchos “informes de resultados de investigación, pero que tenían capacidades limitadas o carecían de ellas para transformar este ‘material bruto’ en agendas de política y acción justifi cables, viables y asequibles”.

Se estuvo de acuerdo en que esta situación ocurría porque los planifi cadores e investigadores de la educación carecían de la capacidad para efectuar dos tareas esenciales en el campo de la investigación de política educacional:

1) análisis secundarios de datos de manera dinámica, concentrándose en los problemas emergentes y en las correspondientes preocupaciones políticas de los responsables de la toma de decisiones de alto nivel y, luego, uso de los resultados de estos análisis para preparar propuestas políticas que aborden estos problemas y preocupaciones;

2) síntesis de investigación de la literatura disponible sobre investigación en materia de política y de otras fuentes de información (tales como informes ofi ciales de gobiernos y documentos de política relacionados con la administración, el personal, la asignación de recursos, el currículo, el rendimiento de los estudiantes, el presupuesto, etc.) a fi n de disponer de un marco de referencia basado en la investigación para analizar, formular e implementar política.

Estas dos tareas requieren que los planifi cadores e investigadores de la educación tengan altos niveles de competencia teórica, metodológica y técnica en materia de: (1) análisis de archivos de datos grandes y complejos; (2) la transformación de síntesis de datos en argumentos relacionados con la política; (3) anticipación de pedidos de información y de sus potenciales vínculos con información disponible; (4) extracción de temas y mensajes a partir de la vasta literatura disponible en materia de investigación a fi n de ofrecer orientación para la acción concreta; y (5) capacidad para explorar, revelar y difundir “el signifi cado detrás de los datos”.

La demostración de estas competencias por parte de los planifi cadores e investigadores de la educación sugiere que adopten el estilo de trabajo de un “agente de información”, actuando en la zona intermedia entre las


334


inquietudes políticas de los responsables de la toma de decisiones de alto nivel en los ministerios de educación y las fuentes de información disponibles en el mundo. El término ‘agente’ parece apropiado porque este trabajo tiene como propósito permitir que los responsables de la toma de decisiones se “adelanten al mercado”, de tal manera que puedan aprehender las tendencias y oportunidades emergentes y, al mismo tiempo, eviten riesgos innecesarios.

Recomendación 5(b): los ministerios de educación que desean manejar y capitalizar el potencial de información en materia de política que surge de los estudios internacionales comparados sobre la calidad de la educación deben asegurar que sus equipos de investigación hayan recibido formación para adquirir las competencias de “agentes de información”, de modo que puedan realizar: (1) análisis secundarios de datos con fi nes políticos y (2) síntesis de investigación destinada a informar el análisis, la formulación y la implementación de política.

Mensaje 5(c): utilización de modalidades efi caces de formación

Los participantes en el Foro de Política manifestaron cierta preocupación sobre el hecho de que la participación en un estudio internacional comparado sobre la calidad de la educación ofreciera oportunidades de aprendizaje práctico para fortalecer las capacidades de los planifi cadores e investigadores de la educación de los países participantes, a fi n de evitar la posibilidad de que los países fueran tratados como “agencias de recolección de datos” para estudios diseñados en otra parte.

Los participantes convinieron en que el fortalecimiento de capacidades no se debería abordar aisladamente, sino como algo “articulado” en la ejecución de un estudio internacional comparado sobre la calidad de la educación “real”. En otras palabras, los estudios internacionales comparados deben ofrecer experiencia a los planifi cadores e investigadores de la educación mediante el “aprender haciendo”, concentrado en una formación práctica que se brinde de tal manera que permita que los equipos de investigación de muy diferentes países trabajen juntos, compartan sus experiencias y aprendan unos de otros.


335


Recomendación 5(c): los ministerios de educación que participen en estudios internacionales comparados sobre la calidad de la educación deben asegurar que sus equipos de investigación reciban formación mediante la modalidad del “aprender haciendo” que ofrece: (1) formación práctica en nuevas metodologías de la investigación; y (2) oportunidades de trabajar bajo una modalidad cooperativa de “aprender haciendo” con sus contrapartes de otros países.

Comentarios fi nalesEn un mundo cada vez más globalizado y competitivo hay un gran

interés en ofrecer “Educación para Todos”, de tal manera que se reconozca la necesidad de que todos los estudiantes reciban una educación de alta calidad en lo que respecta a las condiciones generales de educación y los niveles de rendimiento de los estudiantes. Este creciente interés ha sido acompañado y estimulado por el lanzamiento de varios estudios internacionales comparados sobre la calidad de la educación que han sido utilizados por los ministerios de educación para monitorear y evaluar el desempeño de los sistemas educativos en relación con los estándares nacionales de educación y el rendimiento de la educación de otros sistemas educativos.

Este libro se preparó a partir de las contribuciones al Foro de Política organizado conjuntamente por el Instituto Internacional de Planeamiento de la Educación y la InWEnt que se realizó en la sede del IIPE en junio de 2004. El foro focalizó su atención en las acciones que deben emprender los ministerios de educación, si desean lograr los máximos benefi cios en materia de política de su participación en estudios internacionales comparados sobre la calidad de la educación. Más de 50 participantes provenientes de 20 países asistieron al foro, incluyendo a ministros de educación, profesores, investigadores, planifi cadores, funcionarios de ministerios de educación, así como personal de alto nivel de las Naciones Unidas y de otros organismos internacionales y de proveedores de fondos.

Las ponencias, debates y sesiones abiertas para la formulación de conclusiones del Foro de Política cubrieron una amplia gama de temas relativos a cómo planifi car y gestionar exitosamente estudios internacionales comparados sobre la calidad de la educación. Este capítulo fi nal del libro pasó revista a todos estos insumos del Foro de Política y luego los sintetizó en forma de “Mensajes del Foro de Política” y “Recomendaciones” asociadas para la acción. Por ejemplo, algunas recomendaciones se refi eren


336


a las medidas que deben adoptar los ministerios de educación para facilitar, apoyar y mejorar el trabajo técnico y logístico de sus equipos de investigación. Otras identifi can una gama de necesidades de difusión y formación, mientras que otras sugieren a los ministerios, organismos y proveedores de fondos cómo organizar entornos en los que los países puedan trabajar juntos y aprender unos de otros.

Los Mensajes del Foro de Política y sus Recomendaciones representan una rica fuente para futuros debates, tanto en el seno de los ministerios de educación como entre ministerios y con diversos asociados externos. Por consiguiente, el IIPE y la InWEnt presentan este libro como una contribución a la creación y expansión de oportunidades para promover intercambios nacionales e internacionales que sirvan para fortalecer las capacidades de los países a fi n de planifi car y gestionar la calidad de la educación que ofrecen sus sistemas educativos.


Anderson, L.W.; D.W. Ryan; B.J. Shapiro (Eds.). 1989. The IEA classroom environment study, Oxford, UK: Pergamon Press.

Andrich, D.; G. Luo; K.N. Ross; M. Saito; S. Dolata. 2007. The scaling and scoring of the SACMEQ Reading and Mathematics Tests for Pupils and their Teachers. Second version of working paper, Paris: IIEP-UNESCO.

Elley, W. 1992. How in the world do students read?, Hamburg: International Association for the Evaluation of educational Achievement.

Hanushek, E.A. 2005. Economic outcomes and school quality, Paris: IIEP-UNESCO (Education Policy Booklet Series n.º 4).

Luo, G.; D. Andrich; K.N. Ross; M. Saito; S. Dolata. 2007. Linking pupil performance on the reading tests used by the Southern and Eastern Africa Consortium for Monitoring Educational Quality (SACMEQ) and the International Association for the Evaluation of Educational Achievement (IEA). Second version of working paper, Paris: IIEP-UNESCO.

Mullis, I.V.; M. Martin; T.A. Smith; R.A. Garden; K.D. Gregory; E.J. Gonzalez; S.J. Chrotowski; K.M. O’Connor. 2001. TIMSS assessment frameworks and specifi cations 2003, Chestnut Hill, MA: Boston College.


337


OECD. 2001. Knowledge and skills for life: First results from PISA 2000, Paris: OECD.

Ross, K.N. 2005. Sample design. Quantitative research methods in educational planning. Module 3, Paris: IIEP-UNESCO.

Ross, K.N.; M. Saito; S. Dolata; M. Ikeda; L. Zuze; S. Murimba; T.N. Postlethwaite; P. Griffi n. 2004. The conduct of the SACMEQ II Project, Paris: IIEP-UNESCO.

Singh, M. 2004. Understanding Life Skills. Paper presented to the Inter-Agency Working Group Meeting on Life Skills in EFA, Paris, 29-31 March 2004. Hamburg: UNESCO Institute for Education.

Sylla, K.; M. Saito; K.N. Ross. 2005. SAMDEM: Sample design manager software. User’s guide, Paris: IIEP-UNESCO.

UNESCO. 2000. Marco de acción de Dakar, París: UNESCO, 2000, p. 8.

UNESCO. 2004. Report of the Inter-Agency Working Group on Life Skills in EFA, Paris: UNESCO.

UNICEF. 2005. Life skills. Búsqueda: 10 de noviembre de 2005 en: www.unicef.org/lifeskills Versión en español: Aptitudes para la vida. Búsqueda: 10 de junio

de 2008: www.unicef.org/spanish/lifeskills/index_whichskills.html

Werquin, P. 2004. “Education and skills: a presentation on the OECD perspective on life skills”, en: UNESCO (Ed.).2004. Report of the Inter-Agency Working Group on Life Skills in EFA, Paris: UNESCO, p. 3.

World Health Organization (WHO). 1999. Partners in life skills education: Conclusions from a United Nations Inter-Agency Meeting, Geneva: World Health Organization (WHO/MNH/MHP/99.2). Cf.: www.who.int/mental_health/media/en/30.pdf


http://www.unicef.org/lifeskills

http://www.unicef.org/spanish/lifeskills/index_whichskills.html

http://www.who.int/mental_health/media/en/30.pdf

APÉNDICE Lista de participantes


341

Participantes en el Foro de Política del IIPE y la InWent sobre “Estudios internacionales sobre la calidad de la educación: la planifi cación de su

diseño y la gestión de su impacto”

París, 17-18 de junio de 2004

Ahmed Al-Arashi Monitoreo y Evaluación Ministerio de EducaciónSanaa, Yemen

Ibrahim Al-Houthy Investigador principal Ministerio de EducaciónSanaa, Yemen

Mohammed Al-KhateebDirector General del Gabinete del Ministro de EducaciónMinisterio de EducaciónSanaa, Yemen

Hamoud M.G. Al-SeyaniDirector Técnico del proyecto de Educación Básica Ministerio de EducaciónSanaa, Yemen

Hamid AlawhadiDelegado permanenteDelegación Permanente de Yemen ante la UNESCO París, Francia

Ibrahima Bah-LalyaEspecialista principal de programa Instituto Internacional de Planeamiento de la Educación (UNESCO) París, Francia


342

Apéndice

Herbert Bergmann Asesor técnico Gesellschaft für Technische Zusammenarbeit (GTZ) [Sociedad de Cooperación Técnica de Alemania] Sanaa, Yemen

Françoise Caillods Subdirectora Instituto Internacional de Planeamiento de la Educación (UNESCO)París, Francia

Zangazanga ChikhosiSecretario principalMinisterio de Educación, Ciencia y TecnologíaLilongwe, Malawi

Stephanie DolataEspecialista adjunta de programa Instituto Internacional de Planeamiento de la Educación (UNESCO)París, Francia

Carola Donner-ReichleDirectora de Desarrollo SocialInternationale Weiterbildung und Entwicklung (InWEnt) Bonn, Alemania

Brahm Fleisch Profesor Asociado Universidad de WitwatersrandWitwatersrand, Sudáfrica

Pierre FoyInvestigador principalIEA Data Processing Centre Hamburgo, Alemania

Patrick Griffi n Profesor de EducaciónUniversidad de MelbourneMelbourne, Australia


343

Apéndice

Aletta Grisay Consultora independiente París, Francia

Miyako IkedaAnalista de políticaOrganización para la Cooperación y el Desarrollo Económicos (OCDE) París, Francia

Ingrid JungJefa de la División de Educación Internationale Weiterbildung und Entwicklung (InWEnt)Bonn, Alemania

Ilona Jürgens GenevoisEspecialista adjunta de programa Instituto Internacional de Planeamiento de la Educación (UNESCO) París, Francia

Thomas KellaghanDirector del Education Research CentreSt. Patrick’s CollegeDublín, Irlanda

Carlos LauchandeTécnico en estadística Instituto Nacional para el Desarrollo de la Educación Maputo, Mozambique

Rainer LehmannProfesor de Medición e Investigación de la Educación Universidad de HumboldtBerlín, Alemania

Carl LindbergSubsecretario de EstadoMinisterio de Educación y Ciencia de Suecia Estocolmo, Suecia


344

Apéndice

Pirjo Linnakylä Profesora de Educación Universidad de Jyväskylä Jyväskylä, Finlandia

Douglas LyndEspecialista principal de programa Instituto de Estadística de la UNESCO (UIS) Montreal, Canadá

Demus Makuwa Planifi cador principal de Educación Ministerio de Educación Windhoek, Namibia

Carlos Malpica Consultor independiente Lima, Perú

Lomthandazo Mavimbela Director EjecutivoEducation Foundation Johannesburgo, Sudáfrica

Katharina MichaelowaDirectora de ProgramaHamburg Institute of International EconomicsHamburgo, Alemania

Saul MurimbaDirectorConsorcio del África Oriental y Meridional para el Monitoreo de la Calidad de la Educación (SACMEQ) Harare, Zimbabwe

John Mutorwa Ministro de Educación Ministerio de Educación Básica Windhoek, Namibia


345

Apéndice

Kilemi Mwiria Viceministro de Educación Ministerio de Educación Nairobi, Kenya

Arnaldo V. Nhavoto Coordinador del Centro de Investigación en Educación Universidad Pedagógica Maputo, Mozambique

Juliana Nzomo Ofi cial regional de programa Aga Khan Foundation Nairobi, Kenya

Daniel N. Odongo Subsecretario Uganda National Examinations Board Kampala, Uganda

Ana Passos Responsable del Departamento de Formación Docente Instituto Nacional de Desarrollo de la Educación Maputo, Mozambique

Laura Paviot Investigadora invitada Instituto Internacional de Planeamiento de la Educación (UNESCO) París, Francia

Katharina Petri Consultora independiente Bernrieg, Alemania

Mary Joy Pigozzi Directora División de Promoción de la Calidad de la Educación (UNESCO) París, Francia


346

Apéndice

T. Neville Postlethwaite Profesor (Emérito) Universidad de Hamburgo Hamburgo, Alemania

Kenneth Ross Coordinador, Gestión Técnica de Proyectos Instituto Internacional de Planeamiento de la Educación (UNESCO) París, Francia

Jeanne Rubner Periodista Süddeutsche Zeitung Múnich, Alemania

Mioko Saito Especialista de programa Instituto Internacional de Planeamiento de la Educación (UNESCO) París, Francia

Andreas Schleicher Jefe de la División de Indicadores y Análisis Organización para la Cooperación y el Desarrollo Económicos (OCDE) París, Francia

Alette Schreiner Subdirectora General Ministerio de Educación e Investigación Oslo, Noruega

Khadim Sylla Especialista adjunto de programa Instituto Internacional de Planeamiento de la Educación (UNESCO) París, Francia

Maria Teresa Siniscalco Directora de proyecto Instituto Nacional de Evaluación de la Educación Roma, Italia


347

Apéndice

N.V. Varghese Responsable de la Unidad de Formación Instituto Internacional de Planeamiento de la Educación (UNESCO) París, Francia

Herald Voorneveld Delegado Adjunto permanente Delegación Permanente de los Países Bajos ante la UNESCO París, Francia

Joachim Wagner Especialista en Educación Gesellschaft für Technische Zusammenarbeit (GTZ) [Sociedad de Cooperación Técnica de Alemania] Zomba, Malawi

Ulrike Wiegelmann Administradora Principal de Proyecto Internationale Weiterbildung und Entwicklung (InWEnt) Bonn, Alemania

Yanhong Zhang Especialista de programa Instituto de Estadística de la UNESCO (UIS) Montreal, Canadá

Linda Zuze Investigadora invitada Instituto Inernacional de Planeamiento de la Educación (UNESCO) París, Francia


348

Índice alfabético África francófona 246Agrupamiento por competencias 292Alemania 274Aprendizaje a lo largo de toda la vida 292Calidad de la educación 41, 43-45, 285

frente a equidad 287marco de referencia 48

Calidad del estudio (“buen” estudio) 111Camerún 256Capacidades

afectivas 155mentales de orden superior 153

Cobertura 169-170Conexiones entre investigación y política 30-31, 280-282CONFEMEN 247-249Costos 199

estudio principal 213-221impresión 217-218personal 200-203recursos materiales 204

Côte d’Ivoire 256Cuestiones (preguntas) de política 62-67, 111-117, 128-139, 276 Descentralización 290Diferencias regionales 276Difusión

estrategias 235-236retroalimentación a partir de 237-239, 328-329

Diseño 141, 317Estudios de la IAEP 79, 96Estudios del IALS 80Estudios de la IEA 76-78, 94, 269Estudios del PASEC 247-249Estudios del PISA 81-82, 263, 286 Estudios del SACMEQ 83, 94-95, 128, 229Evaluaciones

internacionales comparadas 54, 61, 72 nacionales 54, 59, 72


349

Índice alfabético

nuevas tendencias en 156 -158Exámenes

estándares 233 públicos 58

Fases ensayo sobre el terreno 204-205estudio principal 213

Finlandia 259Fortalecimiento de capacidades 134-135, 330-332Guinea 252-254Impacto 259, 274, 321-322 Kenya 229, 237, 240 Madagascar 256 Mecanismos de monitoreo 54 Medición 122-124, 143-161, 302-307 Medios de comunicación (prensa, radio, tv) 248, 251, 260-263, 284, 289, 325, 327Muestreo

correlación intraclase (coefi ciente) 184-185 diseño muestral 171-172, 311 errores 192-196 estratifi cación 174-176 etapas 172-173 exclusiones 169-171 marco muestral 173 mediciones del tamaño 177 muestreo mediante la PPT 178-180 no respuesta 188-190 poblaciones objetivo 87, 116, 167, 312 ponderaciones 186, 190-191, 315-316 tamaño de la muestra 182-186, 313-315 unidades 172-173

Namibia 229, 238-239, 241 PIRLS 78, 169-170, 173, 185-186, 188Presentación de los resultados 90, 131-132, 159, 326-327Productos educacionales 151 Propiedad (participación) 136, 326-327 Recursos humanos 200Redes 27-28 Rendición de cuentas 131, 290


350

Índice alfabético

República Centroafricana 256 Resultados de la investigación

controvertibles 230 importantes 230 informes 126, 260-261 reformas basadas en 239-243, 246, 266, 280

Senegal 249-252Sindicatos de profesores 254, 260-262, 278, 306Tablas de clasifi cación 90 Tamaño del conglomerado 185 Taxonomía 144 TIMSS 27, 78-79, 91, 93, 303-304Togo 252-254Traducción 124, 206-207 Unidades de análisis 168-169 Validez 84-85, 159-160Variables explicativas 148-151


Publicaciones y documentos del IIPE

El Instituto Internacional de Planeamiento de la Educación ha publicado más de 1.200 títulos sobre los diferentes aspectos de la planifi cación de la educación. Éstos fi guran en un catálogo completo que presenta los siguientes temas:

Planifi cación de la educación y cuestiones globales Estudios generales – cuestiones globales y de desarrollo

Administración y gestión de la educación Descentralización – participación – educación a distancia – mapa escolar – profesores

Economía de la educación Costos y fi nanciación – empleo – cooperación internacional

Calidad de la educación Evaluación – innovación – supervisión

Distintos niveles de la educación formal Desde la educación primaria hasta la superior

Estrategias alternativas de educación Educación permanente – educación no formal – grupos desfavorecidos – educación de género

Para obtener el catálogo, diríjase a la:Unidad de Comunicación y Publicaciones del IIPE

[email protected] Los títulos y resúmenes de las publicaciones más recientes se pueden consultar

en el sitio del IIPE en la Web: www.iiep.unesco.org


mailto:[email protected]


Instituto Internacional de Planeamiento de la EducaciónEl Instituto Internacional de Planeamiento de la Educación (IIPE), creado por la UNESCO en 1963, es un centro internacional de formación e investigación avanzada en el campo de la planifi cación de la educación. La fi nanciación del IIPE es asegurada por la contribución de la UNESCO y por donaciones de los Estados Miembros. Durante los últimos años, los Estados Miembros que han brindado contribuciones voluntarias al Instituto son los siguientes: Australia, Dinamarca, Finlandia, India, Irlanda, Islandia, Malasia, Noruega, Países Bajos, Suecia y Suiza.

El objetivo del Instituto es contribuir al desarrollo de la educación en el mundo mediante la difusión del conocimiento y la oferta de profesionales competentes en el campo de la planifi cación de la educación. En esta perspectiva, el Instituto coopera con las organizaciones de formación e investigación interesadas de los Estados Miembros. El Consejo de Administración del IIPE, que aprueba su programa y presupuesto, se compone de un máximo de ocho miembros elegidos y cuatro miembros designados por la Organización de las Naciones Unidas, así como por algunos de sus organismos especializados e institutos.

Presidente: Raymond E. Wanner (EE.UU.)

Asesor Principal del Vicepresidente de Programas sobre cuestiones relativas a la UNESCO, Fundación de las Naciones Unidas, Washington, DC, EE.UU.

Miembros designados: Manuel M. Dayrit

Director, Departamento de Recursos Humanos para la Salud, Organización Mundial de la Salud, Ginebra, Suiza

Ruth Kagia Directora de Educación, Banco Mundial, Washington DC, EE.UU.

Diéry Seck Director, Instituto Africano de Desarrollo Económico y Planifi cación, Senegal

Jomo Kwame Sundaram Secretario General Adjunto para el Desarrollo Económico de las Naciones Unidas, Departamento de Asuntos Económicos y Sociales, Nueva York, EE.UU.

Miembros elegidos: Aziza Bennani (Marruecos)

Embajadora y Delegada Permanente de Marruecos ante la UNESCO Birger Fredriksen (Noruega)

Consultor sobre Desarrollo de la Educación del Banco Mundial Ricardo Henriques (Brasil)

Asesor especial del Presidente, Banco Nacional de Desarrollo Económico y Social

Takyiwaa Manuh (Ghana) Directora, Instituto de Estudios Africanos, Universidad de Ghana

Philippe Mehaut (Francia) LEST-CNRS, Aix-en-Provence, Francia

Tuomas Takala (Finlandia) Profesor, Universidad de Tampere, Tampere, Finlandia

Xinsheng Zhang (China)Viceministro de educación, China

Las consultas sobre el Instituto deben dirigirse al: Secretariado del Director, Instituto Internacional de Planeamiento de la Educación,

7-9, rue Eugène Delacroix, 75116 París, Francia


estudios internacionales sobre la calidad de la...

Documents