felipe martinez rizo- la evaluacion en mexico

LA EVALUACIÓN DE LA EDUCACIÓN

EN MÉXICO: RETOS Y PERSPECTIVAS

Felipe Martínez Rizo 3ª Reunión Nacional Académica del COMIE

Puebla, 7 de diciembre de 2010

Es frecuente identificar evaluación con pruebas. Hay que considerar otras dimensiones de la calidad y otros tipos de evaluación, incluyendo los sistemas de estadísticas e indicadores… Un tipo de evaluación importante que se pierde de vista es la que hace el maestro en el aulas. Por el peso que tienen en las políticas educativas y en la opinión pública, me referiré sobre todo a las pruebas en gran escala, hoy omnipresentes. La tendencia es ambivalente: bien manejadas pueden ser valiosas; por diseño, implementación o forma de usar los resultados, pueden traer daños.

Introducción

Extensión de las pruebas

La evaluación, presente desde hace mucho. La tradicional a cargo de cada maestro bastaba

para asegurar que quien terminaba un grado tuviera nivel mínimo de conocimientos.

Tras generalización de la educación terminar un grado ya no garantiza nivel mínimo.

Interesa poder comparar el nivel de grandes grupos de manera consistente.

Pruebas en USA 1900-1950; otros países más tarde. Desde 1990 en la mayoría de países AL.

En 2010 muchos tienen evaluaciones censales. Además crece participación en internacionales.

Las pruebas censales en AL

Países Inicio Censos o muestras

Simples o Mejoradas

Comentarios

Argentina 1993 Ambas Mejoradas Interrupciones Bolivia 1997 Muestras Simples Suspendidas Brasil 1990 Ambas Mejoradas INEP Chile 1982 Censo Mejoradas SIMCE Colombia 1991 Ambas Mejoradas ICFES Costa Rica 1986 Ambas ¿? Irregular Cuba 1996 Muestra Mejoradas ICCP Dominicana 1991 Censo Simples --- Ecuador 1996 Censo Mejoradas En desarrollo

Países Inicio Censos o muestras

Simples o Mejoradas

Comentarios

El Salvador 1993 Ambas Mejoradas --- Guatemala 1992 Ambas Mejoradas SNEIE Honduras 1990 Muestra Simples UPN México 1993 Ambas Mejoradas SEP-INEE Nicaragua 1996 Muestra ¿? --- Panamá 1999 Muestra ¿? Irregular Paraguay 1995 Muestra ¿? SNEPE Perú 1996 Censo Simples UMC Uruguay 1995 Ambas Mejoradas UMRE-IE Venezuela 1998 --- --- ¿?

Balance de la situación actual

Hay avance significativo y dos riesgos fuertes: Antiguo: no continuidad por cambios políticos. Nuevo: efectos perversos por prácticas que se

derivan de comprensión pobre de alcances y límites de evaluación en gran escala.

Hace una década las evaluaciones eran pocas y sus resultados casi no se difundían. Hoy proliferan y comienzan a cansar a las escuelas; los resultados se discuten acaloradamente, muchas veces con escaso conocimiento de su complejidad. Necesaria visión objetiva de las posibilidades de la evaluación vs visiones superficiales.

1. Ordenamientos de secundarias basados en el EXANI I del CENEVAL 2003-2004 Exani I: pruebas con referencia a norma estadística. 128 preguntas: 32 de habilidades; 96 de

conocimientos (12 para cada una de 8 áreas). No se controla representatividad curricular ni

sensibilidad a la instrucción. Se aplican a todos los aspirantes a entrar a un

plantel; no importa cantidad ni proporción de egresados de la escuela de origen.

Adecuadas para seleccionar, no para juzgar calidad de las secundarias de origen de los sustentantes.

Ejemplos de mal uso de evaluación

Se decía que se cuidaba que las versiones tuvieran dificultad similar, pero no se daban evidencias del uso de procedimientos rigurosos de equiparación. No se informaba sobre error de medición e intervalo de confianza de resultados por plantel, esencial para valorar significatividad de las diferencias. Se daban resultados y se dejaba que cada lector juzgue si las diferencias entre las posiciones son importantes… lo que no es posible sin información. Los lectores tenderán a interpretar las diferencias como significativas, como han hecho los medios que hablan del top ten de las secundarias del país…

1. Ordenamientos de secundarias basados en el EXANI I

Los sustentantes no eran todos los alumnos de las secundarias de origen ni una muestra representativa de ellos. Dado el tamaño de las escuelas sería necesaria una alta proporción de los sujetos (≈ 90%) escogidos aleatoriamente y no autoseleccionados. Los resultados del Exani I no son adecuados para valorar la calidad de las escuelas de origen. Difundir esos ordenamientos reflejaba desconocer los principios básicos del muestreo. Lo confirmaba el que se comparaban los sustentantes del Exani I con la muestra de PISA 2003, cuyo pequeño tamaño y % de la población se aducía como justificación del uso del EXANI I para valorar las escuelas de origen.



Las publicaciones de resultados que hemos editado y seguiremos editando son muestra de que, entre los riesgos de equívocos y malas interpretaciones debidos a sesgos, información incompleta o no equiparable, y la ausencia de información, el CENEVAL ha optado por lo primero.

La disyuntiva entre no dar información y ofrecer una que induzca a error es falsa, ya que hay otra posibilidad, la única aceptable: procesar bien la información, teniendo en cuenta sus características y los principios técnicos aplicables, y difundir los resultados precisando alcances y límites, de modo que se maximice la probabilidad de usos correctos.

2. Ordenamientos de escuelas basados en ENLACE 2007

Educación 2001 publicó listados de 5 primarias y 5 secundarias de cada entidad, que se presentaban como las mejores de México, con base en ENLACE. Se informaba sobre el puntaje promedio de los alumnos de cada escuela; el total de los alumnos de cada una; el número de los que participaron en la aplicación 2007; y el de los estudiantes con respuestas sospechosas de copia. Un análisis sencillo muestra, que en la gran mayoría de los casos, los resultados de ENLACE no sustentan la designación de las escuelas de las listas de referencia como particularmente buenas.


Las interpretaciones de ENLACE deben considerar: Que, en poblaciones pequeñas, la ausencia de

muy pocos alumnos en la aplicación puede dar lugar a un sesgo fuerte de los resultados.

Que lo mismo ocurre si unos cuantos alumnos responden la prueba con ayuda.

Que en escuelas muy chicas unos cuantos alumnos atípicos, de resultados muy altos o bajos, influirán desmesuradamente en el promedio, y no por la escuela ni el maestro.

Que no se deben combinar en una escala los puntajes que miden dimensiones distintas.


Las escuelas se clasificaron según 3 criterios: Privadas, públicas generales, indígenas y CC. Por tamaño: 1-10 alumnos; 11 a 100; >100. Por la confiabilidad de los resultados, según % de

alumnos matriculados que presentaron realmente la prueba y % de sospechosos de copia.

Se consideraron confiables datos de escuelas en que: Al menos el 80% de los alumnos matriculados

presentó efectivamente la prueba y No más de 20% de los alumnos fueron

identificados como sospechosos de haber copiado.

Escuelas según número de alumnos y confiabilidad de resultados

1 - 10 11-100 >100 Total

Con resultados mas confiables

Privadas 13 --- --- 13 Generales 5 --- --- 5 Indígenas --- --- --- --- C. C. 17 1 --- 18 Sub-total 35 1 --- 36

Con resultados menos confiables

Privadas 16 33 5 54 Generales 6 27 7 40 Indígenas --- 1 --- 1 C. C. 18 6 --- 24 Sub-total 40 67 12 119

TOTAL 75 68 12 155


Sólo una de las 155 primarias del listado tiene resultados relativamente confiables y más de 10 alumnos. El análisis recuerda la anécdota jocosa sobre un experimento para probar la eficacia de cierto fármaco en una muestra de ratones. Los resultados se reportaban en estos términos:

El 33% de la muestra se curó; el 33% se murió; el otro ratón se escapó.

3. Los ordenamientos de entidades federativas del informe Contra la Pared

Ordenamientos de entidades, supuestamente con base en la calidad de sus sistemas educativos en primaria y secundaria, según seis indicadores: Resultados: Aprendizaje, Eficacia y Permanencia. Procesos de gestión: Profesionalización docente, Supervisión y Participación de padres de familia. No limitarse a aprendizaje, positivo. Forma de manejar y presentar información, problemas como los de ENLACE, negativo. Tres tipos de problemas: Deficiencias particulares de cada indicador; Integración de 6 indicadores en un solo índice; Uso de ordenamientos de entidades.

Deficiencias de cada indicador

Aprendizaje: N° y % alumnos con resultado mejor a nivel insuficiente en matemáticas en ENLACE. Ya se mostró escasa precisión de ordenamientos de escuelas basados en ENLACE.

Eficacia: Probabilidad de tránsito normativo entre niveles: un grado/año, sin repetir ni desertar. OK. Puede ser más preciso, distinguiendo retraso de un año, o de dos años o más.

Permanencia: 100-deserción. % de alumnos que no abandonan la escuela antes de concluir. Las estadísticas no permiten seguir alumnos en forma individual y el indicador se debe estimar sobre cohortes aparentes, poco preciso.

Deficiencias de cada indicador

Profesionalización docente: N° de docentes en escuelas públicas (%) que acreditaron ENAMS. Muy burdo; no considera contenido de cursos ni calidad de ENAMS.

Supervisión escolar: % de zonas escolares con 20 escuelas o menos. Muy burdo; dice algo sobre tamaño de zonas y nada sobre calidad de trabajo de supervisores.

Participación en la escuela: % de escuelas con un consejo escolar constituido. Muchos consejos se constituyen formalmente y no tienen actividad. El indicador probablemente mide más bien el grado de simulación.

Integración de los seis indicadores en un solo índice

Cuando varios indicadores pretenden medir una misma dimensión es adecuado un índice que mida mejor que cualquiera indicador por separado.

Tratándose de dimensiones distintas un principio metodológico básico es que los indicadores NO se deben integrar.

Este es el caso del informe que nos ocupa, lo que hace inadecuado el uso de un índice, aún si cada indicador fuera bueno; si no es así, como hemos visto, el uso del índice integrado es aún más desafortunado.

En cuanto al uso de ordenamientos

El uso de ordenamientos de entidades es: Engañoso, porque los sistemas educativos de las

entidades están formados por subsistemas de tamaño y condiciones distintas: esc. privadas, públicas urbanas de clase media o marginadas, rurales, indígenas, CC, Tvsec...

Injusto, porque el lugar que ocupan las entidades tiene que ver con condiciones socioeconómicas, culturales e incluso geográficas, tanto y más que con la calidad de sus sistemas educativos.

Con serias consecuencias negativas que se evidencian en el uso mediático y político de los resultados, en detrimento del uso serio.

Conclusiones: el peso excesivo de las pruebas censales

Hace poco pruebas sin consecuencias para alumno, maestro o escuela. Hoy sustentan medidas que se espera producirán mejora sustancial en corto plazo.

Pruebas censales atraen la atención porque no conocen sus alcances y límites varios actores:

Medios de comunicación que buscan formas fáciles de dar resultados sensacionalistas;

Empresarios con visión simplista de educación;

Políticos que no aprovechan la información de pruebas y estudios y tienen visión superficial y simplista de evaluar y mejorar calidad.

Limitaciones de las pruebas censales

No cubren aspectos importantes del currículo que no se pueden evaluar con preguntas de respuesta estructurada: actitudes y valores, la capacidad de expresión escrita y oral, e incluso los niveles cognitivos más complejos de la lectura, las matemáticas y las ciencias.

No se controlan factores del hogar y la escuela que inciden en los resultados, por lo que no se deben usar para evaluar escuelas o maestros.

Tienen márgenes de error no derivados del muestreo, que se vuelven mayores si se quiere comparar resultados a lo largo del tiempo.

Tendencia extendida en Latinoamérica

La excesiva atención a las pruebas censales no es exclusiva de nuestro país:

México: Peso de ENLACE vs trabajos del INEE.

Brasil: PROVA Brasil vs SAEB.

Perú: pruebas censales desplazan muestrales.

Dominicana: censales deficientes desde 1990s.

Colombia: pruebas ICFES evitan alto impacto y ordenamientos de escuelas, presiones en contra.

Consecuencias

La proliferación de pruebas censales y el excesivo peso en las políticas debido a su alto impacto traen consecuencias negativas serias: Banalización del debate público reducido a

discusión de ordenamientos. Mercadotecnia de escuelas basadas en ellos. Empobrecimiento del currículo, por tendencia

de los maestros a enseñar para la pruebas. Cansancio en las escuelas y actitud negativa

de los alumnos frente a educación. Empobrecimiento de las políticas públicas, que

descuidan otros elementos fundamentales.

El impacto de las pruebas

Aún si no se dan estímulos económicos a escuelas y maestros según resultados de pruebas, difundir ordenamientos de escuelas según esos resultados las vuelve de alto impacto y propicia corrupción, con prácticas como la preparación de alumnos para la prueba, la subordinación del currículo a las evaluaciones o la alteración de resultados. Las estrategias de mejora basadas en estímulos económicos y competencia entre escuelas con base en resultados de pruebas parten de transferencia no sustentada de la economía y desconocen las peculiaridades de la oferta y la demanda educativas, que no siguen la lógica del mercado.

Conclusión

Muchos no tienen conciencia de lo difícil que es tener buenos resultados con alumnos pobres.

Los empresarios ven con simpatía estrategias simplistas de mejora, pensando que las fallas de la escuela pública se corregirían fácilmente con escuelas privadas como las de sus hijos, ignorando que sólo una minoría privilegiada, asiste a ellas.

Abundan opiniones de que bastará con aplicar pruebas masivamente y tomar medidas correctivas simples para que la calidad mejore.

Conclusión

Las estrategias simplistas de mejora parten de un supuesto falso: que hacer buena educación en cualquier contexto es fácil:

Los sistemas de rendición de cuentas basados en pruebas se basan en creencia de que la educación pública puede mejorar gracias a una estrategia sencilla: haga que todos los alumnos presenten pruebas estandarizadas de rendimiento, y asocie consecuencias fuertes a las pruebas, en la forma de premios cuando resultados suben y sanciones cuando no ocurra así.

Conclusión

Hay que sustituir la intimidación como principal motivación… el miedo a veces funciona, pero sólo motiva a los que tienen esperanza de éxito… Los empresarios creen que tendremos mejores escuelas si las comparamos según sus resultados en las pruebas y las premiamos o castigamos con base en ello; no consiguen entender el impacto negativo sobre las escuelas que continuamente pierden en esa competencia… Los políticos creen que si poca intimidación no funciona, mucha lo hará, y la evaluación ha sido la forma de aumentar la presión; tampoco entienden las implicaciones de las pruebas sobre las escuelas y sobre los alumnos en dificultades.

Conclusión

Estas tendencias reflejan preocupación con sustento real sobre la calidad de la educación. Contexto amplio: interés por rendición de cuentas y transparencia en asuntos públicos; desconfianza respecto de la educación pública y, en general, respecto a la gestión pública de los servicios. A todo ello se añade escasa cultura de evaluación, no sólo entre el público general, sino también entre maestros y autoridades educativas, e incluso entre investigadores y especialistas. Esto lleva a esperar resultados casi milagrosos en las escuelas, gracias a la aplicación de pruebas, sin tener en cuenta sus alcances y límites.

Dos tipos de críticas a las pruebas

De opositores radicales que piensan que todas son inapropiadas para el trabajo educativo, a partir de postura ideológica, sin base empírica.

De conocedores de las pruebas, partidarios de su uso adecuado y preocupados por usos ilegítimos que traen consecuencias negativas.

Me sitúo en el segundo grupo. Estoy convencido de que nuestras escuelas –en particular públicas— necesitan mejorar sustancialmente. Creo que la evaluación puede ayudar, pero no de cualquier tipo, en particular no pruebas con fallas técnicas, aplicadas masivamente, y utilizadas como única base para asignar estímulos económicos.

Para terminar

Se dice lo que no se evalúa no se puede mejorar, y en educación evaluar se identifica con pruebas. Finlandia no aplicaba pruebas, EEUU muchas. ¿Qué pasa con esas ideas generalmente aceptadas? Frases alternativas más precisas: Lo que no se evalúa no se puede mejorar. Lo que sí se evalúa tampoco, si no se trabaja duro… Si se trabaja duro para hacer las cosas bien, se puede tener buena calidad, aunque no se evalúe, pero esto último puede ayudar. Lo que no se evalúa sistemáticamente se puede mejorar, pero no sistemáticamente.

Lo irremplazable para alcanzar la calidad es un trabajo intenso y bien orientado; para ello hacen falta muchas cosas, incluyendo buena evaluación.

Lo que NO hace falta es un uso de los resultados que desorienta a los tomadores de decisiones y la sociedad, lleva a unos a jactarse de logros dudosos y a otros, entre los que se cuentan personas serias y comprometidas, a perder la poca esperanza que aún tenían.

¡Ojalá no sigamos por ese camino!

Conclusión

MUCHAS GRACIAS POR SU ATENCIÓN

felipe martinez rizo- la evaluacion en mexico

Documents