¿qué tiene que decir la investigación acerca de la evaluación?

IDEAS DE CEES VAN DER VLEUTEN SOBRE LA EVALUACIÓN DEL APRENDIZAJE

1

¿Qué tiene que decir la investigación acerca de la

evaluación?

Características de los instrumentos de evaluación

Cada instrumento de evaluación tiene una serie de características :

1. Validez2. Fiabilidad3. Impacto educativo4. Aceptabilidad5. Coste en medios humanos, materiales y económicosEl compromiso es … que no podemos tenerlo todo

tenemos que conformarnos con tener unos puntos fuertes comprometiendo otros menos esenciales.

Función de utilidad de un método de evaluación

U= pf F x pv V x pie IE x pa A /pc CU= UtilidadF = fiabilidad ¿es repetible el resultado?V= validez ¿vale para medir lo que quiero?IE = Impacto educativo ¿cómo afecta al

aprendizaje?A = Aceptabilidad ¿es aceptable para alumnos

profesores y pacientes?C = coste ¿podemos permitírnoslo?P= peso relativoEn Evaluación formativa importa el impacto en

Evaluación acreditativa la fiabilidad y validez

Discusión de la importancia de los elementos

Fiabilidad ¿Es más fiable una medida aislada o la

combinación de muchas?

Validez ¿Es valido evaluar casi todo al nivel inferior

de la pirámide de Miller (Sabe) cuando lo importante está en los niveles superiores de la pirámide de autenticidad?

Sistema tradicional (de input de conocimientos)

Tantas horas de …La mayoría de la evaluación no va mas allá de

la evaluación del conocimiento.Evaluación por asignaturas.Sin evaluación interdisciplinar de progreso en

conocimientos.Sin evaluación interdisciplinar de desarrollo

de competencias.En algunos países tras la finalización de los

estudios, los Colegios Profesionales evalúan la competencia profesional.

Sistemas de resultados (outcomes)

CanMeds(Canada)

Experticia médica

Comunicador Colaborador Gestor Defensor y

consejero de salud

Académico Profesional

ACGME(US)

Conocimiento médico

Cuidado de pacientesAprendizaje y mejora

basada en la prácticaHabilidades de

comunicación interpersonal

ProfesionalismoPráctica basada en

sistemas

•GMC• (UK)• Buen cuidado clínico• Relaciones con

pacientes y familias• Trabajo con colegas• Gestión del lugar de

trabajo• Responsabilidad

social • Profesionalismo

Nuevos currículos orientados al desarrollo de competencias

Énfasis en desarrollo de competencias y en la acreditación de competencias

No son fáciles de evaluar, las competencias son constructos muy complejos que requieren de contextos reales o simulados para ser puestos a prueba.

Debemos confiar en el juicio profesional (subjetivo), pero hay que hacer un muestreo suficiente y proporcionar rúbricas que explicitan criterios y aportan escalas de niveles.

Como un estudiante se comporta en la escuela de medicina, es predictivo sobre como se comportará en su futuro profesional

E VA LUA C I Ó N F O R M AT I VAN O T I E N E A LTA R E P E R C U S I Ó N

SO N I M P O RTA N T E S, E L I M PA C T O E S T I M U L A D O R D E L

E S F U E R Z OY E L F E E D B A C K

P O DE M O S C O M P R O M E T E R F I A B I L I D AD Y VA L I D E Z

A C A M B I O D E P R A C T I C A B I L I D A D

8

La noción de Compromiso en Evaluación de

competenciasEVALUA C IÓ N

AC R EDITATIVATO M A DE DEC IS IO N ES DE

ALTA RE PER C U SIÓ N

IMPO RTA N TE F IABIL IDA D Y VA LI DEZ

N O PODE MO S C O M PRO METER LASSE N EC ESITAN LO S RE C U R SO S DE U N A

FA C U LTAD N O DE UN A AS IGN ATU R A

9

Evaluación formativa

Debemos aprender a usar herramientas para una evaluación continua más eficienteLos cuestionarios on line y las herramientas de evaluación por compañeros

(Taller de moodle) y rúbricas.

La evaluación continua no tiene repercusiones irreparables¿por qué esmerarse tanto tantas veces?

10

Evaluación acreditativa

¿a destajo?

¿o mecanizada (lectores ópticos y e-portafolios)?

Ejemplo competencia para la comunicación

80% de las quejas en atención al paciente están relacionadas con la comunicación

El currículo tradicional no fomenta su desarrollo ni garantiza que los alumnos vayan desarrollándola.

Poner un ECOE al final de los estudios es sólo una pequeña parte de la solución

Tenemos que poner a los alumnos en situaciones en las que tengan que ejercitar su competencia para la comunicación en distintas situaciones profesionales tipo.

Es necesario abordar el desarrollo de esta competencia de un modo transversal desde múltiples asignaturas e incluso crear asignaturas centradas en su fomento.

Impacto en el aprendizaje:“El reduccionismo impera”

Venimos de una cultura:1. “de calificaciones sin feedback”. 2. Obsesionada con la objetividad MCQ OSCE3. Acostumbrada a una enorme pérdida de información

(conversión del multivector en un número escalar.)4. No hay remediación, sino repetición basada en un

modelo educativo desfasado. 1. Repites primero examen y si no vale repites curso

5. Trivialización frecuente del abordaje ante la evaluación “preparación para la prueba”

MCQ estudio sólo respondiendo preguntas a de test OSCE me preparo que hacer en estaciones que puedan caer

La evaluación dirige lo que se aprende y lo que no

You get what you assessYou don’t get what you don’t assess

Si no evalúo precisamente eso que quiero que aprendan

¿Qué podemos concluir?Podemos concluir que, no lo aprenderán la

mayoría de los alumnos.

BASADO EN LA CONFERENCIA DE CEES VAN DER VLEUTEN

¿WHAT RESEARCH HAS TO SAY ABOUT ASESSMENT?

PRONUNCIADA EN RESPUESTA ALA CONCESIÓN DEL PREMIO EN EDUCACIÓN

MÉDICA DEL INSTITUTO KAROLINSKA

¿Qué tiene que decir la investigación acerca de la evaluación del

aprendizaje?14

Visión general

1. Introducción. El ejemplo de la evaluación de las competencias en profesionales sanitarios

2. Instrumentos de evaluación, formato del estimulo, tarea y formato de la respuesta.

3. Conclusiones de la investigación sobre evaluación que se transforman en principios de la evaluación del aprendizaje.

4. Implicaciones para la práctica, ejemplos de cómo usar los principios con sentido común

5. Conclusiones

15

1. Introducción La pirámide de Miller

Modelo sencillo de evaluación de competenciasA

uten

tici

dad

prof

esio

nal Hace

(doesperformance)

demuestra como haría

(shows how competency)Conoce

como hacer(knows how)

Conoce(knows)

Comportamiento

Cognición

Miller GE. The assessment of clinical skills/competence/performance.Academic Medicine (Supplement) 1990; 65: S63-87.

Cuidado diario del paciente: evaluado por observación directa del

desempeño en situaciones clínicas reales

Demostración de habilidades clínicas: Puesto a prueba con simulación

pacientes simulados estandarizados (Incognito, ECOE/OSCE)

Exámenes habilidades clínicasAplica conocimiento:

resolución de problemas clínicos

conocimiento es puesto a prueba en exámenes

orales y escritos

16

Instrumentos de evaluaciónFormato de Estimulo vs. respuesta

Formato del estímulo. Algunos equipos de futbol han ganado más copas de Europa que otros. ¿Cuál de los siguientes equipos ha ganado más copas de Europa?

Formato de la Respuesta A. Real Madrid B. Bayern de

Munich C. FC Barcelona

D. Manchester United

E. Milan

17

Formatos de estímulo y respuesta en evaluación del aprendizaje

Hace(contexto real)


(contexto simulado)

Conoce como hacer

(contexto descrito)

Conoce(factual sin contexto)

menú, escrito, abierto,

oral, basado en

ordenador

menú, escrito, abierto, oral, basado en

ordenador

observación directa, lista de comprobación, escalas de calificación,

rúbricas

Formato de respuesta observación, lista de

comprobación, escalas de calificación,

rúbricas, narrativas

18Formato de Estímulo Ejecución, práctica habitual (paciente real)

Escenario práctico de simulación (paciente simulado)

escenario con contexto (paciente)Caso prueba

Orientado a conocer hechos

Estandarización de la evaluación del aprendizaje a distintos niveles

Aut

enti

cida

d pr

ofes

iona

l

Hace en contexto real


Demostración en contexto simulado

Conoce como hacerContexto descrito o

ilustrado donde hay que explicar como se hace

Conoce-Sin contexto,

-No hay nada que hacer

Evaluación de desempeño No estandarizada

Evaluación de aprendizaje Estandarizada(administrada de la misma manera a todos los examinandos)

Juicio experto subjetivo, compensación de sesgos, escalasECOETribunalesrúbricas

MCQTest de progreso

Objetividad del método de evaluación

Nivel de estandarización

Evaluando los 3 niveles inferiores de la pirámide:¿Conoce, conoce cómo hacer y demuestra cómo lo haría?

Los seis principios de evaluación estandarizada del aprendizaje1. La competencia es especifica (de ciertos contextos), no

genérica

2. La objetividad no es lo mismo que la fiabilidad

3. El formato del estímulo determina más lo que se mide que el formato de la respuesta que se recoge.

4. La validez puede ser construida e incorporada a nuestro sistema.

5. La evaluación conduce el aprendizaje.

6. Ningún método único puede hacerlo todo.

21

Evaluando el nivel superior (el desempeño): ¿hace?

Los seis principios de evaluación del aprendizaje de manera no estandarizada.

1. Para lograr inferencias fiables se requiere una muestra lo más amplia que sea factible.

2. El sesgo es una característica inherente del juicio experto subjetivo.

3. La validez se debe más a los que usan los instrumentos que a los propios instrumentos.

4. Las funciones formativa y sumativa se combinan.

5. La información narrativa y cualitativa tiene un enorme peso.

6. Decisiones sumativas pueden ser rigurosas usando procedimientos no psicométricos de investigación cualitativa.

22

Primer principio de evaluación de Cees van der Vleuten

La competencia es específica de un contexto, no genérica,

“What we found time and over again is that performance on a particular question situation, essay, station or whatever you have is not very predictive for performance in another context, another station, another problem, so actually performance is very variable.

It means that if you want to make an inference about someone's ability you cannot do it on a very limited sample observations. If performance is very variable you have to have a large sample observations in order to make an inference which is no longer dependent on the particular sample observations.”

Cees van der Vleuten

23

La ejecución de competencia es dependiente del contexto

¿Cómo hacer una evaluación fiable? Si la competencia depende del contexto de

ejecución, entonces la fiabilidad de sus medidas será dependiente del muestreo en diversos contextos.

Debemos examinar una misma competencia en distintos contextos, por distintos profesores, incluso en distintas asignaturas.

24

¿Cómo podemos tomar decisiones fiables?

La repetitividad de medidas en un individuo (par vs. impar) y la correlación entre medidas repetidas de los mismos individuos dentro en el conjunto de la población nos dan medidas de la fiablilidad.

Necesitamos una correlación de al menos r=0,80 para tomar decisiones fiables.

25

¿Depende la fiabilidad del método que usemos?¿Es una característica del método?

¿Cuáles son las metodologías más fiables? ¿Cuáles más factibles?

multiple Choice

questionnaire

Patient management problem

Objective structured ClinicalExamination

Simulated patients

clinical examination

Se representa el coeficiente de correlación entre medidas repetidas de cada candidato en un grupo

26

¿Depende la fiabilidad del método que usemos?¿Es una característica del método?

0,85

Los métodos subjetivos pueden ser tan fiables como los objetivosLa fiabilidad depende del muestreo, no de la objetividad. ¿es fiable la medida en sólo una hora por algún método?


multiple Choice

questionnaire


Objective structured ClinicalExamination

Simulated patients

clinical examination

Implicaciones prácticas del primer principio

La competencia es específica del contexto de medida, no genérica Una sola medida no es una buena medida (ej. báscula) Aumenta el muestreo (a través del contenido, examinadores,

pacientes) dentro de las medidas. Combina información entre distintas medidas, replicándolas a lo

largo del tiempo. Estate alerta de la posibilidad de decisiones falsamente positivas

y falsamente negativas ¿cuál es el riesgo de que ocurran? Incluye salvaguardas en las regulaciones sobre evaluación. ¿Cómo

podemos asegurarnos de que el sistema de evaluación es más fiable, válido y no mide trivialidades?

29

30

No.¿Por que?¿Qué debemos hacer?1. debemos reservar un aula más grande o separar entre

si a los alumnos2. Durante mas tiempo 2-3 horas3. Debemos construir una prueba altamente

discriminativa4. Debemos evaluar en base a una serie de pruebas en

lugar de en base a sólo una

Ejemplo de aplicación del primer principio ¿Son fiables los exámenes

realizados en una hora de clase con los alumnos como piojos en

costura?

Segundo principio de evaluaciónObjetividad no es lo mismo que fiabilidad31

BásculaRankingCorrelaciónSensibilidadespecificidad

Fiabilidad se mide con correlación obtenida con una muestra de medidas replicadas

multiple Choice

questionnaire


Objective structured

ClinicalExaminatio

n

Simulated patientsclinical

examination


¿Cuáles son las metodologías más fiables? ¿Cuáles más factibles?

Maneras de aumentar la fiabilidad de las pruebas subjetivas (que requieren juicio subjetivo)

1. Compensa las influencias subjetivas comparando juicios de varios sujetos

Corrección por parejas de correctores (en otros países es la norma) aquí no.

Multiobservadores (tribunales)

2. Fija explícitamente los criterios y niveles de ejecución y valoración

Las Rúbricas fijan los criterios y las descripciones de los niveles. Pero no tengas miedo a un juicio experto holístico

32

Fiabilidad del examen oral (Swanson, 1987)

Mensaje: múltiples evaluaciones subjetivas pueden producir una medida fiableLa fiabilidad depende del muestreo, escoger una muestra suficiente y representativa

33

Implicaciones prácticas

Objetividad no es lo mismo que fiabilidad1. No trivialices la evaluación (y comprometas su

validez) con objetivación y estandarización innecesarias.(ej. en examen oral preguntar lo mismo a todos).

2. No temas la realización de un juicio holístico profesional y experto si es obtenido con un muestreo representativo y amplio.

3. Muestrea ampliamente a través de las fuentes de influencia subjetiva (calificadores, examinadores, pacientes ).

34

Ejemplos de a aplicación del 2ºprincipioObjetividad no es lo mismo que fiabilidad

35

Aumentar la fiabilidad de exámenes escritos de evaluación continua Reserva más tiempo, en un aula más grande Construye pruebas que combinen MCQ (varios modelos

para dificultar la copia) y respuesta escrita Construye pruebas con preguntas de poder

discriminativo contrastado anteriormenteAumentar fiabilidad de la evaluación de

presentaciones Pareja calificadores o mismo calificador para todos. Rubrica como guía y herramienta para escoger puntos

sobre los que retroinformar, no para calificar.

36

Excelente Competente Necesita hacerlo mejor

Conocimiento /comprensión20 sobre 20

Demuestra una comprensión profunda del artículo

Comprenden la mayoría

No comprenden algunos aspectos importantes

Pensamiento /investigación 35 sobre 35

Han investigado más allá del texto asignado y han aprendido sobre los conceptos básicos necesarios para comprenderlo

Han investigado pero no han aprendido todo lo necesario sobre los conceptos básicos

No se observa investigación aparenteEl conocimiento sobre conceptos básicos es claramente insuficiente

Comunicación15 sobre 20

El guión de explicación es claro y estructurado, análisis completo Responde eficazmente a las preguntas de la audiencia

El guión es estructurado pero quedan aspectos sin analizarRespuestas parcialmente correctas

El guión de explicación es con fusoel análisis es incompleto y desestructuradoNo responden a lo que se les pregunta

Uso de ayudas visuales 10 sobre 15

La presentación audiovisual transmite eficazmente diapositivas clarasLa explicación se apoya en ellasAplican ejemplarmente la normas

Buena parte de las diapositivas son clarasPero algunas no lo sonDe vez en cuando lee Incumple algunas normas

La información no esta resumidaDiapositivas confusasLee demasiadoIgnoran las normas

Habilidad para la presentación6,25 sobre 10

Habla claramente con volumen suficiente para ser oído y velocidad apropiada para ser entendido, tono vivo, mantiene contacto visual, lenguaje corporal estimula la atención

Buen volumen pero demasiado veloz , tono poco variado

Poco contacto visual usa buen lenguaje corporal solo a veces

Volumen inaudible, difícil de seguirmonótonoNo intenta interaccionar con la audiencia a través de contacto visual o lenguaje corporal

¿Cómo usar la rubrica?

36

Calificación Feedback

Tercer principio de evaluación

Lo que esta siendo medido por un instrumento de evaluación depende más del formato del estímulo que del formato de la respuesta.

El estimulo que proporcionemos determina más la tarea que el alumno debe realizar, que el tipo de respuesta que recojamos.

Por ejemplo podemos usar MCQ para recoger el resultado de la resolución de un problema científico matemático.

37

La biblia en elaboración de cuestiones para las ciencias básicas y clínicas

Tutorial interactivo www.nbme.org/IWTutorial

En español: http://www.nbme.org/publications/item-writing-manual-download.html#spanish

40

http://www.nbme.org/IWTutorial


Lo que se mide, depende más del formato del estímulo

que del formato de la respuesta.

1. No te cases sólo con un formato de estímulo-respuesta (por

ejemplo ensayos o MCQ)

2. Preocúpate sobre todo de mejorar el formato del estímulo

3. Haz el estímulo tan (clínicamente) auténtico como

sea posible (ej. En MCQ, OSCEs)

4. Combina distintos formatos de estímulo (caso,

problema) con el formato de respuesta MCQ.

41

Ejemplos de a aplicación del 3er principioEl estimulo es más importante que el modo de recoger la respuesta

42

Preocúpate de los estímulos más que del modo de recoger la respuesta ¿Qué es lo que le voy a pedir al alumno que haga?

Haz que tus MCQ no solo evalúen el nivel “sabe”, sino también el “sabe como” e incluso el “demuestra como”. Haz preguntas con contextos (clínicos, experimentales) y pide operaciones que sirvan para evaluar si el alumno es capaz de interpretar situaciones, resultados de pruebas o experimentos resolver problemas resolver casos clínicos

Haz que tus preguntas escritas evalúen Capacidad de juicio Capacidad de predicción Transferencia a nuevas situaciones Vídeo Mc Tighe what was your critical transformation?

Cuarto principio de la evaluación

La validez puede ser construida, incorporada a nuestro sistema.

1. La validez requiere muestrear realmente todo aquello sobre lo que queremos evaluar

2. La validez depende de un buen aseguramiento de la calidad en

la construcción de los items (Verhoeven et al 1999)

3. Generalmente podríamos hacer preguntas mucho mejores que

las que usamos si invirtiéramos más esfuerzo, y mas gente en ello, (ej. incorporando a asociados y preparando exámenes en

equipo) (Jozewicz et al 2002)

43

44

Alguien supervisa

Algo más modesto. Inmunología AlcaláControl de calidad pretest

Diseño de la prueba

Preguntas Profesor 1



Revisión por compañerosy corrección

45

Inmunología Alcalá Control de calidad postest

Administración de la pruebaArreglos sobre la marcha

Análisis dificultadRevisión y feeedback

Análisis de poder discriminativo (validez

discriminativa)Selección de preguntas más

validas para evaluación acreditativa

Revisión de examen obligatoria

Sacrificio de las preguntas más fifíciles para la

evaluación formativa

Proceso de impugnación de

items(un solo uso)

46


La validez puede ser construida, incorporada a nuestro sistema

1. Crear pruebas de calidad La validez de la evaluación llegará a ser tan buena como sea el esfuerzo que estés dispuesto a invertir en su calidad

2. Debemos realizar ciclos de aseguramiento de la calidad alrededor del desarrollo de pruebas

3. Análisis de validez discriminativa y ajuste de dificultad 4. Compartir buen material de pruebas entre instituciones

(ejemplo Holanda 5 escuelas de medicina con 8.000 alumnos progress tests). http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540387/pdf/40037_2012_Article_7.pdf

5. Se puede empezar compartiendo entre profesores de un mismo área o departamento, entre asignaturas de temática parecida. Ejemplo Medicina-farmacia-biología-biología sanitaria

47

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540387/pdf/40037_2012_Article_7.pdf

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540387/pdf/40037_2012_Article_7.pdf

Ejemplos de aplicación del 4º principioLa validez puede ser construida, incorporada a nuestro sistema48

Trabaja en equipo para preparar exámenes Si das sólo tu asignatura, plantea una reciprocidad con un

compañero que lleve otra para ayudaros mutuamenteEstudia la validez de tus preguntas para diferenciar

entre alumnos que comprenden y los que no Estudio de poder discriminativo de las preguntas Resolver casos clínicos

Decide si optas por un sistema de entrega de preguntas o de recuperación (cada cosa tiene sus ventajas) Si las Entregas todas posibilidad impugnación preguntas se

queman pero sirven para orientar estudio alumnos Si las recuperas puedes estudiar su dificultad y poder de

discriminación. Puedes seleccionar unas cuantas que se usarán para dar feedback (difíciles pero poco discriminativa), otras que se podrán reutilizar con ligeras modificaciones en pruebas futuras.

Quinto principio de evaluación La evaluación (conduce al “premio” que) dirige

las acciones que producen el aprendizajeEl ratón aprende a salir del laberinto por que quiere comerse el premio

La evaluación es la fuerza mas poderosa para dirigir el comportamiento del alumno

49

Evaluación Calificación

El punto de vista de los estudiantes¿Cómo perciben el currículo los estudiantes?

Profesor: aquello que es

importante enseñar

Estudiante:Aquello que es

Importante aprender para aprobar (peso en

calificación)

Currículo

Tests

Practicas clínicas y de laboratorio

ECOE

Observación portafolio historias

registros diario

Tests

Practicas clínicas y de laboratorio

ECOE

Observación

portafolio historias registros diario

Evaluación calificación

50

¿Qué partes del currículo no pesan en la calificación y en consecuencia son menospreciadas?

51

¿No serán las que no se evalúan fácilmente con exámenes de papel y lápiz?

¿No serán aquellas que evalúan aprendizajes más sofisticados que

requieren un mejor entrenamiento para que los alumnos no fracasen

masivamente?

Hallazgos empíricos

La relación entre evaluación y aprendizaje es muy fuerte y compleja.

Los sistemas tradicionales sumativos de evaluación final de conocimientos básicos tienen efectos muy negativos sobre el aprendizaje permanente y el desarrollo de competencias.

Los alumnos se esfuerzan principalmente cuando la prueba de evaluación esta al caer y especialmente en aquello que piensan que podrá caer en la prueba.

Cuando sólo se esfuerzan al final y en aprender conocimientos de memoria, luego olvidan muy rápidamente.

52

Es necesario más feedback formativo

Tiene un impacto dramático en la motivación y el aprendizaje. Los aprendizajes más complejos mejoran mucho con el feedback.

Los estudiantes desean más feedback del que reciben, no sólo calificaciones. La calificación desvía la atención del feedback. Es mejor primero

proporcionar feedback y luego mas tarde cuando se ha asimilado este, proporcionar la calificación.

Rotaciones y prácticas clínicas: ¿Les pedimos que hagan cosas, les observamos y les damos feedback en función de lo que hacen? ¿les ponemos en situaciones en las que tienen que tomar decisiones y pueden equivocarse? o ¿ Sólo les dejamos que miren?

Proporcionar tanto feedback puede ser tedioso, pero tenemos que hacerlo. Mucho del aprendizaje de nuestros dependerá de como lo demos: de que sea frecuente inmediato discriminativo y amablemente administrado.

53

Metaevaluación54

Observar el efecto de la evaluación sobre el aprendizaje

Debemos preguntarnos: ¿Cómo la evaluación podría reforzar

estrategias y comportamientos deseables para el aprendizaje?

Debemos preguntarles a nuestros alumnos : ¿Cómo la evaluación podría ayudarte a

aprender mas y mejor?

55

Elementos del aprendizaje complejoHigh expectations

technology

Low stakes Drilling skills Feedback from trainer

Competent practicioner

¿Quién eres aquí como profesor?¿de qué eres responsable?

El fallo es necesario para aprenderNo se aprenden cosas complejas

Sin exponerse a situaciones en las que puedes fallar y Recibir feedback experto sobre los errores que has cometido

56

¿Cuál es la colchoneta?

Cuando se este en la situación real ya no se puede fallar, sin consecuencias. Entonces el error tendrá consecuencias negativas sobre pacientes ,

compañeros.

múltiples intentos Con Feed back

corrector

57

Ever tried, ever failed, No matterTry again, fail again, fail better

Implicaciones prácticas del 5º principio

La evaluación dirige el aprendizaje1. Tercera ley de Newton de la evaluación: Por cada acción evaluativa hay

una reacción estudiantil de magnitud proporcional a su peso en la calificación

2. Verifica y monitoriza el impacto de la evaluación (evalúa el efecto de la evaluación). Muchos efectos pretendidos no son logrados. Por el contrario, se logran otros no pretendidos.

3. Nunca evaluar sin pensar en qué feedback se puede extraer aunque este sea administrado de manera colectiva.

4. Intercala la evaluación en el programa de aprendizaje, adelanta la evaluación al principio de los temas. (ejemplo: team based learning)

5. Usa la evaluación estratégicamente para reforzar aquellas acciones y comportamientos deseables para el aprendizaje. (gamificación)

58

Ejemplos de aplicación del 5º principioLa evaluación conduce el aprendizaje

59

1. Es necesario alinear la evaluación con la comprobación de aquellos resultados de aprendizaje que más deseamos.

2. Aprovecha el potencial de la evaluación para dirigir los esfuerzos del alumno a todo aquello que quieres que haga para aprender

3. Da un peso proporcional a aquello que más valoras De lo contrario ellos lo infravalorarán

4. Usa el poder de las pequeñas recompensas para fomentar

El estudio previo de los temas antes de que sean tratados en clase Trabajo en proyectos en equipo mediante evaluación en tutorías Ofrece posibilidad de repescas y segundas oportunidades para

mejorar nota Formar equipos y recompensar a los que mejoren su rendimiento

Más ejemplos de aplicación del 5º principio

60Feedback1. Aprovecha cualquier evaluación para producir

el máximo feedback formativo posible Discusión en clase de respuestas de exámenes y corrección de

tareas Discute tareas y preguntas para comprobación del estudio

previo Prevé los atajos que pueden tomar tus alumnos

Si discutes preguntas para dar feedback retíralas del siguiente examen y no las reutilices hasta que pasen tres años

Si pides que te formulen preguntas urgentes y se las respondes diles que alguna caerá (pero sólo alguna)

Puedes pedir a los alumnos que creen preguntas corregirlas y usar algunas en los exámenes.

Equilibrio en el nivel de orientación del esfuerzo de estudio de nuestros alumnos

61Extremos indeseables Si no das ninguna indicación sobre lo que es más importante

aprender. Estarán desorientados. Si das indicaciones demasiado explícitas, sólo se dedicarán a

esforzarse en lo que les has indicado.

Lo ideal es un punto intermedio que les lleve a esforzarse más en aquellas cosas importantes pero sin dejar de trabajar lo demás.

Si das indicaciones variadas se esforzaran en todas aquellas cosas que les indiques

A la larga, mantener esto dependerá de la exhaustividad del muestreo que hagas en tus pruebas de evaluación.

NingunaIndicación = desorientación

Indicaciones Variadas =orientación

indicaciones demasiado

explícitas= Trivialización

Métodos de fomento del estudio previoa cambio de pequeñas recompensas

(low stakes assessment) PEPEOLA/TBL/Peer instruction

Proporcionan feedback formativo inmediatoA posteriori se traducen en una bonificación que estimula

a que los alumnos se lo tomen más en serioEvaluación formativa con valor calificativo, pero reducido La repercusión en la calificación es baja (10-15% del

total) pero no despreciable (low stakes asessment).En nuestras asignaturas mejoran los resultados de los

exámenes de medida de aprendizaje en una SD.

62

Sexto principio de la evaluación

Ningún único método de evaluación puede hacerlo todo.

El mejor método es la combinación de varios métodos que logren objetivos específicos y puntuales con validez y fiabilidad.

Esta información será integrada en nuestra valoración.

63

Hallazgos empíricos

1. Ningún único método puede hacerlo todo.2. Una medida sola no vale.3. Todos los métodos de evaluación tienen limitaciones

(no existe un método superior).4. Distintos métodos pueden servir para funciones

diferentes.5. En combinación, la información de varios métodos

proporciona una imagen más completa y combina funciones formativas y sumativas.

6. Debemos crear esa combinación intencionadamente con lo mejor de aquí y allí. Incluyo esta evaluación para que los alumnos hagan esto.

64


Ningún único método puede hacerlo todoUsa un cocktail de métodos a través de la pirámide

de competenciasDispón los métodos en un programa de evaluación Cualquier método puede tener utilidad (incluso los

viejos métodos de evaluación, si sabemos aprovecharlo bien para maximizar su utilidad en el programa)

Compara el diseño de la evaluación con el diseño del currículo

Comité de gente responsable Crea una estructura global que lo englobe Implica a todas las partes implicadas Implementa, monitoriza y cámbialo para irlo mejorando

65

Ejemplos de aplicación del 6º principio Ningún único método puede hacerlo todo

66

Combina múltiples métodos.Escrito, oral (presentación proyecto), MCQ,

respuestas escritas, tareas, evaluación en tutorías

Asigna peso en función del valor que concedes a cada cosa.

No regales demasiados puntos en unas cosas o tus alumnos aprobarán tu asignatura sin aprender otras.

El más difícil todavía Evaluando como “hacen” (I)

Principios de evaluación para este nivel (difícilmente

estandarizable)

1. Para hacer inferencias fiables se requiere una muestra

lo más fiable que sea factible obtener (amplia, muchas

observaciones, múltiples observadores).

2. El sesgo es una característica inherente del juicio

experto. No se puede eliminar sólo se puede

reducir con rúbricas de consenso y compensar

integrando distintos juicios.

67

El más difícil todavía Evaluando como “hacen” (II)


estandarizable)

3. La validez reside más en los evaluadores (los usuarios de los instrumentos) que en los

instrumentos mismos. Un buen instrumento mal

usado dará resultados poco validos y fiables. Hay que

invertir en el entrenamiento de los evaluadores.

4. Las funciones formativa y la sumativa deben estar

sabiamente combinadas

68

El más difícil todavía Evaluando como “hacen” (III)


estandarizable)

5. La información narrativa cualitativa tiene un

gran peso, no es fácil de obtener, pero es muy

importante.

6. Decisiones sumativas pueden ser rigurosas usando

procedimientos no psicométricos de análisis de información propios de la investigación

cualitativa.

69

Finalmente

1. La evaluación en educación médica tiene una rica historia de investigación y desarrollo con claras implicaciones prácticas.

2. Dominada por psicometría. Mucho menos sobre como usar evaluación para forma o sobre diseñar un programa de evaluación que favorezca el aprendizaje.

3. La evaluación es mucho más que psicometría.

4. La planificación de la evaluación es una parte esencial del diseño de la educación y la instrucción.

70

¿qué tiene que decir la investigación acerca de la evaluación?

Education