la validez, alfa y omega de la...

52
La validez, alfa y omega de la evaluación María José Navas Ara (UNED) [email protected] III GIELE 16 de noviembre de 2019

Upload: others

Post on 25-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • La validez, alfa y omega de la evaluación

    María José Navas Ara (UNED)[email protected]

    III GIELE 16 de noviembre de 2019

  • Real Decreto 1/2019 de 11 de enero

    Se elaborarán, administrarán y evaluarán según unos estándares que garanticen su validez, fiabilidad, viabilidad, equidad, transparencia e impacto positivo.

  • Dispositivo de certificación lingüística (SICELE)

    Elaboración y desarrollo del examen

    Edición e impresión de materiales

    Verificación de los materiales de examen

    Formación de administradores y examinadores

    Logística y distribución de los materiales

    Administración del examen

    Formación de calificadores

    Calificación y notificación de resultados 

    Análisis de resultados y validación

    Información y atención al usuario

  • Dispositivo de certificación lingüística (SICELE)

    Elaboración y desarrollo del examen

    Edición e impresión de materiales

    Verificación de los materiales de examen

    Formación de administradores y examinadores

    Logística y distribución de los materiales

    Administración del examen

    Formación de calificadores

    Calificación y notificación de resultados 

    Análisis de resultados y validación

    Información y atención al usuario

  • Validez

    CONCEPTO VIVO

    • Cambiante• Proceso inconcluso

    GIGANTES

    • Lee J. Cronbach• Samuel Messick• Michael Kane

  • Cronbach y la validez de constructo

    • Validez predictiva• Validez de contenido• Validez de constructo

    Cronbach y Meehl (1955) ‘Toda validación es una y, en cierto modo, todo es validez de constructo’ (Cronbach, 

    1980, p. 99)

  • Messick o la perspectiva unificadora

    INTERPRETACIÓN USO

    EVIDENCIAS Validez de constructo (VC)

    VC + Relevancia/Utilidad 

    (RU)

    CONSECUENCIAS VC + Implicaciones de Valor (IV)

    VC + R/U + IV + Consecuencias 

    sociales

  • NPS: Net Promotor Score

  • Kane y sus argumentos

    • Argumento de Interpretación/Uso (I/U)

    • Argumento de validez

    Las medidas obtenidas con la prueba administrada se pueden interpretar en términos de un nivel del MCERL 

    Kane (1996): La fiabilidad también es contingente al uso e interpretación previstas de las puntuaciones del test

  • Fuentes de evidencia para construir el argumento de validez

    (AERA, APA y NCME, 1999, 2014)

    Contenido Proceso de respuesta Relación con otras variables

    Estructura interna Consecuencias

  • Evidencia de validación de contenido

    • Argumento I/ULas medidas obtenidas con la prueba administrada se pueden interpretar en términos de un nivel del MCERL

    • Adecuación para evaluar el nivel ABC/12

  • Tarea de los juecesPREGUNTA Adecuación 

    al nivelC1 C2 C3 C4 Ninguna de 

    las anteriores

    1

    2

    3

    4

    ….

    ….

    23

    24

    25

  • Respuesta dicotómicaPREGUNTA Adecuación 

    al nivelC1 C2 C3 C4 Ninguna de 

    las anteriores

    1 Sí X

    2 Sí X

    3 Sí X

    4 No X

    …. ….

    …. ….

    23 Sí X

    24 Sí X

    25 Sí X

  • Respuesta politómicaPREGUNTA Adecuación 

    al nivelC1 C2 C3 C4 Ninguna de 

    las anteriores

    1 3 2

    2 3 X

    3 3 1

    4 1 2

    …. ….

    …. ….

    23 3 1

    24 3 3

    25 2 3

    1: POCO     2: REGULAR     3: MUCHO

  • Elección de la escala de respuesta

    • Valorar la complejidad introducida en la tarea

    • Considerar el posterior análisis de los datos

  • Elección de la escala de respuesta

    • Valorar la complejidad introducida en la tarea

    • Considerar el posterior análisis de los datos

    Poco Regular Bastante Mucho

  • Tarea de los juecesTEXTO C. Temática y

    conceptualC. Estructural C. Discursiva C. Sintáctica C. Léxica C. Orto‐

    tipográfica

    1

    2

    3

    4

    5

    VALORACIÓN DE LA COMPLEJIDAD

    • Escala dicotómica• Texto con una complejidad adecuada al nivel• Texto con una complejidad no adecuada al nivel

    • Escala politómica• Texto poco complejo• Texto de complejidad media• Texto muy complejo

  • Evaluación de la cobertura y representatividad del dominio

    Distribución empírica

    Juicios expertos

    Distribución teórica

    Documento de 

    especificación

  • Evaluación de la cobertura y representatividad del dominio

    Distribución empírica 

    Distribución teórica

  • Control de calidad

    • Introducir ítems señuelo

    • Contar con un buen número de jueces

  • Evidencia relativa al proceso de respuesta

    PREGUNTA Adecuación al nivel

    C1 C2 C3 C4 Ninguna de las anteriores

    1

    2

    3

    4

    ….

    ….

    23

    24

    25

    C: Contenido  C: Competencias C: Objetivos curriculares

  • • De los examinados

    • De los calificadores

    Evidencia relativa al proceso de respuesta

  • Evidencia relativa a la relación con otras variables

    Evidencia convergente‐discriminante

    Predicción de otras variables

  • Evidencia relativa a la estructura interna de la prueba

    Teoría clásica de los tests

    Charles Spearman

    Analisisfactorial

    Primera teoría sobre 

    la inteligencia

  • El análisis factorial

    n variables observables

    p factores (p 

  • Tipos de análisis factorial

    EXPLORATORIO

    Determinar empíricamente la 

    estructura dimensional

    CONFIRMATORIOConfirmar la estructura dimensional 

    propuesta en las especificaciones

  • Modelo pentafactorial

  • Modelo unidimensional

  • Modelo bifactor

  • Ajuste del modelo

    • Estadísticos de ajuste datos‐modelo

    • Valoración del ajuste

  • Estándar SICELE

    Los resultados de los análisis del examen realizado se han de utilizar para retroalimentar la elaboración de posteriores versiones del examen. 

  • Recomendación de Antonio Valdecantos

    Mírese con la mayor prevención aquello que la gente avisada toma como los ‘últimos avances’ de la disciplina que uno cultiva. Lo cierto es que, con frecuencia, nuestros antepasados sabían mucho más y mejor del asunto que uno se trae entre manos, porque esta clase de conocimientos raramente progresa y, cuando lo hace, cada aumento de saber deja en la sombra (y hace crecer) cantidades enormes de 

    sospechas y de preguntas, a las que, puerilmente, se deja de prestar atención. 

    (Comienzo de curso, EL PAÍS 24 de septiembre de 2019) 

  • Fases en la construcción de un instrumento de medida

    Objetivo

    Especificación

    Confección de las tareas

    Confección de la prueba

  • Objetivo de la prueba

    QUÉ A QUIÉNPARA QUÉ

    Acreditar un nivel C1

    Ver cuál es el nivel de dominio

  • Prueba para acreditar el nivel C1

    A1 A2 B1 B2 C1 C2

  • Prueba para ver el nivel de dominio

    A1 A2 B1 B2 C1 C2

  • Objetivo: A QUIÉN evaluar

    A1 A2 B1 B2 C1 C2

  • Objetivo: QUÉ evaluar

    • Un nivel del MCERL

    • Argumento I/ULas medidas obtenidas con la prueba administrada se pueden interpretar en términos de un nivel del MCERL

  • Especificación de la prueba

    Contenido de la prueba• MCERL

    Longitud de la prueba• Normativa ministerio (EOIs)

    Formato de los ítems• Normativa ministerio (EOIs)

    Características métricas de los ítems• Máximamente informativos para el nivel de dominio de la prueba

  • Confección de las tareas

    Los ítems en cada tarea se redactarán de modo claro, conciso, correcto, y asequible para el nivel correspondiente; no serán interdependientes; estarán exentos de 

    ambigüedad; y se redactarán sobre la información general o específica relevante, y, en su caso, siempre por referencia al texto soporte de manera que no puedan resolverse correctamente con la simple ayuda del conocimiento del mundo o 

    enciclopédico, o mediante mera inferencia lógica.

    (RD 1/2019, artículo 5, punto h)

  • Fases en la construcción de un instrumento de medida

    Objetivo Qué A  quién  Para qué

    Especificación Contenido Longitud Formato C. métricas

    Confección de las tareas

    Confección de la prueba

    Formato de presentación

    Instrucciones de realización

    Formato de registro de las respuestas

  • Confección de la prueba: Instrucciones de realización

    Todas las tareas irán precedidas de unas instrucciones escritas, y debidamente señaladas, sobre su realización. Dichas instrucciones serán suficientes, concisas, claras y relevantes; se redactarán en un tipo de lenguaje asequible para el nivel 

    correspondiente, y no contendrán expresiones metalingüísticas o técnicas propias de un  conocimiento especializado de la lengua, ni referencias a, o mención de, 

    exponentes lingüísticos, léxicos, sintácticos o discursivos, que pudieran ser necesarios o adecuados para la  realización de la tarea.

    (RD 1/2019, artículo 5, punto j)

  • Bancos de ítems/tareas

    Un único constructo

    Base de datos

    Organización de la 

    información 

  • Bancos de ítems: Características distintivas

    Elevado número de ítems

    Propiedades métricas• Dificultad • Discriminación• Información

    Invarianza de la medida• De la TCT a la TRI/IRT

  • Función de información de un ítem

    0

    1

    2

    3

    4

    5

    6

    A1 A2 B1 B2 C1 C2

    FIT = ∑FII

  • Ventajas de los bancos de ítems/tareas

    Equidad•Construcción de formas paralelas de los exámenes

    •Definición del punto de corte

    Tests Adaptativos Informatizados (TAIs)

  • Tests Adaptativos Informatizados (TAIs)

    VENTAJAS

    • Ahorro en tiempo• Ganancia en precisión

    • Posibilidad de acreditar distintos niveles en las actividades de lengua

    ALGUNAS EXPERIENCIAS

    • e‐CAT (UAM)• simtest (UAB)

  • Esfuerzo colaborativo

    PARA QUÉ• Facilitar la elaboración de exámenes• Construir exámenes más paralelos

    ALGUNAS EXPERIENCIAS• EOIs• CLUC• Pilotaje de pruebas/tareas

    Medidas justas y equitativas del nivel de dominio de la lengua

  • Esfuerzo colaborativo

    • Sistematizar los esfuerzos a la hora de elaborar las tareas y preguntas del banco• Diseñar la estrategia de recogida de datos • Estimar las propiedades métricas de las preguntas • Poner las estimaciones en la misma escala de medida

    Evaluar de manera justa y equitativa el nivel de dominio de la 

    lengua

    LO QUE FALTARÍA

  • La validez, alfa y omega de la evaluación

    María José Navas Ara (UNED)[email protected]

    III GIELE 16 de noviembre de 2019

  • Material proporcionado• Standards for Educational and Psychological Testing (AERA, APA, NCME, 2014)• Documentación muy básica

    • Prieto y Delgado (2010): Fiabilidad y validez• Navas (2001):

    • Validez• Construcción de instrumentos de medida

    • Números monográficos• Journal of Educational Measurement, 2013 Volumen 50(1)

    Validity• Psicología Educativa, 2014 Volumen 20

    Bringing added value to educational assessment: A shift from an audit mode of assessment to an assistence mode

    • TAI UAM (e‐CAT)