109873006-esquema psicometria.pdf

39
1 TEMA 1. INTRODUCCIÓN AL CONCEPTO DE PSICOMETRÍA MÉTODOS DE ESCALAMIENTO PSICOFÍSICO Constante de Weber Umbral mínimo dap Función de Fechner Desarrolló los métodos psicofísicos indirectos Su función representa la relación entre los 2 continuos a los que se refiere el escalamiento: físico y psicológico Introduce los concpetos umbral absoluto y umbral diferencial Métodos: Método de los límites o cambios mínimos: el experimentador modifica la intensidad Método de ajuste o error promedio: el sujeto modifica la intensidad Método de los estímulos constantes: el umbral absoluto es la magnitud percibida el 50% de las ocasiones Función potencial de Stevens Desarrolló los métodos directos Trata de encontrar una fucnión que relacione estímulos y respuestas Métodos Emparejamiento de magnitudes Emparejamiento de razones Emparejamiento de intervalos Escalas de categorías o clasificación

Upload: carlosjackx

Post on 02-Jan-2016

271 views

Category:

Documents


2 download

TRANSCRIPT

1

TEMA 1. INTRODUCCIÓN AL CONCEPTO DE PSICOMETRÍA

MÉTODOS DE ESCALAMIENTO

PSICOFÍSICO

Constante de Weber

Umbral mínimo

dap

Función de Fechner

Desarrolló los métodos psicofísicos indirectos

Su función representa la relación entre los 2 continuos a los que se refiere el

escalamiento: físico y psicológico

Introduce los concpetos

umbral absoluto y umbral

diferencial

Métodos:

Método de los límites o cambios mínimos: el experimentador modifica la intensidad

Método de ajuste o error promedio: el sujeto modifica la intensidad

Método de los estímulos constantes: el umbral absoluto es la magnitud percibida el 50% de

las ocasiones

Función potencial de

Stevens

Desarrolló los métodos directos

Trata de encontrar una fucnión que relacione

estímulos y respuestas

Métodos

Emparejamiento de magnitudes

Emparejamiento de razones

Emparejamiento de intervalos

Escalas de categorías o clasificación

2

MÉTODOS DE ESCALAMIENTO

PSICOLÓGICO

Thurstone

Ley del juicio comparativo o método de las comparaciones

binarias

Ley del juicio categórico o método de intervalos sucesivos,

aparentemente iguales y de ordenación de rasgos

Nuevas formas de escalamiento psicológico

Guttman Escalamiento de

respuestas: escala de entrelazamiento

Coombs Tª del despliegue

3

ORÍGENES Y DESARROLLO DE LOS TESTS

Primeros tests

mentales

Cattell

Primeros tests de inteligencia

Binet y Simon

1ª escala de inteligencia

Terman

EM

Stern

CI = EM/EC x 100

Tests colectivos

Yerkes

Tests alpha y beta

Baterías de aptitud

múltiple

Batería de aptitudes mentales primarias

de Thurstone

Tests de personalidad

Kraepelin

Test de asociación

libre

Rorschach

Test proyectivo de las manchas

de tinta

4

TEORÍAS DE LOS TESTS

Tª clásica Modelo lineal de

Spearman X = V + E

Tª de la generalizabilidad de Cronbach

Tiene en cuenta todas las posibles fuentes de error e intenta diferenciarlas

mediante ANOVA

Tª de la respuesta al ítem Sujetos e ítems son

independientes

5

TEMA 2. PRINCIPIOS BÁSICOS PARA LA CONSTRUCCIÓN DE INSTRUMENTOS DE MEDICIÓN PSICOLÓGICA

ESPECIFICACIÓN DE LAS

CARACTERÍSTICAS DEL TEST

Contenido

Dominio de conductas

Dominio de contenido (en los TRC)

Formato de los ítems

Ítems de elección

Dos alternativas

Elección múltiple

EMparejamiento

Formato cloze o

incompleto

Escalas de clasificación

Listados

Ítems de construcción

Desrespuesta corta

De respuesta extensa o

ensayo

Longitud del test

Características

psicométricas de los ítems

Nivel de dificultad

Test de velocidad

Test de ejecución máxima (de potencia)

Test de ejecución típica

Homogeneidad

Capacidad de discriminación

6

TEMA 3. TÉCNICAS PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUDES

MODELO ESCALAR DE THURSTONE

Se basa en

Variabilidad perceptual de los sujetos

Limitaciones para percibir las diferencias de magnitud entre

2 estímulos

Supuestos básicos

Existe un cotinuo psicológico subjetivo, se origina un proceso discriminante, un estímulo presentado varias

veces no origina siempre el mismo proceso discriminante, se puede hacer una distribución de los valores subjetivos ajustada a la distribución normal

Ley del juicio comparativo o método de las

comparaciones binarias

Diferencia discriminante: comparar cada estímulo con

todos los demás t decir cuál es el preferido

Ley del juicio categórico

Asignar cada estímulo a una categoría en función del grado

de atributo

Método de los intervalos aparentemente iguales

Calcular valores escalares de los estímulos (mediana)

7

8

DIFERENCIAL SEMÁNTICO DE

OSGOOD

Mide el significado connotativo (afectivo o

subjetivo) de los estímulos

Formato de la escala

Conceptos: estímulos ha evaluar

Escalas bipolares: para evaluar el significado de los conceptos. Se suelen dividir

en 7 categorías

Si se clasifica el concepto en la categoría media: no hay

asociación i relación semántica entre el concepto y la escala

Espacio semántico: cirerios de selección de

escalas

Criterio de la composición factorial

Que cada factor esté representado, al menos, por 4 o

6 escalas bipolares

Criterio del grado de relevancia para la

evaluación del concepto

No incluir escalas poco relevantes

Criterio de la estabilidad semántica de la escala

9

ESCALOGRAMA DE GUTTMAN

Ordenación de sujetos y

estímulos en un continuo (escala

de entrelazamiento

)

Método centrado en la respuesta

Permite establecer la

unidimensionalidad del conjunto

de datos mediante una

escala acumulativa

perfecta (matriz triangular)

Evaluación del error

Este modelo no lleva implícita ninguna Tª del

error

Uso del Coeficiente de

reproductividad: grado de ajuste entre los datos

obtenidos empíricamente y

el modelo teórico

Si CR igual o mayor que 0'90 los datos se ajustan

al modelo

10

TEMA 4. LA FIABILIDAD DE LAS PUNTUACIONES

11

TESTS PARALELOS:

CONDICIONES DE PARALELISMO

1er supuesto: las puntuaciones

verdaderas son iguales en ambos tests

2º supuesto: la varianza de los errores de medida es la misma

en ambos tests

Deducciones

La media de las puntuaciones de 2 tests

paralelos es la misma

Las varianzas de las puntuaciones son iguales

La correlación entre las puntuaciones empíricas de los 2 tests es igual al

cuadrado de la correlación entre

puntuaciones empíricas y verdaderas

En 2 o más tests paralelos las

intercorrelaciones entre cada 2 de ellos son

iguales

12

TIPOS DE ERRORES DE MEDIDA

Error de medida Diferencia entre las

puntuaciones empíricas y verdaderas

Error de estimación de la puntuación verdadera

Diferencia entre la puntuación verdadera y la

pronosticada por la regresión.

Error de sustitución

Error que se comete al sustituir las puntuaciones

del test X1 por las obtenidas en un test paralelo X2

Error de predicción

Diferencia entre puntuaciones obtenidas en

un test (X1) y las pronosticadas en ese mismo

test (X´1) a partir de una forma paralela X2

13

FACTORES QUE AFECTAN A LA

FIABILIDAD

Longitud del test

Ecuación Spearman-Brown (cuando se quiere aumentar la longitud del

test n veces)

Variabilidad de la muestra

Cuanto más homogéneo el grupo, menor es el

coeficiente de fiabilidad y la desviación típica de las puntuaciones empíricas

Características de los ítems

14

FIABILIDAD COMO EQUIVALENCIA Y COMO

ESTABILIDAD DE LAS MEDIDAS

Métodos basados en la estabilidad para calcular

el coeficiente de fiabilidad

Método de las formas paralelas

Se calcula el coeficiente de correlación de

Pearson entre 2 formas paralelas

El coeficiente de fiabilidad obtenido se llama coeficiente

de equivalencia

Método test-retest

Se aplica el mismo test en 2 momentos

diferentes

El coeficiente de fiabilidad obtenido se llama coeficiente

de estabilidad

15

LA FIABILIDAD COMO CONSISTENCIA INTERNA

Métodos basados en la división del test en 2

mitades

Ecuación de Spearman-Brown de 2

mitades paralelas

Fórmula de Rulon:

cuando, no siendo las 2

mitades estrictamente

paralelas, podemos

considerarlas equivalentes

Fórmula de Guttman-Flanagan:

equivalente a Rulon pero

más sencilla

Métodos basados en la covariación de los

ítems

Coeficiente Alfa de

Cronbach: indicador de

la consistencia interna.

Expresa la fiabilidad en

función del nº de ítems y de la proporción de la varianza total del test debida a la covariación

entre los Ítems. A mayor

covariación mayor

fiabilidad.

KR20 y KR21

Ecuaciones de Kuder-

Richardson: cuando

los ítems son

dicotómicos

Coeficientes basados en el análisis

factorial de los ítems

Coeficientes Theta y

Omega: son indicadores

de la consistencia

interna de los ítems de un test y una

aproximación al coeficiente

Alfa

Coeficiente Beta de

Raju: para tests

compuestos por

subtests, se aplica

cuando no se conocen

las puntuacion

es en los ítems

16

ESTIMACIÓN DE LA

PUNTUACIÓN VERDADERA

DE LOS SUJETOS EN EL ATRIBUTO DE

INTERÉS

No se puede calcular la

puntuación verdadera exacta pero sí establecer

el intervalo confidencial

Desigualdad de Chebychev

Cuando no se hace ningún supuesto sobre la

distribución de las puntuaciones empíricas

o de los errores

Distribución normal de los errores

Asume una distribución normal de los errores de medida (con media 0

y varianza S2e) y de las

puntuaciones empíricas condicionadas a un determinado

valor de V

Modelo de regresión

Mientras que la correlación entre las puntuaciones verdaderas y los errores de

medida es igual a cero (rVE = 0); la correlación entre las puntuaciones empíricas y los errores

de medida se ve afectada por los errores

Valor máximo cuando la fiabilidad del test es nula (rXX´ = 0) Puntuaciones

empíricas = Errores

Valor mínimo cuando la fiabilidad del test es perfecta (rXX´ = 1)

Punt. Empíricas = Punt. Verdaderas

El intervalo de confianza se hace sobre la puntuación verdadera estimada por regresión lineal

17

TEMA 5. LA FIABILIDAD EN LOS TESTS REFERIDOS AL CRITERIO

MÉTODOS PARA CALCULAR LA FIABILIDAD DE LOS TRC

Métodos que requieren 2 aplicaciones

del test

Coeficiente de Hambleton y

Novick

Coeficiente Kappa de Cohen

Índice de Crocker y Algina

Métodos que requieren una sóla aplicación

del test

Método de Huynh

Método de Subkoviak

Coeficiente de Livingston

18

LONGITUD DEL TEST

Modelo de Millman

Modelo binomial. Considera la proporción esperada de ítems que

un sujeto puede contestar

correctamente para ser considerado apto y el

error máximo a tolerar.

Supuestos del modelo:

Muestra aleatoria de ítems dicotómicos

La probabilidad de una respuesta correcta por

parte de un sujeto es constante para todos los

ítems del test

Las respuestas a los ítems son independientes unas

de otras

Los errores se ajustan al modelo binomial.

19

ÍNDICES DE ACUERDO CON 2

APLICACIONES DEL TEST (CÁLCULO DE

FIABILIDAD)

Coeficiente de

Hambleton y Novick

Supone la utilización de la proporción de sujetos que consistentemente son clasificados dentro del grupo de maestría o no maestría como un índice de

fiabilidad de un test.

Coeficiente Kappa de

Cohen

Elimina del valor de la proporción de sujetos clasificados consistentemente el valor de la proporción de clasificación consistente esperada por azar

Proporciona una medida de la consistencia de clasificación de los sujetos independientemente del posible valor esperado por azar

Este valor oscila: Entre 1 (fiabilidad perfecta) y 0 (atribuida al azar)

Puede expresarse en función de las frecuencias absolutas

Índice de Crocker y

Algina

Alternativa al Coeficiente Kappa

Se basa en que la probabilidad mínima de una decisión consistente es 0.50

Tiene lugar si las puntuaciones del test son estadísticamente independientes y el punto de corte está en la mediana

20

ÍNDICES DE ACUERDO CON UNA SÓLA

APLICACIÓN DEL TEST

Método de Huynh

Un solo test y una sola aplicación: procedimiento matemático sofisticado para

estimar la consistencia de clasificación.

Este método presupone que la distribución de puntuaciones es aproximadamente normal y es

adecuado cuando el número de ítems es superior a 8 y la razón entre la media de las puntuaciones de los sujetos en el test y el número de ítems oscila entre

0,15 – 0,85.

Método de Subkoviak

Procedimiento con una sola aplicación cuando no es posible establecer una forma paralela de un test,

por lo que simulan las puntuaciones de una segunda forma paralela al test.

Coeficiente de Livingston

A diferencia de los anteriores, considera los errores cometidos al clasificar a un sujeto en el grupo que no le corresponde. Estima más importantes los errores de clasificación de los sujetos más distanciados del punto de

corte de aquellos que están más cerca del punto de corte

21

MÉTODOS PARA ESTIMAR EL PUNTO DE CORTE EN LOS TRC

Métodos valorativos

Método Nedelsky

Se utiliza para fijar el punto

de corte en los test de

competencia mínima. Se utiliza en el

ámbito académico con

test compuestos por ítems de

elección múltiple

Método Angoff

Variante del método

Nedelsky, se puede aplicar a

toda clase de ítems (no sólo

a los de elección

múltiple)

Método Ebel

Similar al método Angof.

Los jueces evalúan

globalmente desde una

doble perspectiva: la dificultad del

ítem (fácil, medio y difícil) y su relevancia

(esencial, importante, aceptable y

dudoso)

Método Jaeger

Otra variante del método

Angoff

Métodos combinados

Método del grupo límite

(Zieky y Livingstone)

Los jueces, por acuerdo,

definen tres niveles de

competencia (competente,

límite y no competente). Después los

jueces seleccionan a

los sujetos límite y se les aplica el test.

Método de los grupos de

contraste

Los jueces clasifican a los sujetos en dos

grupos (los que son

competentes y los que no lo son) y se les

administra el test

Métodos de compromiso

Método de Beuk

Método de Hofstee

22

TEMA 6. VALIDEZ DE LAS INFERENCIAS I

CONCEPTO DE VALIDEZ

Validez relacionada con criterios externos

Validez predictiva

Un test era válido en la medida en que existiera correlación

entre las puntuaciones obtenidas por los sujetos en el

test y las obtenidas en el criterio externo

Validez concurrente La recogida de la información tanto del test como del criterio

se hace simultáneamente

Validez retrospectiva Cuando se puede obtener la

medida del criterio con anterioridad a la del test

Validez relacionada con criterios internos

Validez de contenido El test en sí mismo constituye

su propio criterio

Validez de constructo

Para garantizar que las conductas elegidas como

indicadores del constructo, lo son realmente

23

VA

LID

AC

IÓN

DE

L

CO

NT

EN

IDO

Objetivo: Analizar hasta qué punto los elementos o ítems que componen un test son una muestra relevante y representativa

En los TRC y tests de rendimiento académico, las puntuaciones se suelen utilizar para hacer inferencias sobre el grado en que los sujetos dominan un

campo de conocimientos (dominio), no para hacer inferencias sobre conductas externas al test o sobre el constructo medido

La forma típica de llevar a cabo un estudio de validación de contenido, es utilizando un grupo de expertos (juicio subjetivo)

Representatividad: grado en que se han cubierto las especificaciones del dominio, en cuanto a contenidos y a objetivos propuestos

24

VA

LID

AC

IÓN

DE

L

CO

NST

RU

CT

O

Proceso que permitirá obtener evidencia acerca de la capacidad del test para medir el constructo

Trata de garantizar científicamente que la variable que el test pretende medir es una variable aceptable y consistente en el

ámbito teórico

Es necesario estudiar las relaciones entre: el constructo y las conductas observables representativas del constructo, el constructo y otros

constructos y las conductas tomadas como indicadores del constructo y las puntuaciones obtenidas por los sujetos en el test

Los estudios de validación de constructo se centran en el análisis de la estructura del test

25

MÉTODOS PARA LA VALIDACIÓN

DEL CONSTRUCTO

Matriz multimétodo-multirrasgo

Permite el análisis de la estructura externa del test). Se intenta medir un mismo constructo

mediante distintos procedimientos y distintos constructos mediante el mismo procedimiento

Análisis Factorial

Técnica más utilizada para poner a prueba las hipótesis planteadas a cerca de la estructura externa del

constructo y las relaciones del mismo con otras variables

Enfoques

Exploratorio (no se establecen hipótesis previas acerca del número de dimensiones, es la propia técnica

la que nos aportará esta información)

Confirmatorio (se establecen a priori hipótesis, y mediante las

técnicas oportunas se comprueba si se pueden aceptar las hipótesis

propuestas)

Validez convergente: cuando en un mismo factor se

agrupan múltiples indicadores del constructo

Validez divergente: cuando en el análisis se han obtenido medidas de otros constructos y estas aparecen

agrupadas en distintos factores

26

VALIDACIÓN REFERIDA AL CRITERIO

Objetivo: evaluar la hipótesis de relación entre test y criterio

Índices utilizados

Medidas correlacionales (coeficiente de validez, de determinación, de alineación, etc.)

Medidas de error en la predicción (errores de estimación)

Perspectivas

Validez predictiva (los tests se van a utilizar para la selección, clasificación o colocación de personas en determinados puestos)

Validez concurrente (utilizar los test para hacer un diagnóstico. La medida del criterio se obtiene a la vez que la del test)

Procedimientos estadísticos

Un único test predictor y un solo indicador del criterio: la correlación y el modelo de la regresión lineal simple. Según la medida (Pearson, biserial, coeficiente phi, etc.)

Varios predictores y un solo indicador de criterio (cuando se utiliza una batería de tests para un único criterio): la correlación y la regresión lineal múltiple

Varios predictores cuantitativos y varios indicadores del criterio cuantitativos: la regresión lineal múltiple y la correlación canónica (dificultad para interpretar resultados)

Procedimientos basados en la teoría de decisión (validez y utilidad en las decisiones): Se basan en diferentes métodos para optimizar las decisiones realizadas con el test: Teoría de la utilidad multiatributo

27

VALIDACIÓN CON UN ÚNICO

PREDICTOR Y UN SOLO INDICADOR

DEL CRITERIO

El coeficiente de validez

Correlación de Pearson

X e Y variables continuas

Correlación Biserial

X continua e Y dicotomizada

Correlación Biserial puntual

X continua e Y dicotómica

Coeficiente Ф X dicotómica e Y dicotómica

Coeficiente Ф Biserial

X dicotomizada e Y dicotómica

Correlación Tetracórica

Tanto X como Y son variables continuas que se han dicotomizado artificialmente. Cálculo muy

laborioso

Modelo de regresión lineal

Conocido el grado de asociación entre el test y el criterio, se puede utilizar el modelo de

regresión para hacer pronósticos

Mediante el modelo de regresión se intenta buscar una ecuación lineal que haga

mínimos los errores de pronóstico

Interpretación de la evidencia

obtenida

Coeficiente de determinación

(CD)

Varianza común o asociada entre el test y el criterio

Coeficiente de alienación

(CA)

Alude a la inseguridad o el azar que afecta a los pronósticos

Coeficiente de valor predictivo (CVP)

Representa la proporción de seguridad en los pronósticos (o el porcentaje si se

multiplica por 100)

28

TEMA 7. VALIDEZ DE LAS INFERENCIAS II

VALIDACION CON VARIOS

PREDICTORES Y UN SOLO

INDICADOR DEL CRITERIO

El coeficiente de validez múltiple

Correlación Múltiple entre las puntuaciones obtenidas por la muestra en la variable criterio y las obtenidas en el conjunto de las variables predictoras

Modelo de regresión lineal

múltiple

Se traduce en ecuaciones de un plano (no de una recta como en la simple) o hiperplano si son más de

dos variables predictoras

Puntuaciones directas y diferenciales: planos paralelos

Puntuaciones diferenciales y típicas: pasan por el origen de las coordenadas

Varianza residual o varianza error y

error típico

Cuanto más alto sea el coeficiente de validez, más exacta es la estimación. Pero el coeficiente de validez no es perfecto y está afectada por el error de estimación

Error de estimación: diferencia entre la

puntuación obtenida en el criterio y la

pronosticada mediante la ecuación de

regresión (Y – Y´)

Intervalos de confianza: la

distribución de los errores de estimación

se ajusta a una distribución normal,

cuya desviación típica viene dada por el error típico de estimación

múltiple

Interpretación del coeficiente de validez múltiple

Coeficiente de determinación múltiple (CD)

Varianza común o asociada entre el

criterio y las variables predictoras

Coeficiente de alienación múltiple

(CA)

Representa las puntuaciones en el criterio que no se puede predecir a

partir de las variables predictoras

Coeficiente de valor predictivo múltiple (CVP)

Proporción o porcentaje de

seguridad con que se hacen los pronósticos

29

VALIDEZ Y UTILIDAD DE LAS

DECISIONES

Índices de validez

Coeficiente Kappa de Cohen

Evalúa la consistencia o acuerdo entre las decisiones adoptadas a partir de las puntuaciones en el

predictor (test) y el criterio (rendimiento)

Proporción clasificaciones

correctas

Sensibilidad Proporción de sujetos seleccionados en el test respecto al total que tuvieron éxito en

el criterio

Especificidad Proporción de sujetos correctamente

rechazados en el test respecto al total de no aptos en el criterio (valor máximo 1)

Razón de eficacia

Proporción de aspirantes seleccionados en el test

con buen rendimiento en el criterio

Índices de selección

Razón de idoneidad Proporción de sujetos que rinden bien en el criterio

Razón de selección Proporción de sujetos

aptos en el test

30

TO

DO

S D

E S

EL

EC

CIÓ

N

Modelo Compensatorio (aditivo): a cada sujeto se le asigna una única puntuación global (los sujetos pueden compensar las bajas

puntuaciones). La forma adecuada de otorgar una puntuación global es mediante el modelo de regresión

Modelo conjuntivo: se fijan de antemano unos mínimos en cada una de las pruebas. Sólo se seleccionan los sujetos que hayan

superado esos mínimos en todas las pruebas

Modelo disyuntivo: sólo se exige superar un determinado nivel de competencia en algún

de los predictores

Modelo conjuntivo – compensatorio: se aplica el modelo conjuntivo y se seleccionan los sujetos que superan los mínimos en cada uno de los predictores. A continuación se les

aplica el modelo compensatorio de forma que queden ordenados según su puntuación global. Para efectuar la selección, se puede elegir a los mejores o establecer un PC

Modelo disyuntivo – compensatorio (después de aplicar el modelo disyuntivo se

aplica el compensatorio)

31

EST

IMA

R L

A E

FIC

AC

IA D

E U

NA

SE

LE

CC

IÓN

Mediante la razón de eficacia (proporción de personas seleccionadas que tienen éxito en el

criterio)

Mediante el modelo de regresión (si se verifican los supuestos, permite determinar la probabilidad

de que los seleccionados tengan éxito en el criterio)

32

TEMA 8. ANÁLISIS DE LOS ÍTEMS

DIF

ICU

LTA

D D

E L

OS

ÍTE

MS

Para cuantificar la dificultad de los ítems dicotómicos o dicotomizados se utiliza la proporción de sujetos que han respondido correctamente al ítem (depende de la muestra utilizada): ID = A / N (Oscila entre 0 y 1) A = número de sujetos que aciertan el ítem. N = número de personas que intentan responder el ítem.

Cero indica que ningún sujeto lo ha acertado (difícil) / Uno que todos lo ha acertado (fácil)

El Índice de dificultad está directamente relacionado con la media y la varianza del test

Corrección de los aciertos por azar En ítems de elección múltiple, se debe hacer una corrección en el cálculo de la dificultad del ítem que controle las respuestas al azar. A mayor número de distractores

(alternativas incorrectas) menos probables son los aciertos por azar

Los ítems no deben tener dificultades por debajo de 0,20 no por encima de 0,80

33

PODER DISCRIMINATIVO

DE LOS ÍTEMS

Índice de discriminación basado en los grupos extremos D = pS – pi

pS = proporción aciertos grupo superior

pi = proporción aciertos grupo inferior

Índices de discriminación basados en la correlación

La discriminación también se puede definir como la correlación entre las

puntuaciones de los sujetos en el ítem y sus puntuaciones en el

test. La puntuación total de los sujetos en el test se calcula

descontando la puntuación del ítem y el índice de correlación

debe ser coherente con el tipo de puntuaciones del ítem y del test

Correlación Φ

Correlación biserial-puntual

Correlación biserial

Ítems de actitudes

Índice de Homogeneidad (IH)

Índice de discriminación (grupos extremos)

34

FACTORES QUE AFECTAN A LA

DISCRIMINACIÓN

Variabilidad de los ítems (si no hay

variabilidad en las respuestas el ítem no

discrimina)

Dificultad del ítem (con dificultad media,

p = 0,5, el ítem alcanza máximo

poder discriminativo)

Dimensionalidad del test (el test debe medir

un único concepto; unidimensional)

Fiabilidad del test (ítems con poco

poder discriminativo se asocian a tests

poco fiables)

35

ÍNDICES DE FIABILIDAD Y VALIDEZ DE LOS ÍTEMS

Índice de Fiabilidad de los ítems (criterio interno) se utiliza para cuantificar el grado

que el ítem en cuestión está midiendo con precisión el atributo de interés

Índice de Validez de los ítems (criterio externo) Implica correlacionar las

puntuaciones obtenidas por una muestra de sujetos en el ítem con las puntuaciones

obtenidas por los mismos sujetos en algún criterio externo de interés

36

ANÁLISIS DE LOS DISTRACTORES

Equiprobabilidad de los distractores Los distractores son equiprobables si son

seleccionados por un número mínimo de sujetos y son igualmente atractivos para los que no conocen la respuesta correcta. Se comprueba mediante la

prueba Chi-Cuadrado de Independencia

Poder discriminativo de los distractores (basado en la correlación biserial puntual) Si, normalmente, esperamos que la correlación entre el test y la opción

correcta sea alta y positiva; en el caso de los distractores, lo esperable es que su correlación sea

negativa (cuando aumenta la aptitud de los sujetos, disminuye la proporción de sujetos que elige la opción

incorrecta). Para cuantificar el poder discriminativo de los distractores recurrimos a la correlación que será

biserial, biserial puntual o de Pearson en función de las variables

37

FUNCIONAMIENTO DIFERENCIAL DE LOS

ÍTEMS

Sesgo (sujetos igualmente hábiles no tienen la misma probabilidad de acertar el ítem por el hecho de pertenecer a subpoblaciones distintas). El sesgo está relacionado con la validez de constructo e indica que está actuando alguna

variable extraña

FDI (detecta que un ítem está funcionando de manera distinta en dos grupos con el mismo nivel de aptitud). Detectada la circunstancia, no apunta posibles causas

Impacto (diferencias reales entre grupos que se deben a diferencias en el nivel de competencia de las

subpoblaciones).Mientras que en el FDI las diferencias se deben a motivos distintos al nivel de competencia, en el

impacto hay un grupo de sujetos más competente

38

TEMA 9. ASIGNACIÓN, TRANSFORMACIÓN Y EQUIPARACIÓN DE LAS PUNTUACIONES

39

EQUIPARACIÓN DE LAS

PUNTUACIONES

Diseños de equiparación

Diseños de un sólo grupo

Se administran las dos formas del test, cuyas puntuaciones queremos equiparar, al mismo grupo de sujetos; ambas

formas deben medir la misma característica y presentar el mismo grado de dificultad

Diseños de grupos

equivalentes

Se extraen dos muestras de la población y a cada una se le administra una forma del test (también

se pueden alternar las formas dentro de cada grupo)

Diseños de grupos no equivalentes con ítems comunes o diseño de anclaje

A cada grupo se le administra una sola forma del test y, como a priori no son equivalentes, además se les aplica un test común

(test de anclaje) que permite establecer las equivalencias entre los test equiparar

Métodos de equiparación

Método de la media

Se asume que las puntuaciones de uno de los test difieren, en una cuantía constante, de las

puntuaciones del otro test (la diferencia entre las puntuaciones obtenidas por los sujetos en

ambos test es constante)

Método lineal

Las diferencias entre las puntuaciones pueden variar. Se contemplan procedimientos para:

Diseños de un sólo grupo

Diseños de grupos equivalentes

Diseño de anclaje

Método equipercentil

Consiste en equiparar aquellas puntuaciones cuyos percentiles son

iguales