introduccion a la construccion de instrumentos de medicion

Introducción a la teoría y construcción de instrumentos

de medición

Carlos Andújar Rojas, Ph.D.

i

Introducción a la teoría y construcción de instrumentos de mediciónNo está permitida la reproducción total o parcial de este manual, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito del autor.

Derechos reservados © 2001 Carlos Andújar Rojas

ii

Tabla de contenido

Capítulo 1: Introducción a la teoría y construcción de pruebas y su perspectiva histórica.....7Los instrumentos de medición psicológica y el contexto social.............................................20Perspectiva social.....................................................................................................................21Capítulo 2: Conceptos y definiciones.......................................................................................23Utilización de los instrumentos de medición...........................................................................28Tipos de instrumentos de medición.........................................................................................30Capítulo 3: Diseño de Objetivos Educativos............................................................................37Las Características de un Objetivo bien Enunciado................................................................38Capítulo 4: Taxonomía del Dominio Cognoscitivo de Benjamín Bloom y Colaboradores......45Capítulo 5: Tablas de Especificaciones....................................................................................49Preparación de una Tabla de Especificaciones para una Prueba Normativa.........................50Tabla de Especificaciones para una Prueba de Criterio..........................................................54Ejercicio de Práctica.................................................................................................................57Capítulo 6: Preparando la prueba............................................................................................57Establecimiento de los Límites de Tiempo..............................................................................57Preparación de las Instrucciones.............................................................................................57Capítulo 7: Desarrollo de las Preguntas de la Prueba.............................................................58Reglas Generales para la Construcción de Preguntas ...........................................................59El Ejercicio de Cierto o Falso....................................................................................................59Reglas para la Redacción de Preguntas de Cierto o Falso......................................................60Preguntas de Alternativas Múltiples .......................................................................................62Reglas para la Formulación de la Premisa...............................................................................62Reglas para la Formulación de la Respuesta Correcta............................................................63Reglas para la Formulación de las Alternativas......................................................................63Ejercicio de Pareo.....................................................................................................................64Reglas para la Construcción de un Ejercicio de Pareo............................................................64Ejercicio de Respuesta Breve...................................................................................................66Reglas para la Construcción de Preguntas de Respuesta Breve............................................66La Pregunta de Discusión o Ensayo.........................................................................................67Reglas para la Construcción de Preguntas de Discusión .......................................................67Listas de Cotejo........................................................................................................................68Reglas para la Redacción de Listas de Cotejo.........................................................................68Capítulo 8: Desarrollo de Escalas de Actitudes.......................................................................70Pasos generales para desarrollar escalas de actitud..............................................................71Tipos de escalas de actitudes..................................................................................................74

Escala Thurstone............................................................................................................ 74Escala Guttman........................................................................................................................75Escala Likert..............................................................................................................................76Prueba de equívocos................................................................................................................77Diferencial Semántico..............................................................................................................78Capítulo 9: Análisis de Reactivos.............................................................................................79Análisis de reactivos cuantitativo............................................................................................79Análisis de Reactivos Cualitativo.............................................................................................81Capítulo 10: Confiabilidad........................................................................................................83Confiabilidad de Consistencia Interna.....................................................................................83Confiabilidad Temporal............................................................................................................84Prueba Reprueba......................................................................................................................84Confiabilidad a Través de Formas Equivalentes.....................................................................85Confiabilidad del Examinador..................................................................................................85Capítulo 11: Validez..................................................................................................................87

iii

Validez Aparente......................................................................................................................87Validez de Contenido................................................................................................................87Validez de Constructo...............................................................................................................92Validez de Criterio....................................................................................................................92Referencias...............................................................................................................................94

iv

Índice de Tablas

Tabla 1: Tabla de Especificaciones para una Prueba Normativa sobre el Tema de la Construcción de Preguntas de Examen…………. 38

Tabla 2: Tabla de Especificaciones para una prueba de Criterio sobre la Operación de una Máquina de Encapsular ……………………43

Tabla 3: Tabla de Schipper para Valores Mínimos de Razones de Validez de Contenido…………………………………………..............…. 77

5

PrólogoEste texto tiene el propósito de preparar el estudiante para desarrollar

pruebas, escalas e inventarios usando las más modernas técnicas

psicométricas disponibles. Provee la base conceptual necesaria para

entender cómo funciona el proceso de construcción y validación de pruebas.

También provee con ejercicios que el estudiante puede hacer y discutir con

sus compañeros.

La construcción de instrumentos de medición es un proceso que

combina tanto los elementos artísticos como los científicos. El desarrollo de

dimensiones y preguntas es un arte y una actividad creativa. Mientras que

el proceso de validación y normalización de un instrumento se fundamenta

en el método científico, las estadísticas y la teoría psicométrica.

Este escrito comienza presentando la importancia que tiene el uso de

pruebas en la sociedad y un análisis socio histórico. Luego se muestran una

serie de definiciones importantes que introducen al estudiante en el campo

de la construcción de pruebas y escalas psicológicas y educacionales. Se

comenzará demostrando las formas de diseñar objetivos educacionales,

para proceder a construir tablas de especificaciones para pruebas

normativas y de criterio. Una vez hayan concluido estas actividades se

presentan los pasos para la construcción de preguntas de cierto o falso,

pareo, respuesta breve, discusión o ensayo, listas de cotejo y escalas de

actitudes. Se definen los distintos tipos de preguntas, se presentan las

6

reglas generales para la construcción de las mismas y algunos ejercicios que

los participantes llevarán a cabo.

Se define el concepto de análisis de reactivos o preguntas. Se

presentan las técnicas cualitativas y cuantitativas para el análisis de

preguntas y ejercicios de análisis de preguntas. Por último, presenta las

definiciones de validez y confiabilidad, las técnicas cualitativas y

cuantitativas para la evaluación de la validez y confiabilidad para las

pruebas y escalas.

7

Capítulo 1: Introducción a la teoría y construcción de pruebas y su perspectiva histórica

La construcción de pruebas es una disciplina relativamente joven ya

que como disciplina científica fue desarrollada durante las primeras décadas

del siglo veinte. No significa que antes no existieran intentos de medir el

comportamiento humano con diferentes propósitos. Desde que el ser

humanos existe en la faz de la tierra siempre ha habido intentos de

desarrollar herramientas que permitieran comparar el desempeño de una

persona con otra. Los seres primitivos medían sus fuerzas el uno con el otro

para ver quién era más fuerte. Las tribus de cazadores competían a ver

quién conseguía la mayor cantidad de presas. En fin, siempre ha existido un

deseo por parte del ser humano de compararse con otros buscando

establecer una diferencia. El concepto de medición ha ido refinándose a

través del tiempo ya que el ser humano ha desarrollado sistemas de

medidas para cuantificar elementos físicos.

Perspectiva histórica

En el pasado han existido sistemas para medir el desempeño relativo

de las personas. Cohen y Swerdlik (2001) señalan que en el año 2000 antes

de Cristo los chinos tenían un sistema de selección al servicio público por

medio de pruebas que se administraban cada tres años. No se conoce

8

mucho de este sistema, pero durante la Dinastía Yan 1,115 años antes de

Cristo, el gobierno de China desarrollo un sistema de selección de personal

para funcionarios públicos donde se le administraban pruebas que duró

hasta su abolición en 1905 (Cohen y Swerdlik, 2001). Este sistema se

fundamentaba en el mérito. Las personas comenzaban a competir desde

las aldeas, luego la ciudad y por último al nivel nacional. Se administraban

pruebas en las áreas de música, arquería, equitación, escritura y aritmética.

También se evaluaban otras áreas como habilidad en los ritos y ceremonias

de la vida pública y social, leyes civiles, asuntos militares, agricultura, y

geografía entre otros.

Este sistema fue conocido por los Ingleses y en el se inspiró el sistema

de selección por mérito en Gran Bretaña. Es esta misma forma, Estados

Unidos se inspiró en el concepto de los ingleses para constituir el sistema de

selección por mérito del gobierno norteamericano. También esta

documentado que en los tiempos de Grecia, los soldados eran sometidos a

pruebas físicas y mentales para ser candidatos al ejército. En Roma

también existía un sistema de selección basado en la capacidad física y

mental de una persona para poder entrar a la milicia. Las bases filosóficas

de la cuantificación fueron expuestas por los griegos en la voz de Aristóteles

(Savage y Ehrlich, 1992). Los escritos de metafísica y de las categorías

fueron fundamentales en la conceptuación de los elementos de Euclídes que

son representativos de una teoría de medición.

9

Ciertamente, las herramientas que usaban para medir el

comportamiento de las personas eran un tanto rudimentarias ya que no

existían bases teóricas y conceptuales que pudieran dar apoyo al uso de los

mismos. La motivación para utilizar estas herramientas se fundamentaban

en implicaciones prácticas y no en teorías sofisticadas.

En la edad media, las universidades europeas usaban exámenes

formales para conceder títulos académicos, (Anastasi y Urbina, 1997). La

mayor parte del desarrollo del campo de la medición surgió durante el siglo

19. En esta época surgió un gran interés por el tratamiento de personas

con retardación mental. Ante la creación de instituciones mentales fue

necesario desarrollar medidas para diagnosticar retardo mental y proceder

con un tratamiento. En 1838, un francés de nombre Esquirol desarrolló un

tratado donde definió exhaustivamente el concepto de retardación mental.

Intentó diseñar varios instrumentos para medir retardación mental y

argumentó que la mejor herramienta para evaluar los niveles de retardación

de una persona era mediante el análisis del uso del lenguaje. Esta es una

de las razones de porqué muchas pruebas de inteligencia miden el aspecto

verbal. Esquirol planteaba que existían varios grados de retardación.

Desde la normalidad hasta grandes grados de idiotez.

Otra de las personas que contribuyó fue Seguín. Este fue pionero en el

adiestramiento de personas con retardo mental. Pensaba que se debían de

incluir aspectos sensoriales y musculares en el adiestramiento de las

10

personas con retardo metal. Desarrolló medidas de discriminación sensorial

y control motor. Construyó lo que se conoce como el tablero de Seguín.

Este era un instrumento donde las personas tenían que insertar unas figuras

en un tablero y los contornos del mismo tenían que entrar adecuadamente.

Era básicamente rellenar el patrón vacío con la figura que se proveía. Los

trabajos de Seguín sirvieron como fundamento para el desarrollo de pruebas

de desempeño y no-verbales.

En 1904 Alfred Binet y Theodore Simon fueron contratados por el

Ministerio Francés de Educación para desarrollar un instrumento para

detectar deficiencias intelectuales en niños franceses. Dicho instrumento fue

llamado la prueba de Inteligencia Simon Binet. Esta prueba constaba de 30

problemas arreglados según su nivel de dificultad. La primera muestra que

se utilizó para hacer validación de la prueba fue de 50 niños entre las

edades de 3 a 11 años clasificados como normales y algunos niños y adultos

clasificados como retardados. La primera edición de esta prueba se

desarrolló en 1905 y le siguieron versiones en 1908 y 1911

respectivamente.

Este instrumento llamó la atención de los psicólogos norteamericanos

H.H. Goddard y L.M. Terman. Estos quedaron tan impresionados con los

trabajos de Binet y Simon que le pidieron que se les permitieran traducir y

adaptar al idioma inglés. Este instrumento en los Estados Unidos. Goddard

fue el primero en traducir y adaptar el instrumento. Más tarde, Terman

11

junto a un grupo de colegas de la Universidad de Stanford, desarrolló el

instrumento usando técnicas psicométricas más avanzadas. Esta versión se

conoció como la Stanford-Binet. En la misma se incluyó el concepto de

coeficiente intelectual que se definía como la proporción de acuerdo entre la

edad cronológica y la edad mental.

Otra de las personas que aportó significativamente al campo de la

psicometría fue Sir Francis Galton. Galton quedo muy impresionado por el

libro “El Origen de las Especies” escrito por su primo Carlos Darwin en 1859.

En el mismo, Darwin argumentaba planteaba que la variación azarosa de las

especies sería seleccionada o rechazada para la supervivencia por la

naturaleza de acuerdo a su valor adaptativo y de supervivencia. El aspecto

más importante que le impacto a Galton fue el de las diferencias

individuales. Esto le permitió desarrollar la teoría de que las diferencias

individuales podían ser medidas a través de instrumentos. Galton era

biólogo de profesión y comenzó llevando a cabo estudios antropométricos

midiendo las diferencias individuales al nivel sensoriomotor.

Diseñó medidas de discriminación visual y motora. Señaló que usando

estas medidas podía determinar los niveles de retardación mental de una

persona. Encontró que los individuos con determinados grados de

retardación no podían discriminar adecuadamente entre el calor, el frío o el

dolor. Se le atribuye también el diseño de un instrumento para medir el

tono de la audición. El mismo se conoció con el nombre del silbato de

12

Galton. También se le atribuye el uso de las estadísticas como herramienta

de investigación y el desarrollo del concepto teórico de correlación.

El modelo matemático de la correlación fue desarrollado por un

alumno de Galton, Karl Pearson. Pearson fue una figura bien importante en

el campo de la psicometría ya que diseñó las primeras técnicas que se

utilizaron para estimar la confiabilidad de las pruebas. Dichos modelos se

siguen usando hoy día en el campo de desarrollo de pruebas.

El pionero en el campo de la psicometría moderna lo fue James

McKeen Cattell. Se destacó en el área de la medición de la personalidad.

Cattell se adiestró en los laboratorios de Leipzip, Alemania. Su trabajo de

disertación fue dirigido a medir las diferencias individuales en los tiempos

de reacción. Luego se fue a dictar cátedra a la Universidad de Cambridge

llevando a cabo estudios sobre las diferencias individuales y creando

laboratorios de investigación. Se dedicó gran parte de su vida a promover

el movimiento de la medición psicológica.

En 1890 acuñó el término test “mental”. Se sabe que Cattell

compartía la idea de Galton de que la inteligencia se podía medir a través

de instrumentos de discriminación sensorial. Posteriormente, se han llevado

a cabo varios estudios que contraponen y discrepan de esta posición. No se

encuentran diferencias entre la discriminación sensorial y la inteligencia.

Pruebas de grupo

Hasta la primera década no existían pruebas que se pudieran

13

administrar en grupos. Las pruebas existentes eran de carácter individual y

tomaba mucho tiempo su administración, corrección e interpretación.

En 1917, se declara la Primera Guerra Mundial y Robert Yerkes,

Presidente de la American Psychological Association, consciente de las

aportaciones que podía hacer la psicología al conflicto bélico le hizo una

propuesta al ejército norteamericano para desarrollar una prueba de

inteligencia que pudiera ayudar a clasificar a los reclutas de acuerdo a su

nivel de inteligencia. Dicha propuesta fue aceptada y Yerkes creó un comité

de expertos en el campo para que desarrollaran dicho instrumento. Reclutó

a Arthur Otis que fue el principal arquitecto del proyecto. Desarrolló varias

preguntas de alternativas múltiples que fueron incorporadas en lo que se

llamó la prueba Army Alfa. Cuando comenzaron a administrar la Army Alfa

se dieron cuenta de que había personas que no sabían leer o escribir y

desarrollaron una prueba alterna y la llamaron Army Beta. Esta era una

prueba de inteligencia no verbal.

Una vez finalizó la Guerra, las empresas civiles comenzaron a utilizar

de forma masiva. Se desarrollaron pruebas para niños, adolescentes y

adultos. Para el 1920, los maestros estaban a aplicando pruebas de

inteligencia en las escuelas. La consecuencia que tuvo la masificación del

uso de pruebas fue la desconfianza de varios sectores en términos de su

efectividad. Comenzaron los cuestionamientos de sí las pruebas de

inteligencia medían realmente inteligencia o diversos tipos de habilidades.

14

Las críticas giraban principalmente en torno al fuerte contenido verbal de

las pruebas y la falta de ejercicios numéricos y de lógica. Surge también el

debate de sí la inteligencia es heredada o aprendida socialmente. De esta

discusión es que surgen las pruebas de aptitud. Las mismas buscaban

estimar la capacidad latente de una persona para culminar determinada

actividad de forma exitosa. Siempre y cuando se le haya adiestrado

previamente.

Las pruebas de aptitud se comenzaron a usar en el campo de la

consejería vocacional, selección y clasificación en los sistemas públicos,

privados y militares. El desarrollo de diversos tipos de aptitud (mecánica,

verbal y espacial entre otras) conllevo que se comenzaran a observar

discrepancias en las puntuaciones que obtenían los evaluados. Por ejemplo,

una persona puntuaba bien en aptitud verbal, pero mal en lógica. El

problema en aquel momento no parecía ser uno de carácter práctico sino

teórico. No existían teorías sólidas que ayudaran a entender el concepto de

inteligencia.

El psicólogo británico Carlos Spearman se dedicó a tratar de

desarrollar enfoques teóricos, metodológicos y estadísticos que permitieran

conocer mejor el concepto de inteligencia. Siguiendo los trabajos iniciales

de T.L. Kelley y L.L. Thurstone desarrolló la técnica estadística conocida

como el análisis de factores. La misma permite mediante análisis

estadísticos explorar la agrupación de determinadas variables en grupos o

15

factores. Esto permitía generar mayor evidencia empírica relacionada a la

conceptuación teórica de la prueba. Esta técnicas permitió el desarrolló de

muchos instrumentos de habilidad y aptitud. La técnica de análisis de

factores se sigue usando hoy día, especialmente, en los estudios de valides

de constructo o construcción lógica. También durante la Segunda Guerra

Mundial, muchas ramas del ejército norteamericano utilizaron pruebas de

aptitud tanto para seleccionar, clasificar y ubicar soldados y oficiales.

Mientras que los psicólogos se mantenían ocupados desarrollando

pruebas de aptitud para el ejército, en las escuelas los educadores estaban

diseñando pruebas de aprovechamiento que se pudieran administrar a nivel

estatal. Esta era una manera de evaluar si los estudiantes habían aprendido

el material que se enseñaba en los currículos del estado. Este movimiento

surge gracias a los problemas que confrontaban los maestros al momento

de evaluar a sus estudiantes. En muchas ocasiones los maestros no se

ponían de acuerdo sobre los criterios de evaluación que utilizaban en los

exámenes orales.

Dicho movimiento se intensificó en la década de 1930 y se

comenzaron a desarrollar equipos de mayor sofisticación para corregir

grandes cantidades de pruebas ya que las mismas se administraban por

todo los Estados Unidos de Norteamérica. Se crearon empresas como el

“College Entrance Examination Board” que ofrecían exámenes para

determinar sí el estudiante de escuela superior tenía los conocimientos

16

mínimos para entrar y lograr éxito en la universidad.

En 1947, las funciones del “College Entrance Examination Board”

fueron fusionadas con las de la “Carnegie Corporation” y la “American

Council of Education” para crear el “Educational testing Service” (ETS). Esta

institución se ha encargado a través de los años de administrar, corregir e

interpretar las pruebas para solicitar a escuelas y universidades.

Las pruebas de aprovechamiento no solamente se han usado en

ambientes académicos sino que también se utilizan en el ámbito

empresarial. También se han usado para seleccionar personal para el

servicio público.

En el servicio público de los Estados Unidos de Norteamérica se

utilizan las pruebas como mecanismos para hacer valer el principio del

mérito. Esto significa que las personas tienen que ser seleccionadas

tomando en consideración sus conocimientos, habilidades y destrezas. En

los estados Unidos de Norteamérica la oficina que se encarga de seleccionar

candidatos al servicio público es la U.S. Office of Personnel Management”.

En Puerto Rico se le llamó hasta hace algunos años la Oficina Central de

Administración de Personal (OCAP). Hoy se le llama la Oficina Central de

Asesoramiento Laboral y Administración de Recursos Humanos (OCALARH).

En este momento esta empresa se dedica a desarrollar pruebas para

clientes en el gobierno y además ofrecen diversos tipos de adiestramientos

y asesoramiento organizacional.

17

En el campo de la medición de la inteligencia se realizaron muchos

avances. Uno de los campos que no había sido desarrollado desde la

perspectiva psicométrica fue el de la personalidad. El término personalidad

se refiere a las características que conforman al individuo. Dicho de otro

modo más operacional, es el estudio de las características tales como

estados emocionales, relaciones interpersonales, motivación, interés y

actitudes, (Anastasi y Urbina, 1997).

Los trabajos iniciales en el campo de la personalidad se derivan de la

práctica clínica y psicoterapéutica. Precursores como Emil Kraepelin usaban

la técnica de asociación libre para trabajar con sus pacientes. Dicha técnica

se usa cuando un terapeuta busca información reprimida por el paciente. El

terapeuta le va a decir una palabra o frase y el paciente asocia dicha

palabra con cualquier oración que le venga en a la mente. Esta técnica

podía ser muy buena en la práctica clínica, pero a un nivel cualitativo. En

términos cuantitativos era muy difícil de aplicar y al hacerse intentos no se

lograba conseguir indicadores adecuados de su validez y confiabilidad.

Para tratar de contrarrestar los problemas metodológicos de las

técnicas como la asociación libre, se comenzaron a desarrollar instrumentos

estructurados de medición de la personalidad. El primer instrumento

desarrollado fue el Woodworth Personal data Sheet. El mismo se le daba al

paciente para que lo contestara y mediante su evaluación diagnosticar

algún posible disturbio de la personalidad. Este instrumento se uso también

18

dentro del ambiente militar en la selección de oficiales. Luego vinieron

otros instrumentos que han sido útiles en diferentes contextos. Entre los

más conocidos se puede mencionar el Inventario de los 16 Factores de

Personalidad de Raymond Cattell, el Inventario Multifásico de la

personalidad de Minnesota (MMPI) y un derivado de este, el Inventario

Psicológico de California (CPI). Otro que ha tomado mucho auge es el

Indicador de los Tipos de Myers-Briggs que fue desarrollado usando como

marco conceptual la teoría neopsicoanalítica de Carl Gustav Jung. Otro

instrumento que se ha diseñado tomando en consideración un aspecto

teórico es el NEO Personality Inventory. El mismo está inspirado en la

Teoría de los Cinco Factores de Costa y McCrae (1989). La teoría de los

Cinco factores postula que todos los inventarios de personalidad contienen

al menos cinco factores (1. Apertura a nuevas experiencias, 2. Neurotisismo,

3. Extraversión, 4. Conformidad y 5. Escrupulosidad. Esta teoría se ha

evaluado tomando en consideración estudios de análisis de factores de los

diferentes tipos de inventarios de personalidad. Dicha teoría ha ganado

adeptos y críticos severos por su enfoque de querer reducir la personalidad

a solamente cinco factores. A pesar de ello, es un acercamiento

parsimonioso al estudio de la personalidad que ayuda a entender mejor las

características de la persona.

Otro de los enfoques que se han utilizado para evaluar la personalidad

19

es el de las pruebas situacionales. Este tipo de herramienta le presenta a las

personas o grupos de personas una situación difícil de resolver y se observa

la interacción entre las personas, conductas maladaptativas a la luz de

criterios previamente establecidos.

Las simulaciones se utilizaron mucho durante la Segunda Guerra

Mundial. La “Office of Strategic Services” (OSS) las utilizaba para entrenar

candidatos a espías. Luego de la guerra, muchas instituciones comenzaron

a usar simulaciones para determinar talento gerencial.

Un instrumento que se ha utilizado tradicionalmente para medir

rasgos psicopatológicos de la personalidad es la prueba proyectiva. Dichas

pruebas constan de estímulos no estructurados o ambiguos que se le

presentan a la persona para que ésta diga que es lo que esté viendo. El

principio teórico detrás de este tipo de herramienta es la proyección. La

proyección es la externalización que una persona hace de uno mismo. Al

presentársele el estímulo la persona proyecta sus sentimientos en el mismo

y esto ayuda a determinar si existen o no problemas psicológicos. Este tipo

de instrumento se usa mucho en el ambiente clínico y en Europa muchas

empresas lo usan para seleccionar personal. Las pruebas proyectivas más

conocidas son la Prueba de Apercepción Temática (TAT) de Henry Murray y

la Prueba de Manchas de Tinta de H. Rorschach. La primera usa fotografías

como estímulos y la segunda laminas manchadas de tinta en blanco y negro

y a colores.

20

Las pruebas proyectivas han sido muy criticadas debido a los

problemas de validez y confiabilidad que enfrentan. Existen varios sistemas

de clasificación que pueden traer algo de confusión y se argumenta que los

aspectos culturales afectan la interpretación de los resultados.

La psicometría y Puerto Rico

El campo de la psicometría y la evaluación es muy reciente en países

como Puerto Rico. Los primeros trabajos que se hicieron fueron en las

traducciones y adaptaciones de diferentes instrumentos. No fue hasta la

década de 1950 que Pablo Roca estuvo a cargo de un proyecto donde se

diseñaron las Pruebas Cooperativas Interamericanas, pruebas de habilidad

general, la prueba Colectiva Puertorriqueña, el Cuestionario de Personalidad

y un Inventario de intereses Vocacionales.

Más tarde, Gabriel Cirino Gerena, desarrolló el Inventario de Cirino de

Intereses Vocacionales para la década de 1970. Se resaltan también los

trabajos de Leticia Herrans y Juana myrtia Rodríguez en la traducción y

adaptación de la prueba Wechler para adultos y niños. José Bauermeister se

ha destacado en las traducciones y adaptaciones de pruebas para medir

ansiedad-Rasgo. Guillermo Bernal en traducciones y adaptaciones de

instrumentos para medir depresión. Víctor Álvarez también se ha destacado

en el campo de la investigación y desarrollo de escalas clínicas.

En el campo de la psicología industrial organizacional se han

destacado varios profesionales que han desarrollado diferentes escalas para

21

medir aspectos del comportamiento organizacional. Entre éstos se puede

mencionar a Georgiana Lope de Caro, Miguel Martínez Lugo, Carlos Andújar

Rojas y Ernesto Rosario entre otros. En el área estrés laboral, Lope de Caro,

Carlos Andújar, Quintero, Álvarez y González han diseñado instrumentos

para medir aspectos del estrés. Carmen Olivencia, Carlos Andújar, Roberto

DeJesús, Ernesto Rosario y Blanca Ortiz desarrollaron inventarios de

personalidad normal.

Existen otras aportaciones que no se han logrado reseñar debido a

que muchos de estos proyectos se logran a través de trabajos de tesis y

disertaciones en las diferentes instituciones de educación superior. Lo

cierto es que se han logrado muchos avances en el desarrollo de pruebas.

Todavía es necesario seguir trabajando y orientando al público sobre el uso

adecuado de las pruebas. El futuro es uno alentador y cada día se crea

mayor conciencia de la utilidad práctica que tiene el uso de pruebas dentro

de la sociedad.

Los instrumentos de medición psicológica y el contexto social

Los instrumentos de medición psicológica son herramientas que se

utilizan muchos propósitos e intenciones. El propósito verdadero es hacer

unas estimaciones lo más cercanas a la realidad. Esto significa que no

estamos midiendo la inteligencia de la misma forma que una mesa o

cualquier objeto físico. Las pruebas son representaciones de los constructos

que queremos medir. Esto significa que la inteligencia por si sola no existe

22

si no es representada por elementos físicos y observables tales como la

conducta humana. Cuando usted observa a un estudiante que saca buenas

notas, que hace proyectos y asignaciones fuera de lo común, participa

activamente en las discusiones de la clase podría concluir que es inteligente

o que tiene un alto nivel de inteligencia. No es sino a través de las

conductas manifiestas que se puede determinar si algo es medible en una

cantidad determinada. Guilford (citado en citado en Savage y Ehrlich, 1992)

establece que según establece Thorndike “todo lo que existe en alguna

cantidad puede ser medido”. Esto significa que cualquier elemento que se

defina y le asignen reglas puede ser cuantificado. Se puede cuantificar la

tristeza, la alegría el odio y el amor siempre y cuando exista un sistema de

definiciones y reglas que permitan operacionalizar lo que se quiere medir.

Perspectiva socialEl uso de los instrumentos de medición tiene unas repercusiones

sociales bien grandes. Si una persona no es seleccionada para un empleo,

se afecta su situación económica. Un joven que aspiraba a entrar en una

universidad fue rechazado por las puntuaciones que obtuvo en una prueba.

Un niño es diagnosticado con problemas de aprendizaje que nunca se pensó

que existían. En fin, el uso incorrecto de los instrumentos de medición

puede tronchar el futuro de una persona. Es por esto necesario que las

personas usen adecuadamente estas herramientas. Es fundamental que

quienes usan las pruebas sean profesionales que se han educado en el

23

campo de la psicología o de la educación. Además es necesario que sigan al

pie de la letra los códigos de ética de sus respectivas profesiones.

De la misma forma que los usuarios de los instrumentos de medición

tienen que ser responsables en el uso de los mismos, los desarrolladores de

instrumentos deben llevar a cabo estudios científicos cuando los construyen.

Existe mucho desconocimiento de los procesos científicos para construir,

validar y normalizar un instrumento de medición. Muchas personas piensan

que construir una prueba es mirar un libro y a partir de la información

desarrollar una lista de preguntas y se acabó. El proceso de construcción de

un instrumento es uno que combina el arte y la ciencia. El arte se

manifiesta en la conceptuación teórica del desarrollador. La teoría sirve

como marco de referencia para el desarrollo de las dimensiones y

posteriormente las preguntas que contendrá el instrumento. Hasta aquí

hemos definido la parte artística del proceso. Luego de esto, comienzan las

pruebas de las preguntas y los estudios de validez y confiabilidad para

determinar si las dimensiones y las preguntas son representativas de lo que

se quiere medir y si las respuestas a las preguntas son confiables. Luego,

se establecen puntuaciones de referencia o normas que permiten la

comparación de la puntuación de una persona con un grupo de individuos

con características similares.

24

Capítulo 2: Conceptos y definicionesEl campo de la psicometría está constituido de muchos conceptos que

a primera vista pueden parecer confusos, pero una vez que se estudien

adecuadamente, la persona los puede entender sin problemas. A

continuación se discutirán varios conceptos con son medulares para

entender el lenguaje o jerga que se utiliza en el campo de la psicometría.

El primero de estos conceptos es el más usado, pero incorrectamente.

El concepto de prueba se refiere a cualquier medida de papel y lápiz o de

desempeño que contiene contestaciones correctas e incorrectas y que es

utilizada como base para cualquier decisión. Cuando digo que se usa

incorrectamente me refiero a que para la persona lega, cualquier

instrumento de medición es llamado una prueba. Solamente se le llama

prueba a aquel instrumento que contiene contestaciones correctas o

incorrectas. Como verán en las próximas definiciones se observarán los

términos que denominan a los otros instrumentos de medición que se usan

tanto en la psicología como en la educación.

El término escala se refiere a aquel conjunto de estímulos que

permiten evaluar la actitud que en general tiene una persona sobre un tema

o situación específica. La persona va a expresar su nivel de acuerdo o

desacuerdo con las preguntas y dichas preguntas pretenden medir una

actitud determinada. Una actitud se define como aquellas opiniones que

formulamos sobre aspectos sociales. Por ejemplo, si usted tiene una actitud

25

favorable hacia el aborto, estaría de acuerdo con las aseveraciones de una

escala que mida actitudes hacia el aborto. Es importante recordar que las

actitudes no son correctas ni incorrectas. Solo son opiniones que las

personas expresan acerca de diferentes temas sociales. Este factor es el

que hace que las pruebas y las escalas sean instrumentos diferentes. Las

pruebas contienen contestaciones correctas e incorrectas mientras que las

escalas de actitudes no.

Un segundo concepto que se asocia mucho con el de prueba es el de

inventario. Un inventario ser define como aquel instrumento que mide las

preferencias que la persona tiene con relación a un tema en particular. Se

caracterizan por que no contienen contestaciones correctas o incorrectas,

sino que nos permite evaluar nuestras preferencias y la manera en que nos

percibimos. Existen dos tipos de inventarios: los de personalidad y los de

intereses vocacionales.

Los inventarios de personalidad buscan que los individuos se

describan a sí mismos por medio de un conjunto de dimensiones o rasgos de

personalidad. Dicho de otra forma, lo que busca este tipo de instrumento es

medir cómo preferimos comportarnos. Los inventarios de personalidad son

herramientas muy útiles ya que permiten conocer con bastante profundidad

a una persona, pero típicamente se presta para que la persona al contestar

presente su mejor imagen y la misma no necesariamente describe su

verdadera personalidad. Este factor se conoce como deseabilidad social. Es

26

necesario tratar de controlar es la deseabilidad social ya sea incluyendo una

escala de verificación o incluyendo una escala de deseabilidad social cuando

se valida el instrumento. Las escalas de verificación son instrumentos que

contienen aseveraciones que son bien susceptibles en aquellos que quieren

presentar su mejor imagen. Las mismas se administran con el inventario y

se corrige. Si la puntuación es bien alta, se sugiere que está persona está

tratando de impresionar y exagerar sus verdaderas características de

personalidad.

La otra táctica para evaluar la deseabilidad social es mediante la

aplicación de una escala de deseabilidad social cuando se está sometiendo

al inventario a un estudio de validación. Se administra ambos instrumentos

a una muestra de por lo menos 200 a 300 personas (preferiblemente

seleccionadas al azar) y mediante un análisis de correlación, se asocian las

aseveraciones de deseabilidad social con las del inventario. Los índices de

correlación deben ser los más bajos posibles o cercanos a cero. Del

contrario, las aseveraciones del inventario estarían permeadas por el factor

de deseabilidad social.

El otro tipo de inventario es el de intereses vocacionales. El mismo

pretende medir las preferencias que tienen las personas hacia determinadas

ocupaciones. Este tipo de herramienta se usa cuando los jóvenes están

cercanos a terminar su escuela superior y van a entrar a la universidad o a

una escuela técnica. Los inventarios de intereses ayudan a que el joven se

27

oriente vocacionalmente y elija aquellas profesiones en las que le gustaría

trabajar.

Las herramientas antes mencionadas conforman el proceso de

medición. El término medición se define como las reglas para la asignación

de números a objetos de forma tal que representen cantidades de atributos.

Este es un aspecto bien importante en el desarrollo de instrumentos de

medición psicológica o educativa ya que la persona que construye el

instrumento es la encargada de asignar los números a los objetos o

dimensiones que se vayan a medir. Existen muchos investigadores que

desarrollan cuestionarios para tratar de probar teorías o modelos y cometen

el error de seleccionar sistemas de cuantificación que dificultan la medición

de los atributos que se desean medir. Las personas que diseñan

instrumentos tienen que contar con una base conceptual adecuada cuando

necesitan desarrollar cualquier tipo de herramienta de medición psicológica

o educativa. De lo contrario confrontará problemas en la corrección e

interpretación de la prueba, escala o inventario.

La rama de la psicología cuya finalidad es llevar a cabo la medición de

la conducta se conoce con el nombre de psicometría. Esta disciplina utiliza

técnicas científicas y estadísticas que permite que hagamos estimaciones

precisas del comportamiento humano. La esencia de la disciplina es medir

la conducta. El término de conducta lo definimos como la actividad

realizada por un organismo intacto: es lo que un ser humano o animal hace,

28

no importa que esa actividad sea voluntaria o involuntaria, sino que

constituya una actividad realizada por el organismo y que pueda ser objeto

de observación. Los pensamientos no pueden ser observados directamente,

pero sí sus manifestaciones a través de las conducta que presenta y que

pueden ser sometidas a la observación. Las aseveraciones de un

instrumento de medición son una muestra representativa de los

comportamientos que se quieren medir en una persona.

Una de las preguntas que se hacen las personas es ¿Qué es lo que

miden las pruebas o cualquier otro instrumento de medición? Los

instrumentos de medición miden rasgos o atributos que son atribuciones

que hacen los científicos de la existencia de una variable latente ante la

observación de una serie de conductas. Por ejemplo, el niño siempre saca

buenas notas, por lo tanto, es un niño inteligente. Son construcciones que

se hacen con el propósito de explicar una concatenación de

comportamientos. En el campo de la psicología hay atributos que no se

pueden medir directamente. Por ejemplo, la inteligencia no se puede medir

directamente como si fuera una libra de papas o un galón de leche ya que

no tiene una propiedad física. Los que se hace es inferir mayor o menor

grado de inteligencia a partir de las conductas que se definen en el rasgo o

atributo. Las mismas nos proveen un grado de estimación del nivel de

inteligencia de la persona.

En el campo de la construcción de pruebas se distinguen dos tipos: las

29

objetivas y las de ensayo. Las pruebas objetivas son aquellas cuyas

preguntas requieren que la persona examinada reconozca la respuesta o

respuestas correctas. La calificación consiste en comparar respuestas con

una clave preparada de antemano. El calificativo objetivo se refiere al

proceso de calificar las respuestas, ya que la determinación de cuáles

respuestas son correctas o aceptables sigue siendo subjetiva. De esta

misma forma es subjetiva la manera en que se definen los rasgos o

atributos a medir, las preguntas que se redactan y las estrategias para

validar y normalizar el instrumento. Esto no quiere decir que existan unos

parámetros o criterios para construir, validar y normalizar las pruebas.

Existen criterios de acuerdo en la comunidad científica de cómo se debe de

desarrollar un instrumento. Lo que sucede es que las decisiones de cómo

hacerlo van a depender de la persona que construye el instrumento.

Por otro lado, existen las pruebas de ensayo que requieren que la

persona examinada escriba su respuesta. Por lo general no se le proveen

alternativas sino que el o ella generan la misma. Estas pruebas, por lo

general incluyen, la redacción de un ensayo, respuestas breves o de llenar

blancos. En este tipo de prueba es importante que la persona que la

desarrolla establezca una clave con las contestaciones ideales ya que de lo

contrario, la corrección va a depender del juicio subjetivo del evaluador.

También es importante establecer criterios claro de contestación para que

quien la contesta tenga claro la contestación que se está buscando.

30

Utilización de los instrumentos de mediciónLos instrumentos de medición tienen el propósito de servir para

apoyar diferentes tipos de decisiones en el ámbito social. Las mismas

impactan los contextos de educación, el mundo del trabajo, el

funcionamiento individual y familiar entre otros. En el mundo del

trabajo los instrumentos de medición se utilizan en el proceso de selección

de los mejores candidatos a un empleo. En este proceso se evalúa a

múltiples candidatos con el propósito de seleccionar al que mejor

puntuación obtenga. Las pruebas que son válidas y confiables permiten

predecir el comportamiento de los candidatos. Se presume que una

persona con puntuaciones altas en las pruebas posee una alta probabilidad

de éxito en su trabajo. Las pruebas de selección se utilizan también con

candidatos a entrar en algún colegio, escuela o universidad. En las

facultades establecen unas puntuaciones de aceptación y luego que los

estudiantes toman las pruebas, se corrigen y se conoce si cualifican o no

para entrar a la institución o facultad de su preferencia. En las empresas

también se usan los instrumentos de medición para la clasificación de los

empleados o candidatos a empleo. La clasificación busca hacer que los

individuos pareen con las alternativas existentes. Se intenta parear las

competencias que demostraron las personas a través de las pruebas con un

grupo de puestos clasificados previamente. Un ejemplo de clasificación es

el de la aplicación de las pruebas que usa el Gobierno para determinar a

qué nivel cualifican las personas que están solicitando a la familia de puesto

31

de Asistente Administrativa. Basado en los resultados de las pruebas y en la

experiencia las personas cualificarán para los niveles de Asistente

Administrativa I o Asistente Administrativa II, según sea el caso. Un

concepto parecido al de clasificación es el de ubicación. La ubicación tiene

el propósito de colocar a la persona en un puesto, basado en sus

potencialidades. Las mismas son medidas a través de la o las pruebas. A

diferencia de la clasificación, la ubicación va a ubicar a una persona que ya

está empleada en la organización. La clasificación lo que hace es que le

dice a la persona para qué puesto esta cualificada.

Otro de los usos que tienen los instrumentos de medición es el de

diagnóstico. El diagnóstico permite evaluar las fortalezas y áreas a

desarrollar en los individuos. Permite un análisis de las capacidades de los

individuos y ayuda a crear programas para mantener o fortalecer las áreas

fuertes y a mejorar las áreas débiles de la persona. En el campo de la

psicología clínica se usan los instrumentos de medición con el propósito de

diagnósticas tendencias de comportamiento normal y anormal. En este

caso, se desarrolla un programa psicoterapéutico que le permita a la

persona mejorar su salud mental en el menor tiempo posible.

Los campos de la educación y la psicología utilizan los instrumentos de

medición con el propósito de hace investigación que conduzca a probar

teoría y modelos que permitan una aplicación efectiva. La investigación

tiene el propósito principal de construir y probar hipótesis. Permiten la

32

corroboración de una intuición o teoría mediante el uso riguroso y

sistemático del método científico. La evaluación es otro de los usos que

tienen los instrumentos de medición. La evaluación es el proceso

sistemático para determinar hasta qué punto los adiestrados o estudiantes

han alcanzado los objetivos del periodo de adiestramiento o del curso que

estén tomando. En este caso lo que se busca es evidenciar el aprendizaje

de las personas luego de una actividad de capacitación. Esto es importante

ya que de otra forma resulta difícil evidenciar si se ha logrado el propósito

de la actividad.

Tipos de instrumentos de mediciónExisten variados tipos de instrumentos de medición. Muchos de ellos

sirven a diferentes propósitos y permiten medir tanto aspectos psicológicos

como educativos. El primer tipo de instrumento que deseo discutir es la

prueba individual. Este tipo de instrumento se le administra a una

persona a la vez. Tienden a ser largas y en muchas ocasiones es necesaria

la interacción del evaluador ya que éste es el que le presenta los estímulos

al evaluado. El otro tipo de prueba es la grupal o de grupo. La misma se

administra a varias personas a la misma vez. Las instrucciones para la

contestación de las mismas deben ser iguales para todo el mundo. El

evaluador debe tener destrezas para manejar grupos.

Otro tipo de prueba de uso común es la de papel y lápiz. Este tipo

de instrumento contiene preguntas o estímulos escritos. Tienden a ser más

33

manejables a la hora de administrarse y resultan ser más baratos que

cualquier otro tipo de prueba. Pueden consistir de un folleto donde se

encuentran las preguntas y una hoja de contestación. Este tipo de

configuración se usa cuando la corrección se hace electrónicamente ya que

la hoja es leída a través de un lector óptico. También existe el examen

tradicional que se contesta en las mismas hojas donde están las preguntas.

La contraparte de las pruebas de papel y lápiz es la instrumental. Las

pruebas instrumentales contienen estímulos que son generados por un

aparato o equipo mecánico o computadorizado. Son equipos complejos de

operar por lo general y tienden a ser costosos. Los módulos de vuelo para

el adiestramiento de pilotos son un ejemplo de este tipo de prueba. En el

ejército también existen simuladores de helicópteros y de tanques de guerra

que se usan para practicar, pero a la misma vez recogen información sobre

el desempeño de los evaluados. Estos equipos están comenzando a usarse

más en las empresas debido a que los avances tecnológicos abaratan costos

y a largo plazo se hacen más accesibles.

Los avances en la computación han permitido el desarrollo de las

pruebas adaptativas por computadoras. Las pruebas adaptativas por

computadoras están fundamentadas en la Teoría Moderna de Construcción

de Pruebas. Dentro de esta teoría se encuentra la que se conoce como la

Teoría de Respuesta al Ítem. Esta Teoría es distinta a la Teoría Clásica de

Medición que está contenida en este manual. La Teoría de Respuesta al

34

Ítem supone que el comportamiento de las preguntas de un examen se

pueden observar de forma independiente. Este concepto se conoce como

independencia local. Cada pregunta puede estar midiendo un nivel del

rasgo o atributo psicológico o educativo que se quiere medir. Esto significa

que no hace falta administrar una prueba completa ya que con una cantidad

pequeña de preguntas se puede llegar a medir el atributo que se desea

medir. Por ejemplo, se quiere medir la habilidad verbal de una persona. El

programa de computadora que se usa, primero le somete al evaluado una

pregunta fácil y si la contesta correctamente, le presenta una más difícil

hasta que el evaluado comienza a fallar las respuestas. Si falla determinada

cantidad de preguntas, el programa se detiene y hace una estimación de la

habilidad verbal de la persona ya que la probabilidad de que siga

contestando preguntas correctamente es mínima. Esto no se puede hacer

con las pruebas tradicionales ya que si la prueba tiene 100 preguntas, hay

que administrarlas todas para estimar la habilidad verbal de la persona.

Esta metodología es muy innovadora, pero todavía dista mucho su

aplicación al nivel de los centros educativos y de las empresas.

Otro tipo de prueba es la de aptitud. Este tipo de instrumento sirve

para determinar si existe talento o facultad para que una persona pueda

concluir exitosamente un periodo de aprendizaje ya sea una clase,

adiestramiento o grado académico. Es necesario que la persona halla sido

adiestrada previamente. Un ejemplo de este tipo de prueba son las pruebas

35

de admisión a estudios graduados. Las mismas buscan determinar si la

persona puede culminar exitosamente un programa de maestría o

doctorado, siempre y cuando cuente con un grado de bachillerato. Otro tipo

de instrumento que se tiende a confundir en su pronunciación con las

pruebas de aptitud con las escalas de actitud. Como vimos anteriormente,

las escalas de actitud miden el grado de acuerdo u desacuerdo que una

persona tiene sobre un aspecto social. Lo importante es no llegar a

confundirse ya que una es una prueba (aptitud) y la otra es una escala

(actitud).

Un tipo de prueba que se usa mucho en los ambientes de trabajo es la

de perfección. Las pruebas de perfección miden lo acertadamente que

una persona puede realizar un trabajo o lo que conoce hasta el momento de

un tema o temas. Este tipo de prueba presume que para una persona

dominar un concepto o una destreza, debe ser diestro en la totalidad del

material o de la destreza. Por ejemplo, si una persona toma una prueba de

perfección para demostrar dominio de un equipo. Debe de dominar todas

las destrezas para operar el mismo ya que de lo contrario no lo operaría

eficientemente.

Un tipo de prueba que resulta ser muy conocida para las personas que

tienen un grado de maestría o doctorado es la oral. En una prueba oral se

le pide a la persona que exponga un tema oralmente ante un panel de

expertos. En este tipo de ejercicio se mide conocimiento, manejo de

36

información con ayudas visuales, manejo de ansiedad, expresión en la

comunicación verbal y no verbal y manejo del tiempo entre otras. Puede

ser un ejercicio bien estresante si la persona no está preparada o se siente

muy nerviosa. Se le puede olvidar información, cometer errores de dicción

o que el equipo audiovisual que usa se le dañe durante el proceso del

examen.

Un tipo de prueba de papel y lápiz bien común es la de invención de

respuestas. En este formato se le presenta un conjunto de estímulos a la

persona y ésta tiene que crear la respuesta a partir de los mismos. Las

preguntas de respuestas breves o de llena blancos se incluyen en este tipo

de prueba. También se incluye la prueba de ensayo ya que la persona tiene

que redactar una información para contestar una pregunta. Las pruebas

de reconocimiento de respuestas son también muy conocidas en el

formato de papel y lápiz. En la misma se presenta un conjunto de estímulos

que contienen varias alternativas, para que la persona seleccione la

respuesta correcta. Las preguntas de alternativas múltiples y las de pareo

son las de mayor uso.

Entre los distintos tipos de pruebas se encuentra las de rapidez. Las

pruebas de rapidez tienen un límite de tiempo para la contestación de las

mismas. Por lo general, la cantidad de preguntas es mayor al tiempo que se

tiene disponible para contestarlas. Otros tipos son las de potencia. En las

pruebas de potencia las preguntas están distribuidas por dificultad

37

progresiva. Esto es que las mismas se van a presentar desde las más

fáciles hasta las de mayor dificultad. Muchas pruebas de aptitud combinan

rapidez y potencia. Estas características hacen que este instrumento

contenga una mayor dificultad en comparación con otros como las pruebas

de aprovechamiento. Las pruebas de aprovechamiento determinan la

efectividad de unas actividades de aprendizaje. Ayuda a determinar el nivel

en que cada persona ha aprendido un material didáctico enseñado durante

un curso o periodo de adiestramiento.

Otro de los tipos de pruebas que existen es la normativa. En las

pruebas normativas se ubica a la persona a lo largo de un continuo que

representa la característica que se pretende medir. Se compara a la

persona con un grupo de referencia, esto es, personas con características

similares que han contestado la prueba anteriormente. Las puntuaciones

que se usan para comparar el desempeño relativo de la persona se conocen

con el nombre de estandarizadas. También se conocen como normas ya

que son estándares de comparación entre individuos. Otro concepto con el

que se confunde a las pruebas normativas es el de pruebas estandarizadas.

Las pruebas estandarizadas son aquellas que contienen procedimientos

uniformes tanto para la administración, corrección e interpretación de las

mismas. Las normas son parte del concepto de estandarización, pero

ambos conceptos son diferentes ya que las pruebas normativas comprenden

la creación y uso de normas, pero las pruebas estandarizadas, además de

38

normas se controlan otros elementos como: temperatura, ruido, lugar de

administración, instrucciones y otros.

La contraparte de las pruebas normativas son las pruebas de criterio.

Las pruebas de criterio establecen si la persona domina o no un nivel de

habilidad o conocimiento. No se compara el desempeño de la persona en

relación a un grupo como sucede en las pruebas normativas, sino que se

compara el desempeño de éste contra sí mismo. Este tipo de pruebas se

administran mucho en los ambientes laborales donde se les pide a los

empleados que operen determinados equipos o tecnología existente.

El último tipo de prueba que vamos a presentar en esta sección es la

relacionada al dominio. Las pruebas relacionadas al dominio tienen el

propósito de medir un dominio o conocimiento de la manera más completa

posible. Se definen por un conjunto de estímulos o preguntas que tienden a

ser representativas del dominio o conocimiento que se quiere medir. Por

ejemplo, se decide que el dominio del conocimiento será la salud y

seguridad ocupacional. Se desarrollan 300 preguntas sobre este tema. Esta

cantidad de preguntas puede resultar poco práctica en el caso de que se

estén midiendo otros dominios. Así que se pasa a seleccionar una muestra

representativa de las 300 preguntas. La misma puede ser de alrededor de

168. Luego se pasa a evaluar cuál es el por ciento de preguntas que debe

pasar la persona para determinar si domina o no el material perteneciente

al universo de conocimiento.

39

Capítulo 3: Diseño de Objetivos Educativos

El proceso de enseñanza tiene el propósito fundamental de modificar

comportamiento. Cuando adiestramos y capacitamos a una persona para

que realice un tipo de trabajo o se convierta en un profesional, es necesario

que diseñemos unos objetivos que nos permitan evaluar los cambios que

esperamos que la persona logre durante el tiempo que se le está

capacitando.

La enseñanza no debe ser un proceso azaroso ni carente de estructura

ya puede modificar conductas en una dirección no deseada. Es una realidad

que los seres humanos estamos aprendiendo todo el tiempo. El ambiente

nos rodea de estímulos que permiten que modifiquemos y reforcemos un

gran número de conductas. El problema con esta situación es que muchas

de las conductas que aprendemos no poseen una dirección ni un propósito

social fundamental y nos llevan desarrollar conductas maladaptativas.

El proceso de enseñanza-aprendizaje no se puede dejar al simple

azar, sino que debe estructurar unas actividades que puedan ser evaluadas

mediante objetivos. Es importante evaluar lo que se espera de los

adiestrados o estudiantes luego de un periodo de adiestramiento o clases.

Por ello la importancia de tener objetivos educativos que permitan evaluar

los resultados obtenidos por los evaluados durante un proceso de

enseñanza-aprendizaje.

40

Un objetivo educativo se define como la descripción de una conducta

determinada que el estudiante o adiestrado deberá adquirir. Un objetivo

describe el resultado final de la enseñanza más que el proceso mismo de

enseñanza. Robert Mager ha sido un experto que por muchos años se ha

dedicado a la enseñanza de la construcción de objetivos educativos. Este

nos dice que los objetivos son importantes por varias razones.

En primer lugar, cuando no existen metas claramente definidas no

existe una base sólida sobre la que se puedan seleccionar las ayudas

didácticas, el contenido y las técnicas apropiadas. Si no se sabe dónde se

quiere ir es difícil escoger los caminos a llegar.

En segundo lugar, los exámenes o pruebas son señales que marcan el

proceso en la vía de aprendizaje y se espera que indiquen tanto al

evaluador como al evaluado el grado de éxito logrado por ambos.

La tercera razón para que existan objetivos bien definidos es que le

provee al evaluado los medios para evaluar su progreso y poder así

organizar sus esfuerzos en actividades relacionadas con lo que está

aprendiendo. Ya no necesita preocuparse por averiguar el tipo de

preguntas que a cada instructor le gusta hacer.

Las Características de un Objetivo bien EnunciadoUn objetivo bien enunciado es el que logra transmitir al lector el

intento educacional del que lo redacta. Las características de un buen

objetivo son las siguientes:

41

1. Debe identificar por su nombre la conducta final. Es fundamental especificar el tipo de destreza que usted aceptaría como evidencia de que el evaluado ha logrado el objetivo.

2. Define con mayor precisión la conducta deseada por medio de una descripción de las condiciones importantes bajo las cuales dicha conducta debe ocurrir.

3. Especifica el patrón de rendimiento aceptable mediante la fijación del grado de perfección que el aprendiz debe alcanzar para ser aprobado.

En síntesis, las características de un objetivo bien redactado son las

siguientes: 1. Conducta final: destrezas concretas (lo que el aprendiz debe

ser capaz de hacer), 2. Condiciones: (las circunstancias concretas dentro de

las cuales debe darse el resultado, la conducta final y 3. Patrón de

rendimiento: el nivel que se puede considerar aceptable en la realización del

objetivo.

Conducta Final

El objetivo debe comenzar expresando cual es la conducta final que se

espera del estudiante o adiestrado al final de un periodo de instrucción. La

misma debe ser expresada en verbos activos, para lograr concretizar la

conducta esperada. A continuación se presentará una lista de verbos

activos que pueden ser utilizados como índices de conducta final:

1. leer2. caminar3. contar4. resolver problemas5. localizar6. preparar7. organizar en orden lógico

42

8. corregir9. definir10. arreglar11. colocar12. contribuir13. usar14. hacer funcionar15. bosquejar16. operar17. restar18. sumar19. reconocer20. escribir

Esta es solamente una pequeña parte de la inmensa cantidad de

verbos que existen. A continuación se presentan varios ejemplos de

objetivos que contienen la conducta final esperada:

1. Reconocer las 5 situaciones de mayor peligro en el uso de la máquina de encapsular.

2. Redactar 10 preguntas de selección múltiple, pareo, cierto o falso, respuesta breve, ensayo y listas de cotejo.

3. Diseñar una tabla de especificaciones para una prueba normativa.

En el primer ejemplo se puede observar que la conducta final

esperada es que el estudiante o participante pueda preparar una lista que

contenga 10 preguntas de cierto o falso. El segundo y tercer ejemplo

recurren a los verbos definir y reconocer para definir la conducta final

esperada.

Condiciones

Las condiciones son aquellas situaciones concretas bajo las cuales se

espera que el estudiante o adiestrado realice la conducta esperada. Las

43

mismas pueden relacionarse con el medio ambiente. Por ejemplo: el salón

de clases o la sala de adiestramiento. También pueden ser las herramientas

que necesita la persona para emitir la conducta final esperada. Por ejemplo,

un libro, una charla, un periodo de instrucción, un lápiz. En fin, es cualquier

herramienta ya sea proveniente del medio ambiente o provista por el

maestro o adiestrador. A continuación se presentará una lista de

condiciones que pueden ser utilizadas en la formulación de un objetivo

educativo:

1. Con la ayuda de un procedimiento...2. Usando un diccionario...3. Provista una lista de...4. Dada una situación problemática...5. Con la ayuda del maestro o adiestrador...6. Al finalizar el adiestramiento...7. Siguiendo instrucciones escritas...8. Al ser expuestos a...9. Provisto el equipo computadorizado...10. Utilizando los mismos materiales...

A continuación se presentará varios ejemplos de objetivos que

contienen conducta final esperada y condiciones:

1. Con la ayuda de un procedimiento estándar de operaciones, el adiestrado reconocerá las 5 situaciones de mayor peligro en el uso de la máquina de encapsular.

2. Luego del adiestramiento de construcción de instrumentos de medición, los participantes redactarán preguntas de selección múltiple, pareo, cierto o falso, respuesta breve, ensayo y listas de cotejo.

3. Con la ayuda del manual del participante diseñará una planilla de especificaciones para una prueba normativa.

El ejemplo 1 nos presenta que el procedimiento estándar de operación

44

es la condición para realizar la conducta de reconocer las 5 situaciones de

mayor peligro en el uso de una máquina de encapsular. En los ejemplos

siguientes, tanto el adiestramiento como la ayuda que provee el manual del

participante, son condiciones para realizar las conductas de reacción y

diseño.

Patrón de Rendimiento

El patrón de rendimiento se define como el comportamiento mínimo

aceptable para evidenciar que el estudiante o adiestrando haya cumplido

con un objetivo dado. El mismo nos permite aumentar la precisión de un

objetivo especificando la calidad, cantidad y el tiempo máximo permisible

en el desempeño de la conducta final. Cuando se logra especificar el patrón

de rendimiento en un objetivo, el mismo nos sirve para comparar los

resultados de nuestros cursos y talleres. Nos permite además determinar el

grado de éxito alcanzado en el logro de nuestros propósitos educativos. A

continuación se presentará una lista de patrones de rendimiento aceptable

que pueden ser utilizados para la redacción de un objetivo:

1. con 80% de efectividad...2. sin cometer errores...3. permitiendo solo dos errores...4. sin fallar...5. cuatro de cinco preguntas...6. una sola pregunta errónea. ..7. tres de cinco aciertos...8. cero defectos...9. 70% de las preguntas correctas...10. 20% de errores...

45

A continuación se presentarán varios ejemplos de objetivos antes

presentados que anteriormente contenían conducta final esperada,

condiciones y ahora contienen patrón de rendimiento:

1. Con la ayuda de un procedimiento estándar de operaciones, el adiestrado reconocerá las 5 situaciones de mayor peligro en el uso de la máquina de encapsular sin cometer errores.

2. Luego del adiestramiento de construcción de instrumentos de medición, los participantes redactarán 20 preguntas de selección múltiple, pareo, cierto o falso, respuesta breve, ensayo y listas de cotejo, con un 80 por ciento de efectividad.

3. Con la ayuda del manual del participante diseñará una tabla de especificaciones para una prueba normativa, con un mínimo de dos equivocaciones.

En el primer ejemplo el objetivo no se permite que la persona cometa

errores en la identificación de las 5 situaciones de mayor peligro en el uso

de una máquina de encapsular. La persona que reconozca 4 situaciones no

habrá cumplido con el objetivo. Muchas veces hay que ser riguroso con el

patrón de rendimiento ya que el contenido de un material de enseñanza

debe ser aprendido en su totalidad. Este es el caso del primer ejemplo,

donde es crítica la identificación de 5 situaciones de mayor peligro.

Ejercicio de Práctica

46

Lea cuidadosamente los objetivos que se presentan a continuación.

Favor de subrayar con una línea la conducta final esperada, con dos líneas

la o las condiciones y con tres líneas el patrón de rendimiento.

1. Dado un conjunto de procedimientos de operación, el participante operará la Mezcladora de ingredientes, con un 90 por ciento de efectividad.

2. Luego de concluir el periodo inicial de adiestramiento, los participantes escribirán un procedimiento de operación, con un 20 por ciento de error permitido.

3. Al finalizar el taller de calidad total, los participantes discutirán los 14 Puntos de Deming sin equivocarse.

4. Dado un paño, detergente y un cepillo de cerdas suaves, el participante limpiará la máquina encapsuladota sin dejar residuos contaminantes.

5. Luego de esta sesión del taller, los participantes redactarán cinco objetivos educativos que contengan conducta final esperada, al menos una condición y un patrón de rendimiento.

47

Capítulo 4: Taxonomía del Dominio Cognoscitivo de Benjamín Bloom y Colaboradores

El desarrollo integral de un estudiante o un adiestrado requiere que

los objetivos educativos sean amplios, variados e integrados. Esta razón dio

lugar a que ciertos educadores y profesionales crearán un sistema de

clasificación de objetivos. En primer lugar se identificaron tres áreas en los

que se pueden agrupar estos objetivos: cognoscitivos, afectivo y

psicomotor. Posteriormente se dieron a la tarea de crear una taxonomía

dentro de cada una de las áreas que facilitara la labor del educador a la

hora de crear un periodo de instrucción o adiestramiento y los mecanismos

para evaluar los mismos.

La primera taxonomía de objetivos fue la del área cognoscitiva. La

misma incluye los procesos intelectuales de conocimiento y pensamiento.

La segunda taxonomía fue la del dominio afectivo que incluye todos los

aspectos emotivos, de sensaciones y sentimientos, valores, actitudes e

intereses. La tercera área es la psicomotora. Esta no fue desarrollada por

Bloom y colaboradores, pero un educador llamado Simpson desarrolló una y

la definió como las actividades que brindan mayor énfasis al desarrollo de

destrezas muscular o motora, a la manipulación de materiales y objetos o a

las acciones que requieren coordinación neuromuscular. Los objetivos que

se realizan bajo esta taxonomía se encuentran muy relacionados con los

48

procesos de escritura, lenguaje oral, y con la educación en deportes oficios,

cursos técnicos y ciencias naturales. La taxonomía afectiva y psicomotora

no han sido desarrolladas e investigadas rigurosamente. Hasta este

momento, la taxonomía que mayor cantidad de investigaciones ha

generado es la cognoscitiva. Los educadores y adiestradores aceptan que la

misma es la de mayor profundidad científica y utilidad práctica.

La taxonomía del área cognoscitiva a su misma vez contiene las áreas

de conocimiento, comprensión, aplicación que a su vez incluye las sub áreas

de análisis, síntesis y evaluación. El primero comprende actividades donde

la memorización de datos específicos, formas y maneras de trabajar con

datos, abstracciones y generalizaciones, principios teorías y estructuras son

importantes. La segunda requiere además de la memorización, del

entendimiento del conocimiento aprendido. Incluye el traducir de una u otra

forma, explicar y resumir y extrapolar más allá de los datos.

El nivel de aplicación consiste en la utilización del conocimiento en

situaciones concretas y particulares. El nivel de análisis consiste en

identificar los elementos, las relaciones y los principios organizacionales. La

síntesis incluye la producción de una comunicación única, de un plan, o la

derivación de conjuntos de relaciones abstractas. Por último, el nivel de

evaluación incluye el emitir juicios basados en criterios propios o externos.

A continuación se presentarán los verbos más comunes relacionados a las

áreas contenidas en la taxonomía de Bloom y colaboradores:

49

AREA COGNOSCITIVA SEGUN BENJAMIN BLOOM Y COLABORADORES

CONOCIMIENTO COMPRENSION

APLICACION ANALISIS SINTESIS EVALUACION

Definir Traducir Interpretar Distinguir Componer Juzgar

Repetir Decir en sus propias palabras

Aplicar Analizar Planificar Estimar

Anotar Reconocer Utilizar Diferenciar Proponer Evaluar

Listar Explicar Demostrar Estimar Diseñar Clasificar

Recordar Identificar Dramatizar Calcular Formular Comparar

Nombrar Localizar Practicar Experimentar

Proponer un plan

Elegir

Relatar Informar Catalogar Probar Unir Valorar

Leer Asociar Calcular Comparar Crear Revisar

Enumerar Cambiar Resolver Contrastar Organizar Seleccionar

Escribir Computar Hacer un diagrama

Manejar Elegir

Contar Diferenciar Examinar Preparar Medir

Describir Debatir Combinar Verificar

Distinguir Inventar

Comparar Resolver

Dar ejemplos Categorizar

Inspeccionar

Seleccionar

50

Los verbos antes presentados tienen el propósito de definir la

conducta final esperada. Todos pueden utilizarse ya que son conductas

observables que nos permiten examinar el aprendizaje de los estudiantes o

adiestrados.

A continuación se presentarán algunos ejemplos de objetivos relacionados a

las distintas áreas de la taxonomía cognoscitiva:

Conocimiento

Al final de este periodo de instrucción, los participantes reconocerán los tres componentes de un objetivo educativo.

Comprensión

Dado una lista de objetivos educativos, los participantes identificarán aquellos que contengan los tres componentes básicos de un objetivo sin cometer errores.

Aplicación

Luego de un periodo de instrucción, los participantes redactarán cinco objetivos educativos con al menos dos de los componentes de un objetivo.

Análisis

Dado el manual del equipo, el participante desmontará cada una de las partes del equipo, con un 80 por ciento de precisión.

Síntesis

Con el manual de procedimientos a mano, el participante ensamblará la computadora sin cometer errores.

51

Evaluación

Dado la cantidad de 35 órdenes de compra de materiales de oficina y un presupuesto hipotético, el participante escogerá aquellas que deben ser procesadas con un 90 por ciento de efectividad.


A continuación se presentarán una lista de objetivos. Su labor

consiste en identificar el área del nivel cognoscitivo a la cual pertenecen

cada uno de los mismos.

1. Dado un destornillador largo de estrella, el participante desarmará la tapa principal del ordenador y añadirá los microprocesadores de memoria, sin cometer errores.

2. Dado las instrucciones, un martillo y un destornillador de estrella, el participante armará el escritorio sin cometer errores.

3. Dado una computadora que tenga un programa de procesamiento de hojas electrónicas, los participantes diseñaran un gráfico de barras, con un 80 por ciento de efectividad.

4. Con el manual de procedimientos a mano, el participante listará las herramientas necesarias para desempeñar una limpieza de la secadora de tabletas.

5. Dado este adiestramiento, los participantes diferenciarán los distintos objetivos educativos en las áreas cognoscitivas, sin cometer errores.

Capítulo 5: Tablas de Especificaciones

Toda prueba es una muestra de los conocimientos que aparentemente

han adquirido los estudiantes o adiestrados a través de un periodo de

instrucción. En el desarrollo de pruebas se seleccionan preguntas de

carácter pertinente a los temas que se han presentado durante la

52

instrucción y que a la misma vez contienen los objetivos con sus respectivos

niveles cognoscitivos. La representatividad del contenido de una prueba se

determina por el juicio de uno o más expertos. En el caso de un maestro o

un instructor, el experto es el o ella ya que es quien está a cargo de la

planificación y selección del contenido del material que se va a administrar

durante el periodo de instrucción. Una herramienta que nos permite

organizar el contenido de la información que vamos a incluir en una prueba

es la tabla de especificaciones. Este instrumento nos permite determinar la

cantidad de preguntas y el nivel cognoscitivo de cada concepto a base de

dos dimensiones: 1. los objetivos educativos y 2. los tópicos cubiertos

dentro de la materia enseñada. Existen dos tipos de tablas de

especificaciones. La primera se conoce como normativa y la segunda

como de criterio. La primera tiene el propósito de ayudar a diseñar

pruebas cuyos resultados puedan comparar el desempeño del estudiante o

adiestrado con el de personas con características similares. La segunda

permite el diseño de pruebas donde se compara los resultados de éste con

su propio desempeño. Ambas tablas se construyen de forma diferente.

Preparación de una Tabla de Especificaciones para una Prueba Normativa

En el desarrollo de una tabla de especificaciones para una prueba

normativa se siguen los siguientes pasos:

1. Determinación de la importancia relativa de las categorías de

53

objetivos a ser evaluados en al prueba. La taxonomía de Bloom

colaboradores permite desarrollar este tipo de actividad. Se ha

encontrado que es muy difícil distinguir entre objetivos de aplicación,

análisis síntesis y evaluación, por lo que éstos se agrupan en una

categoría de aplicación. La importancia relativa que tiene cada

categoría de objetivos se refleja como por cientos o decimales en la

tabla de especificaciones. En el ejemplo de la Tabla 1, se puede

observar que se asignó a las áreas de conocimiento .15,

comprensión .60 y aplicación .25.

2. Establecimiento de la importancia relativa de los tópicos. Estos pesos

se reflejan en la tabla de especificaciones en términos porcentuales o

decimales. En la Tabla 1 los tópicos sobre construcción de preguntas

se le adjudicó un peso de .25 a cada uno de los mismos. La

importancia relativa de los tópicos la va a determinar el maestro o el

adiestrador que es considerado como la persona experta en el tema.

3. Determinación del número total de preguntas que tendrá la prueba.

El total de preguntas se determina a base de aspectos tales como el

tiempo que se tiene disponible para administrar la prueba y sus

instrucciones, la confiabilidad deseada en la prueba, el tipo de materia

que se cubre, la edad de los estudiantes o adiestrados, las experiencia

de los estudiantes o adiestrados y otros. En el caso de la Tabla 1, se

54

seleccionaron 50 preguntas.

4. Determinación del número total de preguntas por categoría de

objetivos. Esto se hace multiplicando el decimal que representa el

peso relativo de ese objetivo por el total de la prueba. En la Tabla 1

podemos observar que cuando multiplicamos el peso del área de

conocimiento (.15) por el número total de preguntas (50) obtenemos

que el área de conocimiento se debe redactar 8 preguntas. Este

mismo procedimiento se realiza en todas las áreas.

5. Determinación del número de preguntas por cada tópico y categoría

de objetivos. Generalmente, todas las preguntas en una prueba

tienen igual peso y el número de preguntas dedicadas a cada tópico

en particular se obtiene multiplicando el decimal correspondiente a su

peso relativo por el total de preguntas de cada categoría de objetivos.

En la Tabla 1 podemos observar al multiplicar el peso de funciones de

las preguntas (.25) por el número total de preguntas en el área de

conocimiento (8) obtenemos que necesita redactar dos preguntas. El

mismo procedimiento se repite con todos los tópicos hasta completar

todas las preguntas.

6. Determinación del número total de preguntas en cada tópico por

categoría de objetivos. Esto se obtiene sumando el total de preguntas

por categoría de objetivos en cada tópico. Por ejemplo, en la Tabla 1

55

tomamos el tópico de funciones de las preguntas y sumamos el

número de preguntas en las categorías de objetivos que son: 1)

conocimiento (2 preguntas), comprensión (8 preguntas) y 3)

aplicación (3 preguntas), obteniendo una puntuación total de 13. La

misma se coloca en la columna denominada Total. Esto se realiza en

cada tópico y luego suma la cantidad de preguntas por tópico. La

misma debe ser igual al total de preguntas estipulado en el paso

número tres.

Tabla 1: Tabla de Especificaciones para una Prueba Normativa Sobre el Tema de la Construcción de Preguntas de Examen

CATEGORÍA DE OBJETIVOS

Tópicos Peso Conocimiento

.15

Comprensión

.60

Aplicación

.25

Total

Funciones de las preguntas

.25 2 8 3 13

Importancia de las preguntas

.25 2 8 3 13

Impacto de las pruebas estandarizadas

.25 2 7 3 12

Controversias de las pruebas

.25 2 7 3 12

TOTALES 1.00 8 30 12 50

56


A continuación se presenta una tabla de especificaciones. La misma contiene el total de preguntas, los pesos por tópicos, por área cognoscitiva. Favor de completar la información que falta.

Tópicos Peso Conocimiento

.35

Comprensión

.45

Aplicación

.20

Total

Preparación antes de la operación .20

Mezcla de los ingredientes

.25

Operación de la encapsuladota .35

Limpieza de la encapsuladota .20

TOTALES 60

Tabla de Especificaciones para una Prueba de Criterio

La tabla de especificaciones para una prueba de criterio consiste de

una lista de objetivos educativos expresados en términos de conducta y

número de preguntas que se van a utilizar para evaluar cada objetivo. Para

medir cada objetivo debe existir un número suficiente de preguntas

representativas de los conocimientos de ese objetivo. Es difícil determinar

el número requerido de preguntas. Se recomienda que no haya menos de 5

preguntas y preferiblemente 10 o más.

57

En segundo lugar, lo objetivos se expresan en forma de conductas que

puedan ser cuantificables. Ambos tipos de pruebas requieren que las

preguntas que se incluyan sean representativas de los conocimientos a ser

medidos. Pero en las pruebas de criterio, el universo de conocimientos se

define con mayor precisión y se refiere a un conjunto de conocimientos más

limitado. El número total de preguntas en una prueba de criterio depende,

no solamente de las consideraciones antes mencionadas, sino también del

número de objetivos y del número de preguntas mínimas que se pueden

incluir para medir cada objetivo. A continuación se presenta la Tabla 2 que

contiene un ejemplo de una tabla de especificaciones para una prueba de

criterio.

Tabla 2: Tabla de Especificaciones para una Prueba de Criterio para la Operación de una Máquina de Encapsular.

Área Destreza Número de Preguntas

Puntuación Mínima

Operación de una máquina de encapsular

Preparar los

a la operación

5 4

Llenar los documentos necesarios antesde la operación

5 4

Operar de la máquina de encapsular

5 4

Limpiar elequipo

5 4

TOTAL 20

58

El número de objetivos de conducta que se pueden formular para

evaluar el material de un curso o adiestramiento es relativamente alto. Se

recomienda que los objetivos seleccionados sean aquellos que evidencien el

mayor grado de asociación con otros objetivos. De esa forma, al medir el

objetivo, se miden indirectamente otros objetivos.

Con relación a las especificaciones de las prueba, se recomienda que se incluya lo siguiente:

1. Una descripción general de las conductas que se quieren medir.

2. Proveer ejemplos de preguntas.

3. Una descripción de los atributos del estímulo (la pregunta),

cómo se selecciona el contenido de la pregunta, qué tarea se le

presenta al estudiante o adiestrado.

4. Una descripción de los atributos de las respuestas. El estudiante

o adiestrado producirá la respuesta o hará una selección entre

las alternativas. Cuando es de selección se especifican los tipos

de respuesta que pueden incluirse como alternativas incorrectas

y respuestas correctas. Cuando se requiere al estudiante

producir la respuesta (preguntas de discusión) se establecen los

criterios para evaluarla.

5. Un suplemento que ofrezca más detalles sobre el contenido a medirse.

59


Utilizando ya sea un libro de texto, revista, este manual o un

procedimiento estándar de operación, seleccione un tema y diseñe una

tabla de especificaciones para una prueba que contenga 30 preguntas.

Capítulo 6: Preparando la pruebaEstablecimiento de los Límites de Tiempo

En la determinación de la cantidad de preguntas que se van a incluir

en una prueba se debe tener en consideración el tiempo que se tiene para

contestar las misma. Uno de los criterios para determinar el tiempo que

debe durar una prueba debe ser aquel donde el 90 por ciento de las

personas que las contesten puedan terminar sin problema alguno. Dicho de

otra forma, es el tiempo que le toma al 90 por ciento de las personas

terminar una prueba cuando se le provee tiempo ilimitado para responder a

la misma.

Otra estrategia que se puede usar es la de tomar el tiempo que le

toma contestar la prueba a cada persona y luego calcular el promedio y la

desviación estándar de los tiempos. Este resultado dará una idea de cuánto

toma en promedio contestar el examen.

Preparación de las Instrucciones

Una parte importante de una prueba son sus instrucciones. Es

60

necesario que la persona que va a contestar la prueba sepa qué es lo que se

le pide que responda y de qué manera se debe responder. Las instrucciones

son el mecanismo que permite orientar a la persona con la información que

necesita para responder la prueba. Las instrucciones deben contener los

siguientes aspectos:

1. ¿Qué tipo de marca se utilizará para identificar la respuesta del

estudiante o adiestrado?

2. ¿Se utilizará una hoja de respuesta separada del folleto de la prueba?

3. ¿Se provee papel para cómputos o deben hacerse los cálculos en el

folleto?

4. ¿Hay limite de tiempo para las partes de la prueba?

5. ¿Cuál es el tiempo máximo disponible?

6. ¿Puede entregar su trabajo tan pronto termine?

7. ¿Qué materiales o equipo se pueden utilizar durante la prueba?

8. ¿Se penalizarán los intentos de adivinar respuestas?

Capítulo 7: Desarrollo de las Preguntas de la Prueba

Una vez se tiene claro las materias que se van a evaluar, se pasa a la

redacción de las preguntas. Existen varias maneras de redactar preguntas.

A continuación se presentarán las reglas generales que hay que seguir para

desarrollar las preguntas de una prueba. Luego se presentarán las reglas

61

para formular distintos tipos de preguntas.

Reglas Generales para la Construcción de Preguntas

1. Formule preguntas sobre conceptos básicos.

2. Presente la pregunta en la forma más clara y precisa posible.

3. Al formular preguntas no repita textualmente lo que aparece en el

material impreso.

4. Si la pregunta está basada en una opinión, indique de quién es la opinión.

5. La información contenida en una pregunta no debe revelar la

respuesta a otra pregunta.

6. La respuesta a una pregunta no debe depender de la respuesta a otra

anterior.

7. Las respuestas correctas deben colocarse al azar, distribuidas

equitativamente entre las posiciones.

8. Evite preguntas que tiendan a engañar al examinado.

9. Evite preguntas que solo requieran sentido común para contestarse

correctamente (esto sólo se permite en pruebas de habilidad mental).

El Ejercicio de Cierto o FalsoEl ejercicio de cierto o falso requiere que la persona exprese su juicio

en torno a un enunciado dado en términos de su veracidad o falsedad. Este

se caracteriza por el hecho de que existen solamente dos posibles

contestaciones a seleccionar: cierto o falso, correcto o incorrecto y otros.

62

Este tipo de pregunta le provee la oportunidad a la persona de contestar el

50% de las preguntas correctamente por adivinanza. Esto conlleva el hecho

de que una persona que no ha estudiado un material didáctico o que no ha

atendido adecuadamente a un periodo de adiestramiento, tiene un 50% de

probabilidad de contestar la respuesta correcta mediante la adivinanza.

Este ejercicio debe contener una premisa que sea absolutamente

cierta o claramente falsa sin excepciones. Generalmente las premisas

de cierto o falso se utilizan para medir datos que necesitan ser

memorizados. Sin embargo es posible utilizarlas para medir procesos de

razonamiento complejo.

Reglas para la Redacción de Preguntas de Cierto o Falso

1. La premisa de cierto o falso debe contener una sola idea ya que

de otra forma puede confundir a los respondientes.

2. Debe redactarse de manera que pueda clasificarse

inequívocamente como cierto o falso.

3. La premisa debe ser corta y contener una estructura gramatical

simple.

4. Se recomienda el uso mínimo de premisas negativas, pero de

utilizarse, se debe resaltar la palabra negativa ya sea

subrayando, usando letras mayúsculas o ennegreciéndola.

5. Cuando la premisa involucra una opinión, se debe incluir la

fuente de la misma.

63

6. Las premisas de cierto o falso deben incluir datos y

generalizaciones importantes y relevantes.

7. Se debe evitar el uso de claves que sugieran la contestación:

a. Evitando usar palabras que se asocian con argumentos

ciertos o falsos.

b. Procure que las premisas de cierto o falso tengan

aproximadamente la misma extensión.

c. Procure que el número de premisas ciertas sea igual al de

falsas.

8. Debe evitarse el uso de ciertas palabras o frases que se asocian

con argumentos ciertos o falsos ya que proveen claves en la

contestación. Las palabras absolutas como siempre, nunca,

todo, tienden a ser falsas. Mientras que palabras como

usualmente, puede, algunos, debiera, generalmente tienden a

ser ciertas.

9. Se debe evitar que las premisas que son ciertas sean más largas

que las falsas. La extensión debe ser más o menos la misma en

ambos tipos de premisas.


A continuación encontrará una serie de preguntas de cierto o falso

que contienen varios errores de construcción. Su tarea consistirá en

identificar cada uno y recomendar la forma correcta en que se deben

64

redactar los mismos.

1. Todo envejeciente va deshaciéndose de sus ataduras, especialmente las asociadas con el trabajo y comunidad.

2. De acuerdo con Lodahl y Kejner el nivel en que el empleado se involucra en el trabajo es una característica individual, mientras que para Argyris es una respuesta al ambiente organizacional. 3. Cae de su peso que Politemo, cíclope de Neptuno y comedor de carne humana, devoraría niños con preferencia, por ser manjar tierno.

la calidad.

d) estrategia de la Preguntas de Alternativas Múltiples Las preguntas de alternativas múltiples son las que gozan de mayor

prestigio entre todos lo tipos de preguntas. Ello se debe a que las mismas

pueden evaluar de forma amplia todos lo niveles de la taxonomía

cognoscitiva. La pregunta de alternativas múltiples contiene una premisa

que sirve como base. Esta por lo regular consta de una pregunta o una

declaración incompleta. Una vez establecida la premisa, se procede a

establecer unas alternativas para que se seleccione la mejor contestación.

Por lo general se redactan de cuatro a cinco alternativas por pregunta. A

continuación se presentan las reglas para formular la premisa u oración

principal.

Reglas para la Formulación de la Premisa1. Formular claramente una pregunta de manera que el examinado

pueda entenderla sin recurrir a las alternativas.

2. Contener en lo posible, todas las palabras comunes a las alternativas.

65

3. Contener únicamente material pertinente a la respuesta de la

pregunta, a menos que se esté midiendo la capacidad de seleccionar

el material pertinente a la solución de un problema

4. Estar libre de indicios (claves) sobre cuál es la respuesta correcta.

5. Contener toda la información posible para responder a la pregunta.

6. Presentarse en forma positiva.

7. Presentar una pregunta de alternativas múltiples y no de cierto o

falso.

8. Indicar la existencia de otras respuestas correctas que no se incluyen

entre las alternativas cuando este sea el caso. En tal situación debe

iniciar con frases como: De las siguientes...

9. Requerir un conocimiento, no la opinión del examinado.

Reglas para la Formulación de la Respuesta Correcta1. Debe haber una sola respuesta correcta.

2. Si hay más de una respuesta correcta. LA MEJOR respuesta debe

establecerse a base de criterios aceptados.

3. La respuesta correcta debe tener aproximadamente la misma

extensión que las alternativas incorrectas.

Reglas para la Formulación de las AlternativasLas alternativas deben:

1. guardar estrecha relación con la premisa.

2. tener la misma estructura gramatical.

66

3. excluirse mutuamente.

4. ser homogéneas en contenido.

5. presentarse en la forma más simple posible.

6. tener el mismo atractivo.

A continuación presentamos algunos ejemplos de preguntas de alternativas múltiples:

1. El proceso que según Joseph Juran establece los objetivos dirigidos a la calidad y el desarrollo de formas para realizar los mismos se conoce con el nombre de

a) control de la calidad.b) evaluación de la calidad.c) planificación de calidad.

2) Según establece la teoría de calidad de Juran un compañero de trabajo debe ser considerado como un cliente

a) interno.b) externo.c) periférico.d) importante.

3) El propósito fundamental de la reingeniería de negocios es la revisión y el rediseño radical de procesos para alcanzar mejoras espectaculares en medidas tales como

a) costos, beneficios, servicio y rapidez.b) calidad, costos, planificación y rapidez. c) costos, calidad, servicio y rapidez.d) productividad, calidad, costos y rapidez.

Ejercicio de PareoEl ejercicio de pareo constituye una variación de las preguntas de

alternativas múltiples. El mismo provee varias premisas y respuesta

67

simultáneamente.

Reglas para la Construcción de un Ejercicio de Pareo1. El ejercicio de pareo consta de dos columnas. La columna de la

izquierda contiene los estímulos o las premisas mientras que la

columna de la derecha contiene las respuestas.

2. Ambas columnas deben aparecer en la misma página ya que de

otra manera el ejercicio se torna confuso

3. Se debe medir conocimiento homogéneo. El contenido de cada

una de las columnas debe girar en torno a un solo tema.

4. El número de respuestas debe ser mayor que el número de

estímulos. Esto permite reducir la probabilidad de adivinar las

respuestas. Las respuestas deben exceder por dos o tres

respuestas el número de preguntas.

5. El ejercicio de pareo no debe ser muy extenso. Es

recomendable usar un máximo de 8 a10 preguntas.

6. La lista de respuestas debe presentarse en un orden lógico (Ej.

Alfabético o cronológico). Esto contribuye a facilitar la selección

de las respuestas.

7. Deben de existir unas instrucciones que indiquen la base a parear.

A continuación se presenta un ejemplo de un ejercicio de pareo

Paree el concepto (columna derecha) con su respectiva descripción (columna izquierda):

68

1. Juicio subjetivo sobre la calidad a. selección del desempeño de una persona b.

diagnóstico 2. Comparación del desempeño de un c. rapidez

individuo en varias áreas para d. perfección determinar fortalezas y debilidades e. medición 3. Asignar valores numéricos a desempeño f.

instrumental de una persona g.

clasificación 4. Identificar personas con mayores h.

evaluación probabilidades de éxito 5. Enfoque que prefiere las pruebas de ensayo y que analiza el proceso


A continuación se presentará un ejercicio de pareo. Su tarea consiste

en señalar los errores que encuentre en el mismo y recomendar la forma en

que se puede mejorar el mismo.

Pareo:1.Anne Anastasi a.gran exponente en

2.Max Weber Psicometría

3.John Locke b.Falsas crónicas del Sur4.Ana L. Vega c.burocracia

d.tabula rasa

Ejercicio de Respuesta BreveSe le pide a la persona que elabore la respuesta. El mismo consta de

una premisa incompleta que la persona completa con una palabra, frase,

oración, símbolo o un numeral. Este tipo de premisa se utiliza para medir

objetivos que implican memorización de datos, aplicación de principios y la

69

solución de problemas. Tienden a ser fáciles de construir y reducen a un

mínimo la posibilidad de adivinanza.

Reglas para la Construcción de Preguntas de Respuesta Breve1. Debe haber una sola respuesta.

2. El contexto en forma de pregunta tiende a ser más directo y

claro que el de la declaración incompleta.

3. Si se redacta una declaración incompleta se debe incluir el

espacio en blanco

A continuación se ofrecen ejemplos de preguntas de respuesta breve:

1. Según Cirino (1989), el tipo de pregunta que requiere que la persona exprese su juicio en torno a un enunciado en términos de su veracidad o falsedad se conoce como_________.

2. La memorización de datos, símbolos, terminología y hechos puede medirse utilizando ejercicios de ___________.

3. ___________ es la capital de Puerto Rico.

La Pregunta de Discusión o Ensayo

Es un medio para lograr medir logros de aprendizaje importante que

no es factible por otros medios. Es útil para medir los niveles más altos de

la taxonomía de Bloom y colaboradores, como lo son la síntesis y la

evaluación. Este tipo de pregunta promueve la producción y organización

de ideas y, además, le provee la libertad a la persona de elaborar su

respuesta. Presenta la desventaja de que es poco representativa del

aprovechamiento total que se quiere medir. La prueba tipo ensayo tiende a

favorecer a aquellas personas que tienen gran habilidad para escribir. La

70

corrección de este tipo de prueba involucra gran subjetividad, por lo que sus

resultados tienden a ser poco confiables. Este aspecto se puede minimizar

cuando se le asigna puntos a los temas y subtemas o pasos que debe

contener cada pregunta.

Reglas para la Construcción de Preguntas de Discusión 1. Cada pregunta debe presentar una tarea clara y definida.

2. Todas las personas deben contestar las mismas preguntas. No

se debe presentar varias preguntas para que los evaluados

escojan ya que se afecta la representatividad del material a

evaluar.

3. El evaluador debe proveer un límite de tiempo justo para que los

evaluados respondan a las preguntas.

4. En la corrección de las preguntas se deben corregir las

respuestas que dan los evaluados a una sola pregunta antes de

pasar a la próxima. Ello minimiza la subjetividad en la

corrección

A continuación se presentará un ejemplo de una pregunta de

discusión sobre el tema de construcción de preguntas:

Defina los tipos de preguntas existentes y las reglas de construcción para cada una de ellas. Además explique según discutido en el adiestramiento, qué tipo de preguntas se ajustan mejor a los adiestramientos en la industria y ¿Por qué?

a. Definición de cada tipo de pregunta (10 puntos)b. Reglas para la redacción de cada tipo de pregunta (20

puntos)

71

c. Preguntas que más se ajustan a la industria y razones para ello (20 puntos).

Listas de CotejoLa lista de cotejo es el tipo de prueba que permite la evaluación del

desempeño de una persona a la vez que éste realiza el trabajo para el cual

se le está evaluando. Es recomendable utilizar la misma cuando se quiere

medir el desempeño de una persona luego de concluido un adiestramiento

sobre la operación de cierto equipo o máquina. La lista de cotejo consta de

una serie de conductas que conllevan los pasos lógicos para la realización

de una tarea. Este es un tipo de prueba donde una persona va marcando si

la persona está realizando las conductas necesarias para culminar la tarea y

las realiza en un orden lógico. Las conductas que se realizan están

relacionadas a objetivos cognoscitivos del área de aplicación y el nivel

psicomotor.

Reglas para la Redacción de Listas de Cotejo1. Defina concretamente las conductas que incluirá la lista de

cotejo. Las mismas deben ser específicas. Las conductas

pueden ser obtenidas de análisis de puestos, procedimientos de

operación estándar, observación directa y otros.

2. Presente la misma en el orden lógico que requiere la realización

de la tarea.

3. Coloque un espacio que sirva para realizar una marca al lado de

cada conducta.

72

4. La lista de conductas no debe ser extensa. Alrededor de 10 a 15

premisas son deseables

5. Se evita utilizar lenguaje complejo y rebuscado ya que lo que se

busca medir son conductas específicas relacionadas al

desempeño.

73

A continuación se presenta un ejemplo de una lista de cotejo para la misma redacción de una lista de cotejo:

Favor de colocar una marca () al lado de cada una de las conductas según el evaluado las vaya realizando. Cada conducta tiene un valor de 5 puntos. Luego de terminar la evaluación, sume las conductas que el evaluado realizó y divídalas por el total de conductas. Esta será la puntuación total. La puntuación mínima para aprobar este examen es 70 por ciento.

_____1. Diseña los objetivos educativos_____2. Redacta la tabla de especificaciones_____3. Evalúa el análisis de puestos_____4. Observa directamente el desempeño deseado_____5. Redacta las premisas en forma de conducta_____6. Las premisas están organizadas lógicamente_____7. Coloca el espacio para marcar al lado de las premisas_____8. Redacta alrededor de 10 a 15 premisas_____9. Evita usar lenguaje complejo____10. Le otorga una puntuación a cada premisa

____Total ____Aprobado

Capítulo 8: Desarrollo de Escalas de Actitudes

Las escalas de actitudes son herramientas que teóricamente

pretenden medir las inferencias establecidas por la taxonomía del dominio

afectivo. Las actitudes según Sachs (1993) se definen como las

predisposiciones a reaccionar negativa o positivamente en cierto grado

frente a un objeto, instituciones o clase de individuos. Dichas

predisposiciones pueden medirse de dos formas:

Observación de las actitudes manifiestas. Las manifestaciones actitudinales se observan a nivel del comportamiento. Un o una observadora adiestrada realiza observaciones de rigor y corrobora las mismas mediante entrevistas que validen la información.

74

Desarrollar inventarios o escalas. Las mismas son instrumentos de papel y lápiz donde las personas señalan su grado de acuerdo o desacuerdo con las aseveraciones que pretenden medir la actitud en cuestión.

Las escalas de actitudes revelan la posición de los individuos en un

continuo de aprobación y desaprobación de las instituciones o eventos

sociales, las actividades de los grupos y los principios que pueden afectar el

bienestar de los demás Sachs, 1983). Esencialmente, las escalas de

actitudes pretenden medir las opiniones que expresan las personas ante

ciertos elementos de carácter social. Por ejemplo, a los trabajadores y

trabajadoras de una organización de productos o servicios se les pide que

señalen su nivel de acuerdo o desacuerdo con las nuevas políticas que se

están implantando en la empresa. Una vez estas personas terminan de

contestar el instrumento, se suman las puntuaciones marcadas en cada

contestación y el resultado se considera como la magnitud de l actitud

latente de estas personas (Spector, 1992). Spector señala que las escalas

no solamente pueden medir actitudes, sino también a aspectos de la

personalidad.

Pasos generales para desarrollar escalas de actitud

1. Defina la actitud claramente usan cualquiera de esta alternativas

Use una teoría como marco de referencia

Use constructos o dominios previamente establecidos

Use su propia conceptuación teórica

75

Use datos empíricos obtenidos de entrevista focalizadas en temas,

análisis de contenido de textos, observación participante o

cualquier otra técnica cualitativa que estime conveniente

2. Seleccione la escala de respuesta. Puede usar escalas que fluctúen desde

4,5, 7 o 10 gradaciones. (Ejemplo: 1) totalmente en desacuerdo, 2) en

desacuerdo, 3) de acuerdo y 4) totalmente de acuerdo.

3. Desarrolle las aseveraciones usando los siguientes criterios

Cada aseveración debe expresar una idea

Redacte aseveraciones positivas y negativas. Permite que cuando

las personas contesten la escala no tiendan a contestar en la

misma dirección de la escala. Esta situación sucede cuando todos

los reactivos están fraseados de manera positiva. Puede incluir los

ítemes impares como negativos y los pares como positivos

Evite usar jergas o lenguaje que sea complicado de entender

Considere el nivel de lectura de las personas que van a contestar el

instrumento

Evite usar la palabra no cuando redacte las aseveraciones

Ejemplo:

Aseveración mal redactada Aseveración bien redactada

No me gustan los lugares fríos Me desagradan los lugares fríos

76

Prepare las instrucciones para contestar la escala- Sea claro/a y

preciso/a en la información que usted desea que la persona que va

a contestar separa para contestar el instrumento

4. Realice un estudio piloto con 100 personas (Kline, 1986, 1991)

Haga un estudio de validez de contenido con 10 a 12 expertos

Aplique los reactivos a las 100 personas y haga un análisis de

reactivos para calcular los índices de discriminación. Retenga

aquellos reactivos cuyos índices fluctúen entre .30 y .80 (Klein,

2000)

Estime la confiabilidad de consistencia interna. Aplique la técnica

alfa de Cronbach. Autores como Kline (1991) y Spector (1992)

señalan que esta técnica es la más precisa ya que toma en

consideración a todo el instrumento, contrario a la técnica de

división en mitades que a pesar de corregir el efecto de la

correlación con la técnica de Spearman-Brown, no toma en

consideración la variación total de la escala. Los indicadores de

confiabilidad deben fluctuar entre .70 y 1.00.

Calcule el error estándar de la medida

Elimine los reactivos que no cumplan con los criterios expertos ni

con los de los análisis de reactivos

Vele por que la confiabilidad cumpla con los criterios

77

5. Administre los reactivos que sobrevivieron en el estudio piloto a una

muestra de 200 personas y añada una escala de deseabilidad social

Correlacione los reactivos de la escala con los de deseabilidad

social y elimine aquellos con correlaciones moderadas o altas

Realice un análisis de factores con los reactivos que no reflejan

deseabilidad social

Evalúe los factores obtenidos, el valor eigen y el porcentaje de

variación explicada

Retenga aquellos reactivos cuyos factores de carga inicial fluctúen

entre .30 y .80 (Pedhazur y Pedhazur Schmelkin, 1991)

6. Repita el análisis de reactivos y de confiabilidad y evalúe los reactivos a

la luz de los criterios utilizados anteriormente.

7. Elimine los reactivos que sean necesarios

8. Use los reactivos que sobrevivieron para constituir la forma final del

instrumento

9. Administre la forma final a un grupo representativo de la población y

establezca las normas de la escala. El tamaño de la muestra dependerá

del tamaño de la población

Tipos de escalas de actitudes

Escala ThurstoneSe desarrolla seleccionando una serie de opiniones que constituirán el

78

universo de la actitud a medir. El mismo va a ser definido de la misma

forma que se define operacionalmente un constructo. Se va a desarrollar

una lista inmensa de aseveraciones que contengan gradaciones desde

altamente favorable hasta altamente desfavorable. Se van a reclutar

alrededor de 100 jueces para que los mismos, usando una escala del 1 al

11. Los reactivos seleccionados tienen que tener la aprobación de la

mayoría de los jueces y la escala final debe contener reactivos que cubran

el recorrido de actitudes que fluctúe en la escala del 1 al 11. Los jueces

serán personas que conocen el objeto de estudio a medirse. Si la escala es

para medir la opinión que se tiene sobre las uniones, los jueces tienen que

tener relación directa con las uniones, sino de lo contrario el proceso sería

un fracaso metodológico. Cirino (en Rodríguez Irlanda, 1991) indica que el

problema mayor que confronta el desarrollo de la escala tipo Thurstone es

el trabajo que conlleva el diseño de la misma.

Ejemplo:

Las mujeres deben cobrar igual que los hombresFavorable_____________ Desfavorable

Escala GuttmanSegún el mismo Guttman una escala de actitudes debe reproducir

cada una de las contestaciones de cada una de las personas que respondan

a ésta. Esta reconstrucción se hace con los valores totales obtenidos. Esto

implica que una escala debe tener reactivos que fluctúan desde una actitud

favorable hasta una desfavorable. Si una persona responde favorablemente

79

a un reactivo es porque los reactivos anteriormente contestados deben

haberse contestado también de manera favorable. Guttman expresa que si

esto no sucede la escala estaría midiendo más de un factor. Cirino (en

Rodríguez Irlanda, 1991) señala que en la práctica esto ocurre en muy rara

ocasión ya que los grados de contestación de una persona varíe

independientemente del orden de los reactivos. Este dato llevó a que

Guttman creará lo que denomina un índice de reproducibilidad. El mismo

especifica que una escala de actitud unidimensional es aquella donde el

90% de los y las respondientes son consistentes en la contestación

favorable o desfavorable de la escala

Ejemplo de escala Guttman:

Las uniones obreras son el mejor instrumento de justicia social.Favorable________ Desfavorable_______

Las uniones obreras han contribuido al desarrollo económico de los Estados Unidos.

Favorable________ Desfavorable_______

Escala LikertLikert diseñó esta escala para reducir el trabajo que se requería al

desarrollar una escala Thurstone. En este tipo de escala no se le asignan

valore a las opiniones, sino que cada sujeto indica el grado de acuerdo o

desacuerdo con las opiniones. Esta escala resulta más fácil de construir que

la Thurstone y existen estudios que arrojan altas correlaciones entre ambas

escalas (Cirino en Rodríguez Irlanda, 1991). Las actitudes se pueden medir

usando gradaciones de 4,5 o 7 puntos. Andújar Rojas y Martínez Lugo

80

(1996) encontraron que al usar la Teoría de la Respuesta al Ítem, la

categoría de intermedio o neutral no pareció ser una gradación efectiva en

la Escala que mide el Nivel en que los empleados se Involucran en el

Trabajo.

81

Ejemplo de una escala Likert:

Vivo, como y respiro trabajo

1. totalmente en desacuerdo2. en desacuerdo3. neutral4. de acuerdo5. totalmente de acuerdo

Prueba de equívocosLas pruebas de equívocos se utilizan cuando se sospecha que en la

población que se quiere medir una actitud, las personas pueden falsear los

resultados de la misma. Se trata de evitar la deseabilidad social ya que se

diseñan unos reactivos de alternativa múltiple, pero no existe una

contestación correcta. Los reactivos buscan medir la actitud de los y las

respondientes.

Ejemplo:

La falta de motivación en el trabajo le presenta en pérdidas a las empresas puertorriqueñas la cantidad de

a. un millón de dólares.b. cinco millones de dólares.c. diez millones de dólares.d. cien millones de dólares.

Se supone que una persona que esté en desacuerdo con que la

motivación afecta a las empresas contestará la alternativa a, mientras si

esté de acuerdo la tendencia será a marcar la alternativa d. Este tipo de

prueba se desarrolla cuando no se puede establecer la confidencialidad y el

anonimato en la evaluación de la muestra.

82

Diferencial Semántico

Este tipo de escala busca medir el significado que tienen las palabras

o los conceptos. La misma fue desarrollada por Osgood, Suci y

Tannenbaum. La escala de diferencial semántico es una escala bipolar que

provee una serie de posiciones intermedias para que se juzguen los

conceptos que se desean medir. Las posiciones pueden fluctuar desde cero

hasta 9. Se ha encontrado que la gradación más efectiva es la de siete.

Ejemplo de una escala de diferencial semántico:

Ser sumamente rico

Bueno________________________MaloBueno___ ___ ___ ___ ___ ___ ___Malo

83

Capítulo 9: Análisis de Reactivos

El análisis de reactivos es una herramienta estadística útil para

determinar si los reactivos discriminan en términos de las personas que

dominan o no unas áreas de conocimiento. Este el caso especifico de las

pruebas de conocimiento, aptitud, aprovechamiento, habilidad. En el caso

de las escalas de actitud, lo que se busca es evaluar si las preguntas

discriminan de las personas que tienen o no una actitud en particular.

El análisis de reactivos también nos provee información sobre

dificultad de las preguntas. Este es el caso de las pruebas que presumen

respuestas correctas e incorrectas. El análisis también nos provee

información sobre el comportamiento de las alternativas.

Análisis de reactivos cuantitativo

En el pasado este análisis se calculaba por medio de una calculadora

de bolsillo. Hoy día existen programas computadorizados de análisis de

reactivos que son efectivos y de bajo costo. Los mismos presentan los datos

de forma precisa ya que minimizan el nivel de error producido por un mal

cálculo. Además, que realiza análisis que pueden tomar horas calculándose

manualmente, en solo segundos. Uno de los de los más conocidos es

ITEMAN. A continuación presentaremos un ejemplo de la información que

este programa nos provee sobre una pregunta en particular.

84

ITEM PROP.CORRECT

BISER. ALT PROP.ENDORSING

BISER. KEY

1 .28 .47 1 .30 -.072 .13 -.173 .09 -.284 .12 -.125 .29 .47 *

OTHER .06 -.22

De izquierda a derecha debajo de la palabra ITEM nos muestra el

número de la pregunta que se está evaluando. En este caso es la pregunta

número uno. Seguido se encuentra el índice de dificultad. El mismo nos

señala la proporción de personas que obtiene la pregunta correcta. Las

preguntas que contienen índices de dificultad entre 0 y .15 se consideran

demasiado difíciles. Las que fluctúan entre .16 y .30 tienden a ser difíciles,

las de .31 a .70 se consideran de dificultad promedio, las de .71 a .85

resultan ser fáciles y de .86 a 1.00 se consideran demasiado fáciles. En el

caso del ejemplo, podemos señalar que la pregunta aparenta ser difícil

(.28). Al lado derecho del índice de dificultad se encuentra el índice de

discriminación. El mismo nos muestra cuanto discrimina la pregunta de los

que conocen el material contenido en la pregunta de lo que no lo conocen.

Este índice es de carácter correlacional, asocia cada pregunta con las

puntuaciones totales que obtuvieron las personas que sacaron mejores

puntuaciones y los de menor puntuación. Los índices de discriminación

deben fluctuar entre .20 y .80. Preguntas cuyos índices estén fuera de

este recorrido deben ser eliminados de la prueba. En el caso del ejemplo

antes presentado, la pregunta 1 discrimina ya que se encuentra dentro del

85

recorrido señalado (.47). Al lado derecho de este índice se encuentra las

letras de las alternativas y al lado de éstas, se pueden observar el por

ciento de personas que contestó cada alternativa. Por ejemplo, la

alternativa A fue contestada por el 30 por ciento de las personas. Podemos

observar que seguido al por ciento de respuesta se encuentra el índice de

discriminación por alternativa. Este utiliza los mismos parámetros de

comparación que el índice de discriminación de la pregunta. Por ejemplo, la

alternativa E es la que mejor discrimina (.47) de todas, además de que

resulta ser la alternativa correcta. Por último, la columna que se encuentra

a la derecha de los índices de discriminación de las alternativas contiene un

asterisco que identifica la contestación correcta.

Análisis de Reactivos CualitativoEn muchas ocasiones queremos realizar análisis de reactivos y no

tenemos la disponibilidad de condiciones óptimas para ello. Carecemos de

muchas personas para evaluar las preguntas estadísticamente, no tenemos

los programas para realizar los mismos y nos falta tiempo para realizar un

buen análisis. Sucede que tenemos que recurrir a alternativas cualitativas

para encontrar los índices de dificultad y discriminación. Una manera de

evaluar el primero es mediante la formulación de preguntas sobre cuán

difícil o fácil estuvo la pregunta y por qué. Esto nos permite evaluar el

fraseo de la premisa, la manera en que se redactaron las alternativas y la

calidad de la respuesta correcta. Toda esta información debe ser anotada

86

por el adiestrador y tomada en cuenta en el momento de mejorar o eliminar

las preguntas.

Los índices de discriminación se pueden evaluar cuando usted les pide

a los participantes que levanten la mano los que obtuvieron la pregunta

correctamente. Cuente el número de personas que acertaron

correctamente. Si el 50 por ciento la contestó correctamente, la pregunta

discrimina adecuadamente. La pregunta que fue contestada por el 80 por

ciento de las personas tiende a ser fácil y las que fueron contestadas por el

20 por ciento aparenta ser difícil. Lo importante es que el por ciento de

contestación correcta se encuentre entre el 20 y 80 por ciento. De otra

manera la pregunta no discriminaría adecuadamente.


A continuación encontrará una impresión de computadora de un análisis de

reactivos. Utilizando los criterios antes mencionados, señale las

características del mismo en términos de la dificultad, discriminación y

comportamiento de las alternativas

ITEM PROP.CORRECT

BISER. ALT PROP.ENDORSING

BISER. KEY

1 .75 .60 1 .10 .062 .10 .183 .70 .56 *4 .12 .115 .08 .30

OTHER .00 .00

87

Capítulo 10: ConfiabilidadUna de las características de que debe tener una prueba es la

confiabilidad. Esto significa que los resultados de la misma deben ser

consistentes cada vez que se administre la misma. Esto implica que las

puntuaciones obtenidas en la prueba deben estar libres de errores. Una

prueba que sea tomada por un grupo de personas en dos ocasiones y que

sus resultados varíen significativamente no es una prueba confiable. Por

otro lado una prueba cuyo contenido sea altamente heterogéneo tampoco

será confiable. Los índices de confiabilidad fluctúan entre 0 y 1.00. Mientras

más se acercan a 1.00 mayor es la confiabilidad de una prueba y mientras

más se acerque a 0 menor será la misma. La comunidad científica acepta

que la confiabilidad mínima de una prueba debe ser .70. Índices menores

que .70 no son evidencia de una buena confiabilidad. Existen varias formas

de obtener la confiabilidad de una prueba. A continuación se presentarán

las formas más comunes de obtener la confiabilidad de una prueba o escala.

Confiabilidad de Consistencia InternaLa confiabilidad de consistencia interna se logra mediante el análisis

estadístico de la correlación. El mismo permite establecer la correlación

entre cada una de las preguntas con el total de la prueba. También esto se

logra mediante la correlación de la mitad de las preguntas con la otra mitad.

Por lo general existen dos índices de consistencia interna que son los de

mayor uso en la psicometría: alfa de Cronbach y División en mitades usando

88

la fórmula de Spearman-Brown. El primero se realiza calculando las

correlaciones entre cada una de las preguntas y el total de la prueba. Se

obtiene una proporción que es corregida por la fórmula alfa de Cronbach y

se obtiene el índice. La segunda se obtiene dividiendo la prueba en dos

mitades. Pueden dividirse usando las preguntas pares y nones o

dividiendo la prueba en dos mitades solamente. Estas preguntas pasan a

ser correlacionadas y corregidas por la fórmula Spearman-Brown. Este tipo

de confiabilidad se obtiene cuando administramos la prueba en una sola

ocasión. Cuando la prueba es una de dificultad progresiva se usa la técnica

de pares y nones para evitar que la dificultad de las preguntas afecte el

nivel de confiabilidad.

Confiabilidad TemporalEsta técnica busca establecer una correlación entre el instrumento o

una versión del mismo administrado en dos ocasiones luego de haber

esperado determinado periodo de tiempo. El tiempo varía en función del

tipo de instrumento que se vaya a administrar y de la cantidad de personas

con que se cuenta para realizar el estudio. El problema principal radica en

que un número considerable de los evaluados se ausenten en la segunda

administración del instrumento. Algunos expertos recomiendan que fluctúe

entre dos semanas a seis meses. Las dos técnicas que se usan para estimar

la confiabilidad a través del tiempo son la de prueba-reprueba y la de

formas equivalentes.

89

Prueba RepruebaLa misma se obtiene cuando se le administra la misma prueba a un

mismo grupo en dos ocasiones. Se administra en una primera ocasión, se

deja pasar un tiempo suficiente para que las personas olviden el contenido

de la misma y se pasa a administrarla en una segunda ocasión. Luego se

correlacionan los resultados de ambas pruebas.

Confiabilidad a Través de Formas EquivalentesLa misma se obtiene cuando se le administra una prueba a un mismo

grupo en dos ocasiones. Se administra en una primera ocasión, se deja

pasar un tiempo suficiente para que las personas olviden el contenido de la

misma y se pasa a administrar una versión que mide lo mismo que la

primera en una segunda ocasión. Luego se correlacionan los resultados de

ambas versiones de las pruebas.

Confiabilidad del ExaminadorEsta es una técnica cualitativa que también nos permite obtener la

confiabilidad de las pruebas o escalas. Para establecer la misma se necesita

que un mínimo de dos examinadores o adiestradores contesten la prueba y

luego se comparen las puntuaciones en la prueba. De no existir similitud en

las puntuaciones, la prueba no resultarán ser confiables. Esto se puede

hacer cualitativamente mediante la comparación de las puntuaciones de los

examinadores. Si la misma discrepa significativamente (por ejemplo: uno

sacó 100 y el otro 75) existe un bajo grado de confiabilidad. Por otro lado,

este procedimiento se puede hacer de manera estadística. En primer lugar

90

se le administra la prueba a un número considerable de examinadores (30 o

más examinadores). En segundo lugar se calcula una distribución de

frecuencias de las puntuaciones obtenidas y se estima el promedio, la

mediana, la variación y la desviación típica. Se supone que haya un sesgo

positivo en la distribución. Es decir, las puntuaciones deben ser altas y

deben distribuirse hacia el lado derecho de la distribución.

91

Capítulo 11: ValidezLa validez es la característica más importante que tienen las pruebas,

inventarios y escalas. El término validez se refiere a que la prueba debe

medir lo que se supone que mida. Si una prueba no es válida en términos

de las inferencias que se hacen partiendo de las puntuaciones de la prueba,

la misma no posee valor alguno. A continuación se presentarán los distintos

tipos de obtener la validez de las pruebas.

Validez AparenteEste es un tipo de validez cualitativa que establece que la apariencia

de las preguntas de la prueba debe ser compatible con el propósito de la

misma. Por ejemplo, una persona está solicitando para el puesto de

secretaria y le presentan una prueba que muestra ejemplos de casos en el

área ingeniería. Este factor afecta la motivación de las personas que

contestan la prueba y, por consiguiente, el comportamiento de la prueba.

Validez de Contenido

La misma se refiere a que las preguntas deben concordar con los

objetivos educativos de la prueba. La tabla de especificaciones es una

manera de evidenciar la validez de contenido de la prueba. Por otro lado

cuando tenemos una escala de actitud o un inventario, es necesario

evidenciar la validez de contenido mediante la consulta a un grupo de

expertos. Esto se conoce como la validez de contenido evaluada a través de

92

expertos o jueces. La metodología de mayor uso se conoce como la Técnica

de Lawshe. En este caso, se le pide a un grupo de expertos (este no debe

ser menor de 5 expertos) que realicen un análisis del contenido de cada

pregunta y señalen si cada uno es o no esencial para medir las dimensiones

que se desean medir. Basado en el nivel de esencialidad de las preguntas,

se va a pasar a calcular la razón de validez de contenido (RVC) para cada

pregunta. Esto se logra mediante el uso de la siguiente formula:

RVC= Nje - Nne Ntj

Donde: Ntj es el número total de jueces, Nje es el número de jueces

que marco la pregunta como esencial y Nne fue el número de jueces que

dijo que el reactivo no era esencial para medir la dimensión. Por ejemplo,

una pregunta que haya sido evaluada por 12 jueces de los cuales 10

señalaron que la misma era esencial y 2 dijeron que no lo era. Al convertir:

RVC = 10 - 2 = 8 12 12

RVC = .67

La razón de validez de contenido para esa pregunta es .67. Es

necesario recurrir a la tabla de Schipper para determinar cual es el RVC

mínimo permitido basado en la cantidad de jueces disponibles. A

continuación se presenta la Tabla 3 que contiene los RVC mínimos basado

en la cantidad de jueces disponibles:

93

Tabla 3: Tabla de Schipper Para Valores Mínimos de RVC Número de jueces Valor mínimo

5 .996 .997 .998 .759 .78

10 .62 11 .59 12 .56 13 .54 14 .51 15 .49 20 .42 25 .37 30 .33 35 .31 40 .29

En nuestro ejemplo, tenemos 12 jueces y la tabla nos señala que el

RVC mínimo es .56. Preguntas con RVC menores de .56 deben ser

eliminadas, cuando 12 jueces evalúan las preguntas. En el ejemplo anterior

el RVC que calculamos fue .67, por consiguiente, esta pregunta debe ser

retenida ya que cumple con el RVC mínimo (.59).

Luego de haber calculado todos los RVC de una prueba se pasa a

calcular el Índice de Validez de Contenido (IVC). Este se calcula utilizando la

siguiente fórmula:

IVC = RVC # total de preguntas

Donde: RVC es la suma de todos los RVC dividida entre el número

total de preguntas. Por ejemplo: cuatro reactivos con RVC de .59, .70, .85

94

y .94 son sumados y obtenemos la cantidad de 3.08 la dividimos por 4 que

es la cantidad total de preguntas y obtenemos un IVC de .77. Esto nos dice

que la prueba de 4 preguntas tiene validez de contenido. Pruebas con IVC

de menos de .70 carecen de validez de contenido.


A continuación se presentan los resultados de la evaluación de 10 jueces en 10 preguntas de una prueba de conocimiento. Favor de calcular los RVC y el IVC para la prueba:

Pregunta Esencial No Esencial

1. 9 1

2. 8 2

3. 10 0

4. 7 3

5. 5 5

6. 9 1

7. 8 2

8. 6 4

9. 4 6

10. 10 0

95

Cálculos

96

Validez de ConstructoLa validez de constructo se refiere a que para la prueba ser válida o

medir lo que pretende medir, debe estar relacionado altamente con una

medida igual o desigual según sea el caso. Existen dos tipos de validez de

constructo: convergente y divergente. La validez convergente se refiere

a la correlación entre dos pruebas que midan lo mismo. Se administra a un

grupo de personas la prueba que se quiere validar, se deja pasar un tiempo

y se le administra otra prueba que sea válida y que mida lo mismo que la

primera. Se correlacionan ambas pruebas y si la misma resulta ser alta

(.60-1.00) se puede concluir que existe validez de constructo.

La validez divergente se refiere a la correlación entre dos pruebas

que no miden lo mismo. Se administra a un grupo de personas la prueba

que se quiere validar, se deja pasar un tiempo y se le administra otra

prueba que sea válida, pero que no mida lo mismo que la primera. Se

correlacionan ambas pruebas y si la misma resulta ser alta y negativa (.60-

1.00) o se acerca bastante a cero, se puede concluir que existe validez de

constructo divergente ya que las pruebas no miden lo mismo.

Validez de CriterioLa validez de criterio presupone que una prueba mide lo que pretende

medir en función a la existencia de un criterio o factor. El criterio es una

medida externa que existe con anterioridad y que se acepta por los

expertos como índice adecuado del contenido que la prueba pretende

97

medir. Existen dos tipos de validez de criterio: validez predictiva y

concurrente. La validez predictiva nos contesta la pregunta ¿Será José

exitoso? En este tipo de validez, se le administra la prueba a un grupo de

personas y luego se deja pasar una cantidad considerable de tiempo (seis

meses a un año) y se recoge la medida del criterio. Por ejemplo, usted

evalúa con una prueba de inteligencia a un grupo de personas que entraron

a su compañía en este año. Espero seis meses y evaluó el desempeño de

todos. Correlacionó las puntuaciones de las pruebas con las de la

evaluación. De encontrar una correlación al alta (.80 y 1.00) entre la prueba

y la evaluación se puede concluir que la primera predice desempeño. El

único problema con este tipo de validez es que requiere de la evaluación de

muchas personas (alrededor de 300 personas). Muchas veces este factor

inhibe su utilización en las industrias.

El segundo tipo de validez es la concurrente. La misma contesta la

pregunta ¿José es exitoso? En la validez concurrente se administra la prueba

y el criterio de forma simultanea. Por ejemplo: usted quiere determinar la

importancia de la inteligencia en el proceso de adiestramiento. Lo primero

que se puede hacer es administrarle una prueba de inteligencia a un grupo

que va a tomar un adiestramiento donde se requiere altos niveles de

inteligencia. Al final de este adiestramiento usted les administra a los

participantes un examen sobre el contenido del mismo. Luego va a

correlacionar las puntuaciones entre la prueba de inteligencia y la prueba

98

del adiestramiento. Cuando se encuentra una correlación al alta (.80 y

1.00) entre la prueba y la prueba de adiestramiento se puede concluir que

la primera predice el éxito inmediato tienen las personas basado en sus

niveles de inteligencia.

99

Referencias

Anastasi. A. & Urbina S. (1997). Psychological Testing, (7ma. Ed.). New Jersey: Prentice-Hall

Andújar, C. A. & Martínez-Lugo ME. (1996). Análisis científico de la Escala que Mide el Nivel en que los Empleados se Involucran en el Trabajo de Lodahl y Kejner utilizando las Teorías de Respuesta al Ítem y la de Generalización. Revista Latinoamericana de Psicología., 16, 1-17.

Cirino, G. (1984). Introducción al desarrollo de pruebas escritas. Río Piedras: Editorial Bohío.

Cohen, R.J. & Swerdlik, M.E. (2001). Pruebas y evaluación psicológica: Introducción a las pruebas y a la medición, 4ta. Ed. Méjico: McGraw-Hill.

Collazo, A. A. (1974). Nociones básicas en la elaboración de pruebas. Río Piedras: Universidad de Puerto Rico.

Crocker, L. & Algina, J. (1986). Introduction to Classical & Modern Test Theory. Forth Worth. Harcourt Brace Jovanovich.

DeVellis, R. F. (1991). Scale Development: Theory, and Applications. London: Sage.

Díaz de Grana, L. (1988). Los objetivos educacionales: Criterios claves para la evaluación del aprendizaje. Río Piedras: Editorial de la Universidad de Puerto Rico.

Edenborough, R. (1999). Using Psychometrics: A Practical Guide to Testing and Assessment, (2da. Ed.), Londres: Kogan Page.

Gronlund, N.E. (1994). Elaboración de tests de aprovechamiento. México: Trillas.

Kline, P. (1986). A Handbook of Test Construction: Introduction to Psychometric design. London: Methuen.

Kline, P. (1998). The New Psychometrics: Science, Psychology and Measurement. Londres: Routledge.

Kline, P. (2000). A Hanbook of Psychological Testing, (2da. Ed.).

100

London: Routledge.

Nunnally, J.C. & Berstein (1994). Psychometric Theory, (3ra. Ed.). New York: McGraw-Hill.

Mager, R.F. (1980). Objetivos para la enseñanza efectiva. Caracas: Editorial Salesiana.

Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and Evaluation in Education and Psychology, (4ta. Ed.), Fort Worth: Harcourt Brace.

Pedhazur, E., Pedhazur Melkin, L. (1991). Measurement, Design, and Analysis. New Jersey: Lawrence Erlbaum.

Rodríguez Irlanda, D. (1991). Medición y evaluación. San Juan, Puerto Rico: Publicaciones Puertorriqueña.

Sachs, G. (1983). Medición y evaluación en educación y en “guidance”. Barcelona: Herder.

Spector, P.E. (1992). Summated Rating Scale Construction: An Introduction. Newbury: Sage.

Wade Savage, C, & Ehrlich, P. (1992). Philosophical and Foundational Issues In Measurement Theory. New Jersey: Lawrence Erlbaum.

Westgaard, O. (1999). Tests that Work: Designing & Delivering Fair & Practical Measurement Tools in the Workplace. San Francisco: Jossey-Bass, Pfeiffer.

introduccion a la construccion de instrumentos de medicion

Documents