validez y confiabilidad de instrumentos de medición en investigación cuantitativa

Lcda. Alba M. AbreuLcda. Alba M. AbreuAbog. Mariela Núñez Abog. Mariela Núñez

Lcda. Alba M. AbreuLcda. Alba M. AbreuAbog. Mariela Núñez Abog. Mariela Núñez

Universidad YacambúVicerrectorado de Investigación

y PostgradoMaestría en Gerencia de las Finanzas

y de los NegociosBarquisimeto, Estado Lara

Venezuela

Medir ha sido una necesidad humana, sobre todo el

mundo contemporáneo. La investigación científica no está

ajena a parámetros de medición, tanto en las ciencias

sociales, como las ciencias naturales.

Medición es entonces la asignación de algún valor Medición es entonces la asignación de algún valor

significativo, sea numérico o alfabético o de otro orden, a significativo, sea numérico o alfabético o de otro orden, a

una serie de objetos, con la finalidad de operacionalizar una serie de objetos, con la finalidad de operacionalizar

variablesvariables.

Esta forma de medir, obliga al investigador a relacionar

también conceptos y postulados teóricos con datos y hechos

empíricos que ha ido observado y recolectando a lo largo del

proceso de investigación.

Son datos que efectivamente deben tener

correspondencia con los objetivos planteados.

Concepto de Concepto de MediciónMedición

Análisis del Análisis del instrumentoinstrumento

Para que un instrumento de medición pueda ser óptimo al momento de su aplicación, es necesario que cumpla los siguientes principios: Validez y Confiabilidad.Validez y Confiabilidad.

El rigor y la calidad para evaluar el aprendizaje dependen,

fundamentalmente, de cómo se aborde la validez y la confiabilidad, cualidades esenciales que deben estar presentes en el desarrollo del proceso de recoger y analizar la información conducente a garantizar una mayor confianza sobre las conclusiones emitidas, de manera individual y compartida, por el evaluador.

Tanto la validez como la confiabilidad se conjugan para coadyuvar al evaluador a ser objetivo en el proceso de describir la realidad derivada de un aprendizaje específico, el cual está inmerso en un discurso privado y que pretende ser público a través de la comunicación.

La validez y la confiabilidad se abordan desde diferentes perspectivas, dependiendo de la aproximación epistemológica considerada.

Factores a evitar para que el contenido de un instrumento de Factores a evitar para que el contenido de un instrumento de medición sea válido:medición sea válido:

No dar instrucciones empíricas o vagasEstructura sintáctica de oraciones fácilesEvitar preguntas inadecuadas sobre especificacionesEvitar preguntas que sugieren respuestasEvitar ambigüedad en formulación de los reactivos o preguntas que lleven a diferentes interpretacionesNo presentar cuestionarios, escalas o pruebas demasiado cortosEvitar que los ítems sean incongruentes con variables a medirEvitar ordenamiento inadecuado de ítemsEvitar improvisarEvitar tomar instrumentos validados en otros contextos

Análisis del Análisis del InstrumentoInstrumento

Requisitos que debe cumplir un Instrumento de Medición:

Validez.Validez.Confiabilidad.Confiabilidad.Objetividad.Objetividad.

Definición según diversos autores: De acuerdo con Hernández, Fernández y Baptista (1998),”la validez De acuerdo con Hernández, Fernández y Baptista (1998),”la validez

en términos generales, se refiere al grado en que un instrumento en términos generales, se refiere al grado en que un instrumento realmente mide la variable que pretende medir” (pág.243).realmente mide la variable que pretende medir” (pág.243).

Tamayo y Tamayo (1998) considera que validar es “determinar Tamayo y Tamayo (1998) considera que validar es “determinar cualitativa y/o cuantitativamente un dato” (224).cualitativa y/o cuantitativamente un dato” (224).

Según Rusque M (2003) “la validez representa la posibilidad de que Según Rusque M (2003) “la validez representa la posibilidad de que un método de investigación sea capaz de responder a las un método de investigación sea capaz de responder a las interrogantes formuladas.interrogantes formuladas.

ValidezValidez Un instrumento de recolección de datos es válido cuando mide

lo que se supone debe medir en términos de contenido, predicción, concurrencia y construcción.

Campbell y Stanley (1972) distinguen dos tipos de consideraciones para la

validez cuantitativa : la validez interna y la externa, definidas así:

La validez internaLa validez interna: Se refiere al mayor o menor control que tenemos de

variables que pueden perturbar los resultados. Ocurre cuando se puede

asegurar que los cambios de la variable dependiente se deben a los

cambios de la o las variables dependientes.

La validez externa: La validez externa: Se refiere a la posibilidad de que los resultados

obtenidos en una muestra puedan ser generalizados a la población o

universo del cual fue seleccionada; así como que puedan ser

generalizados a un ambiente diferente de su ambiente originario.

Validez en la Validez en la Investigación Investigación CuantitativaCuantitativa La validez cuantitativa, bajo la perspectiva de la teoría positivista, se orienta fundamentalmente hacia las técnicas e La validez cuantitativa, bajo la perspectiva de la teoría positivista, se orienta fundamentalmente hacia las técnicas e

instrumentos de medición elaborados por el evaluador, supuestos desarrollados a partir de las teorías planteadas por el instrumentos de medición elaborados por el evaluador, supuestos desarrollados a partir de las teorías planteadas por el

filósofo francés Auguste Comte (1798-1857). En esa perspectiva, la validez asociada a la evaluación del aprendizaje se filósofo francés Auguste Comte (1798-1857). En esa perspectiva, la validez asociada a la evaluación del aprendizaje se

concibe en términos de: (a) precisar el rasgo del aprendizaje del evaluado que se pretende medir, como aprendizaje a través concibe en términos de: (a) precisar el rasgo del aprendizaje del evaluado que se pretende medir, como aprendizaje a través

de pruebas o tests, (b) predecir algún rasgo del aprendizaje adicional a lo que se pretende medir, y (c) medir lo que se dice de pruebas o tests, (b) predecir algún rasgo del aprendizaje adicional a lo que se pretende medir, y (c) medir lo que se dice

medir de cierto rasgo (Comte, 1896).medir de cierto rasgo (Comte, 1896).

Este tipo de evaluación presenta diferentes interpretaciones de validez, referidas a pruebas o tests, establecidas en Este tipo de evaluación presenta diferentes interpretaciones de validez, referidas a pruebas o tests, establecidas en

los Estándares para Tests y Manuales para Educación y Psicología (American Psychological Association –APA-, 1985)los Estándares para Tests y Manuales para Educación y Psicología (American Psychological Association –APA-, 1985)

Validez de Contenido:

Está representada por el grado en que una prueba representa

el universo de estudio. Por tal motivo,

deberán seleccionarse los indicadores e ítems

de tal manera que estos respondan a las

características peculiares del objeto de

estudio. También se puede señalar que se

refiere a la fidelidad con que los ítems

contenidos en una prueba reflejan el

constructo que se desea medir.

Por Ejemplo: Una prueba de operaciones aritméticas no

tendría validez de contenido si sólo incluye

problemas de resta y excluye problemas de

suma, multiplicación y división. Si el dominio

de un instrumento es demasiado estrecho

con respecto al dominio de la variable, el

primero no representará a esta.

Entendiéndose como Constructo Entendiéndose como Constructo

cualquier entidad hipotética de difícil cualquier entidad hipotética de difícil

definición dentro de una teoría científica. definición dentro de una teoría científica.

Un constructo es algo de lo que se sabe Un constructo es algo de lo que se sabe

que existe, pero cuya definición es difícil que existe, pero cuya definición es difícil

o controvertida. Son constructos la o controvertida. Son constructos la

inteligencia, la personalidad y la inteligencia, la personalidad y la

creatividad, por ejemplo.creatividad, por ejemplo.

Debe hacerla un experto, pues, estos evalúan lo siguiente:Debe hacerla un experto, pues, estos evalúan lo siguiente:

a.a.Si está elaborada adecuadamente la matriz de consistencia, es decir, si el Si está elaborada adecuadamente la matriz de consistencia, es decir, si el

problema está formulado de acuerdo a sugerencias de la investigación científicaproblema está formulado de acuerdo a sugerencias de la investigación científica

b.b.Si los objetivos son explícitos y precisosSi los objetivos son explícitos y precisos

c.c.Si las variables e hipótesis tienen coherencia con objetivos y problemasSi las variables e hipótesis tienen coherencia con objetivos y problemas

d.d.Si se han desagregado las variables en dimensiones, indicadores e ítems Si se han desagregado las variables en dimensiones, indicadores e ítems

(operacionalización correcta de variables)(operacionalización correcta de variables)

e.e.Si ítems del instrumento representan adecuadamente a las variables que se Si ítems del instrumento representan adecuadamente a las variables que se

pretenden medirpretenden medir

f.f.Si los ítems son suficientesSi los ítems son suficientes

g.g.Si el protocolo de instrucciones del instrumento es claroSi el protocolo de instrucciones del instrumento es claro

Validez de criterio: Llamada también validez concurrente es más fácil de estimar, lo único que se

debe hacer es correlacionar su medición con el criterio, y este coeficiente se

toma como coeficiente de validez. Un instrumento posee validez predictiva

cuando es capaz de predecir, a partir de los resultados que arroja,

comportamientos futuros.

Ejemplo: supongamos que Fernando trata de medir el grado en que es

aceptado por Laura. Entonces decide que va a tomarla de la mano y observará

su reacción. Supuestamente, si ella no retira la mano, esto indicaría cierta

aceptación, pero para asegurarse que su medición es válida decide utilizar

otra forma de medición adicional, por ejemplo, mirarla fijamente sin apartar la

vista de sus ojos, en apariencia, si Laura le sostiene la mirada, esto sería otro

indicador de aceptación. Así, su medición de aceptación se valida mediante

dos métodos al comparar dos criterios.

La validez de criterio es una medida del grado en que una La validez de criterio es una medida del grado en que una

prueba está relacionada con algún criterio. Es de suponer prueba está relacionada con algún criterio. Es de suponer

que el criterio con el que se está comparando la prueba que el criterio con el que se está comparando la prueba

tiene un valor intrínseco como medida de algún rasgo o tiene un valor intrínseco como medida de algún rasgo o

característica. característica. En este tipo de validez, se debe En este tipo de validez, se debe

predeterminar cuál será el rasgo o criterio que se va a predeterminar cuál será el rasgo o criterio que se va a

correlacionar con los resultados de la prueba. Ambos correlacionar con los resultados de la prueba. Ambos

valores deben estar directamente relacionados en valores deben estar directamente relacionados en

términos de que el rasgo o criterio empírico sea términos de que el rasgo o criterio empírico sea

pronosticable lógicamente a partir de los resultados de la pronosticable lógicamente a partir de los resultados de la

prueba a la cual se le va a medir su nivel o grado de prueba a la cual se le va a medir su nivel o grado de

predictibilidad. Al igual que toda prueba de correlación, predictibilidad. Al igual que toda prueba de correlación,

si los resultados se acercan a 1, mejor será la validez de si los resultados se acercan a 1, mejor será la validez de

criterio del instrumento en cuestión.criterio del instrumento en cuestión.

Validez de constructo: Este tipo de validación busca establecer hasta qué punto un instrumento mide

una variable que es producto de un constructo que intenta describir una

realidad compleja.

Es el caso, por ejemplo de variables como “actitudes hacia discriminación racial”,

“satisfacción en el trabajo”, “clima organizacional”, que suponen cualidades

hipotéticas que explican la conducta de los sujetos. Caso contrario sucedería con

la medición de variables no complejas como “sexo”, “edad”, “nivel de

instrucción”, cuya medición no amerita la construcción de un concepto

complejo, ya que son datos directamente observables en la realidad.

Este tipo supone como paso previo la conceptualización del rasgo o variable que

se pretende medir. Estos conceptos deben ser construidos a partir de una teoría

determinada que explique el fenómeno a estudiar. Sólo así se tendrá claridad de

la manera como se manifiesta en la realidad el atributo que se pretende medir

(Ruíz, 2002).

El cuadro de operacionalización de variables permitirá visualizar de manera

organizada la complejidad de las variables que se van a estudiar si alguna de

ellas supone la combinación de determinados indicadores en virtud de la

conceptualización realizada, es necesario corroborar a través de una prueba

empírica que tal conceptualización es válida, ya que expresa de manera precisa

el comportamiento de la variable en la realidad. De allí, la expresión “Validez de

constructo”.

En última instancia, lo que se pretende a partir de este tipo de validez es confirmar

en la práctica la capacidad explicativa del concepto que se ha construido. Es decir,

si es reflejo del fenómeno que pretende describir.

Para este tipo de validez se utilizan métodos de carácter estadístico.

Prueba de correlación: otra de las pruebas para validar el constructo teórico de un

instrumento es la prueba correlacional. Consiste en correlacionar los valores

obtenidos en la prueba piloto del instrumento que se diseñado, con medidas

obtenidas en estudios similares con otros instrumentos que fueron construidos

para medir las mismas variables.

Otro procedimiento es correlacionar los valores obtenidos por el instrumento que

se está validando con los obtenidos por otras variables cuyo comportamiento está

directamente asociado a la variable en estudio y, por lo tanto, hipotéticamente

predecible.

La confiabilidad se refiere al nivel de exactitud y consistencia La confiabilidad se refiere al nivel de exactitud y consistencia

de los resultados obtenidos al aplicar el instrumento por de los resultados obtenidos al aplicar el instrumento por

segunda vez en condiciones tan parecida como sea posiblesegunda vez en condiciones tan parecida como sea posible.

Bernal (2000:218) afirma que la pregunta clave para determinar la

confiabilidad de un instrumento de medición es:

Si se miden fenómenos o eventos una y otra vez con el mismo

instrumento de medición, ¿Se obtienen los mismos resultados u otros

muy similares? Si la respuesta es afirmativa, se puede decir que el

instrumento es confiable.

La importancia de garantizar la confiabilidad del instrumento viene dada

por el hecho de que las interpretaciones sobre el comportamiento de los

fenómenos estudiados se hacen sobre la base de la confianza que se

tenga en los datos recolectados. Si no se ha demostrado la confiabilidad

del instrumento, siempre habrá un margen de duda sobre la calidad de la

interpretación que se haga a partir de los datos obtenidos.

La Fiabilidad tiene dos grandes componentes:La Consistencia interna: La Consistencia interna: Se refiere al grado en que los distintos ítems, partes o piezas de un test miden la misma cosa. Significa la constancia de los ítems para operar sobre un mismo constructo de un modo análogo.La Estabilidad temporal: La Estabilidad temporal: Se refiere al grado en que un instrumento de medida arrojará el mismo resultado en diversas mediciones concretas midiendo un objeto o sujeto que ha permanecido invariable.

Test-Retest:En este procedimiento un mismo instrumento es aplicado en dos oportunidades o más a un mismo grupo de personas, después de cierto período de tiempo. Si la correlación entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. El valor de la correlación es un valor ubicado entre el –1 y 1. muy baja (0) baja regular aceptable elevado(1)muy baja (0) baja regular aceptable elevado(1) No hay confiabilidad 100% de confiabilidad No hay confiabilidad 100% de confiabilidad El cálculo de este coeficiente se utiliza para mediciones de variables o dimensiones que responden a una escala de medición de intervalo o razón. Es importante que para la aplicación de esta prueba, se tome un lapso de tiempo lo suficientemente largo para que los sujetos se olviden de lo que contestaron y, por el otro, no tanto que se produzcan cambios importantes. (Pérez 1998:72). Algunos expertos opinan que 15 días de distancia entre un test y otro es suficiente. Este tipo de medición se utiliza en investigaciones cuantitativas.

Formas paralelas de un test:Formas paralelas de un test:Este método consiste en:1.Elaborar dos formas paralelas de un mismo test, o lo que es lo mismo, dos test paralelos2.Aplicar una forma del test a la muestra de interés y tras un lapso de tiempo que no relevante para la aparición de cambios en los sujetos, aplicar la segunda forma del test a la muestra3.Calcular el coeficiente de correlación entre las puntuaciones empíricas obtenidas por los sujetos en las dos ocasiones. Si las formas son paralelas esa correlación es el coeficiente de fiabilidad del test

Paso 1: Elaborar formas paralelasPaso 1: Elaborar formas paralelasHay dos tipos de criterios que dos test han de cumplir para ser considerados paralelos1.1.Criterio EstadísticoCriterio Estadístico: Las dos formas presentan medias iguales y variaciones iguales tanto en sus puntuaciones empíricas, como verdaderas y errores (mediciones paralelas) u obtienen las mismas puntuaciones verdaderas, pero no se requiere igual varianza de error (tau-equivalentes)2.2.Criterios de formato y contenido: Criterios de formato y contenido: En la practica dos test paralelos consisten en dos conjuntos distintos de ítems referidos a una misma variable o constructo psicológico , habitualmente con las mismas instrucciones y el mismo formato de prueba de ítems. Pretenden muestrear el mismo contenido con cuestiones formuladas de manera distinta. No puede considerarse formas paralelas aquellas en que la diferencia consiste en que se ha variado el orden de los ítems o el orden de las alternativas.

Paso 2: La aplicación de las formas del testPaso 2: La aplicación de las formas del test1.Las dos formas deben ser administradas en las mismas condiciones, o al menos, bajo los mínimos cambios posibles en las condiciones. Se trata de no introducir factores que puedan provocar cambios en los resultados.2.Respecto al tiempo, debe utilizarse un lapso entre ambas formas, lo suficientemente corto como para que los sujetos no hayan cambiado en la variable de interés y lo suficientemente largo para que factores de memoria, fatiga o entrenamiento tengan el mismo efecto.

Paso 3: Cálculo del coeficiente de correlaciónPaso 3: Cálculo del coeficiente de correlación

Una vez se han administrado las dos formas paralelas se dispondrá de una tabla

de datos con N sujetos por 2 variables, la puntuación en la forma A y en la

forma B para cada sujeto. Se procede entonces a calcular el coeficiente de

correlación de Pearson.

El resultado obtenido puede estar entre –1 y +1, pasando por 0 (ausencia de

relación lineal). En realidad, como se trata de formas paralelas, no tiene sentido

esperar correlaciones negativas debiendo estar el resultado entre 0 y +1,

incluso cabría esperar valores positivos alejados de 0.

• Si A y B son formas paralelas entonces la correlación es el coeficiente de

fiabilidad. Para considerar el test fiable, el coeficiente de correlación obtenido

deber ser alto, de modo que una gran proporción de la varianza de las

puntuaciones se deba a

varianza verdadera.

Es decir, si obtenemos un coeficiente de fiabilidad de 0’75 diremos que tres

cuartas

partes de la varianza empírica del test se deben a varianza verdadera, o lo que

es lo

mismo, que un 25% de la varianza empírica es varianza de error.

Split-halves (Divididas en mitades):Los resultados obtenidos de la aplicación del instrumento se dividen en dos

mitades comparativas; así, a cada sujeto le corresponde dos calificaciones después de una sola aplicación del instrumento. La confiabilidad se obtiene después de correlacionar esas dos calificaciones.

Una manera de resolver el problema de cómo dividir el instrumento es haciendo dos grupos con las calificaciones obtenidas de los ítems pares y nones. Se debe estar seguros que todas las categorías estén representadas en las dos partes para que se divida el instrumento

Se obtienen las puntuaciones de los ítems pares y de los ítems nones, luego ambas se correlacionan. Si ambas puntuaciones son altas se obtendrá un coeficiente de confiabilidad alto.

Coeficiente Alfa de Cronbach.

Es un coeficiente que sirve para medir la fiabilidad de una escala de medida, y cuya denominación Alfa fue realizada por Cronbach en 1951, aunque sus orígenes se encuentran en los trabajos de Hoyt (1941) y de Guttman (1945)

Este método permite medir la consistencia interna del instrumento. Se utiliza en la construcción de escalas en las que no hay respuestas correctas o incorrectas, sino que cada entrevistado responde la alternativa que mejor representa su forma de pensar sobre el objeto que se le pregunta.

Un investigador trata de medir una cualidad no directamente observable (por ejemplo, la inteligencia) en una población de sujetos. Para ello mide n variables que sí son observables (por ejemplo, n respuestas a un cuestionario o un conjunto de n problemas lógicos) de cada uno de los sujetos.Se supone que las variables están relacionadas con la magnitud inobservable de interés. En particular, las n variables deberían realizar mediciones estables y consistentes, con un elevado nivel de correlación entre ellas.El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida para la magnitud inobservable construida a partir de las n variables observadas.

El alfa de Cronbach no es un estadístico al uso, por lo que no viene acompañado de ningún p-valor que permita rechazar la hipótesis de fiabilidad en la escala. No obstante, cuanto más se aproxime a su valor máximo, 1, mayor es la fiabilidad de la escala. Además, en determinados contextos y por tácito convenio, se considera que valores del alfa superiores a 0,7 o 0,8 (dependiendo de la fuente) son suficientes para garantizar la fiabilidad de la escala.

Coeficiente KR20: El KR20 es un indicador de la fidelidad (consistencia interna). Los métodos basados (Rulon, Alfa de Cronbach, Spearman, Brown) en la división en dos porciones (presumiblemente iguales) da desventaja de ser relacionado con las opciones de la partición (véase la mitad igualdad-impar, de la primera y segunda parte, al azar).

Kuder y Richardson desarrollaron un procedimiento basado en los resultados obtenidos con cada ítem. De hecho, hay muchas maneras de precisar otra vez los ítems (reactivos) en 2 grupos, que pueden conducir a las estimaciones diferentes de la consistencia interna.Esta es la razón por la cual Kuder y Richardson consideren tantas (n) partes en la prueba de acuerdo a los ítems (n).En los métodos de partición en dos, (conocido también como bisección) supone para cada parte ser equivalente ( las formas paralelas ). Para el KR20, la misma lógica se adopta en el nivel de los ítems. Es lo que uno llama unidimensional.El KR20 se aplica en la caja dicotómica de ítems.Uno calcula el KR20 como sigue:

= variación de las cuentas de la prueba.N = a un número total de ítems en la pruebapi = es la proporción de respuestas correctas al ítem I.Índice de inteligencia = proporción de respuestas incorrectas al ítem I.

Se puede mostrar que el KR20 es el promedio de los Índices de la fidelidad el cuál se obtendrá si se calcula la fidelidad para todas las particiones posibles en dos. Para ilustrar la aplicación del KR n° 20 de la fórmula de Kuder-Richardson, se puede tomar un ejemplo ficticio de una examen de 10 preguntas en el que se calcula el coeficiente de la consistencia interna. El vector 5,4 contiene la cuenta obtenida por cada pregunta así como la cuenta total del examen. Miremos al primer alumno, "Eric", que contestó correctamente a seis preguntas entre las 10 preguntas del examen. Las preguntas correctas son, B, C, D, E, F, y que falló en las preguntas G, H, I, J. Verticalmente, todos los alumnos tuvieron éxito en la pregunta (a) , mientras que solamente dos alumnos tuvieron éxito en la pregunta (J).

validez y confiabilidad de instrumentos de medición en investigación cuantitativa

Economy & Finance