pruebas estandarizadas y evaluacion rendimiento j.m. jornet meliá y j.m. suárez rodríguez

7/29/2019 pruebas estandarizadas y evaluacion rendimiento J.M. Jornet Meli y J.M. Surez Rodrguez

1/12

Revista de Investigacin Educativa - Vol. 14, n. 2, pgs. 141-163

PRUEBAS ESTANDARIZADAS Y EVALUACIN DEL

RENDIMIENTO:

USOS Y CARACTERSTICAS MTRICAS

J.M. Jornet Meli y J.M. Surez Rodrguez'

RESUMEN

En este artculo presentamos algunas reflexiones sobre e l uso de las pruebas estandarizad as

para la evaluacin del rendimiento. Se propone una tipologa de pruebas cuyos componentesson: pruebas como Indicadores de resultados, pruebas de certificacin y de admisin, pruebas dedominio, pruebas de clase y pruebas individualizadas. Para cada tipo de prueba se revisan laspropiedades mtricas qu e se derivan de los objetivos, caractersticas y finalidad de las pruebas.

ABSTRACT

In this article we present so me reflections about the use of the standarize d tests for ach ieve-ment evaluation. It is proposed a test typology whose components are: tests as outcomeindicators, certification and admission tests, domain tests, classroom tests and tailored tests.The measurement properties derived from the tests objectives, characteristics and purpose arereviewed for each kind of test.

1Dpto. Mtodes d'Investigaci i Diagnstic en Educaci. Universitat de Valencia (Estudi General).Avda. Blasco Ibez, 21. 46010-Valencia. Tl. y Fax: 96/3864430. E-mail: [email protected]/[email protected]
mailto:[email protected]:[email protected]:[email protected]:[email protected]


2/12

142 J.M. Jornet Meli y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 143

I NTRODUCCIN

La utilizacin de pruebas Estandarizadas en el mbito Educativo es muy frecuente.En la literatura se utilizan cotidianamente trminos que denominan diversos tipos deinstrumentos que aluden a este tipo de pruebas: Tests Referidos al Dominio, TestsReferidos a Objetivos, Tests de Competencia, Tests de Certificacin, Tests de Domi-nio, Tests referidos al Criterio, etc.... No obstante, en nuestro medio sociocultural, su

uso es ms bien escaso y, ciertamente, son pocas las pruebas estandarizadas de Rendi-miento que se hayan desarrollado en nuestro pas y para nuestro sistema educativo.Las razones que estn a la base de este fenmeno pueden ser diversas, pero desdenuestro punto de vista, los usos equvocos de este tipo de pruebas han arraigado laconcepcin de que son poco tiles a efectos evaluativos y que, en todo caso, su usoest indefectiblemente ligado a corrientes pedaggicas que atienden poco a las carac-tersticas de los individuos. Obviamente, esta posicin que atribuimos a buena partede los detractores de las Pruebas Estandarizadas est simplificada y, probablemente,sera matizada de diversas formas, sin embargo quiz es la posicin ms generalizadaentre ellos.

Desde nuestro punto de vista, el problema normalmente radica en que se pretendede las pruebas estandarizadas usos e interpretaciones para los que normalmente nohan sido construidas y, en ocasiones, se desarrollan con esquemas de elaboracin quehan sido diseados metodolgicamente para objetivos evaluativos diferentes.

Generalmente, la inadecuacin de las pruebas est en parte debida a que los crite-rios de construccin de pruebas se presentan de manera indiferenciada. Aunque sonpocos los Modelos de Medida disponibles, las variaciones en su aplicacin pueden sermltiples. En la adaptacin precisa de estos elementos radica buena parte de la cali-dad de las pruebas estandarizadas. Por adaptacin nos referimos en este caso al ajustede los mtodos, procedimientos y tcnicas de elaboracin a las caractersticas concre-tas de la prueba que se desea construir. Estas caractersticas son, a su vez, consecuen-cia del compromiso de diversos factores como son: el objeto de medida, finalidad/usode la prueba y las caractersticas de las personas a las que se desea evaluar a travs dela prueba. En este contexto, puede ser de inters realizar algunas reflexiones acerca delos componentes generales de actuacin en la elaboracin de pruebas estandarizadas,que permitan un mayor aprovechamiento de stas para los procesos evaluativos.

DIMENSIONES DE CLASIFICACIN DE LAS PRUEBAS ESTANDARIZADAS

En la literatura especializada en Medicin y Evaluacin se identifican una grancantidad de trminos referidos a pruebas estandarizadas. Ante esta diversidad esconveniente determinar algunas dimensiones que nos permitan abordar su clasifica-cin. Entre estas dimensiones nos centraremos en aqullas que estn relacionadas conlos componentes mtricos o metodolgicos de su elaboracin. En este caso, el grado deestandarizacin no entra a formar parte de las dimensiones de clasificacin, dado quees una caracterstica constante en todas las pruebas a las que aqu nos referiremos.

Como sealamos en la introduccin a este artculo, los tipos de pruebas devienen

de la confluencia de diversos factores. En ellos, podemos identificar dimensiones dedefinicin que afectan a la construccin de las pruebas. Generalmente estas dimensio-nes son de carcter bipolar y definen un eje en el cul pueden situarse las caractersti-cas de cada prueba de forma gradual. As, comentaremos brevemente cada dimensinidentificndola con sus polaridades. En todos los casos, al entenderse que estas di-mensiones son graduales, cabe establecer un elemento de clasificacin intermedio, quecorresponden a "enfoques mixtos", que por no ser reiterativos obviaremos en la

exposicin subsiguiente de dimensiones. Caractersticas del Objeto de Medida. Las caractersticas del Dominio Educativo2 a que

va dirigido la prueba es un elemento de definicin bsico que condiciona, desde loselementos de Validez, el conjunto del desarrollo de la prueba. El Dominio Educati-vo constituye el Universo de Medida desde el que se extraen los componentes de laprueba y al que se pretende representar desde ella. Sin entrar en los factoresespecficos de los tipos de contenidos educativos, las dimensiones a tener en cuentapara orientar el desarrollo de las pruebas son las siguientes:1. Amplitud del Dominio Educativo (Dominios amplios vs. reducidos).2. Lmites del Dominio Educativo (Dominios con limites difusos/no-finitos vs.

Dominios con lmites concretos / finitos).3. Dimensionalidad del Dominio Educativo (Dominios Multidimensionales vs.

Unidimensionales).

Caractersticas de la poblacin a que va dirigida la prueba. Afecta fundamentalmente ala eleccin del Modelo de Medida y la seleccin de indicadores que permitan elanlisis adecuado del ajuste de las caractersticas de la prueba a las de la poblacin.Las dimensiones ms relevantes son:4. Amplitud de la poblacin (Poblacin extensa vs. Reducida).5. Grado de diversidad de la poblacin'(Poblacin Heterognea vs. Homognea).

Finalidad y uso de la prueba. La Validez no es en s misma una caracterstica imputa-ble a una prueba, es ms bien el uso que se pretende realizar de las puntuacionesde ella derivadas lo que debe analizarse como elemento de validacin (Hambleton;1984). As, la utilizacin que se desee realizar de la prueba tiene consecuenciasdesde la definicin del Dominio Educativo hasta el establecimiento de Estndaresde puntuacin. Las dimensiones ms importantes que pueden identificarse en este

punto son:6. Decisiones asociadas al uso de la prueba (De carcter Formativo vs. Sumativo).

7. Unidades sobre las que se pretenden tomar decisiones (Individuos vs. Grupos). Caractersticas del tipo de Interpretacin de puntuaciones. Como en el caso anterior,estos elementos afectan a todo el desarrollo de la prueba. La dimensin central aque pueden reducirse estas caractersticas es:8. Tipo de Estndar de referencia (Normativo vs. Criterial).

2 Por Dominio Educativo nos referimos al conjunto de objetivos, contenidos, actividades y tareas queconstituyen el objeto de la educacin, sea en general sea en un programa concreto (Jornet y Surez, 1989a).


3/12

144 J.M. Jornet Melid y J.M. Sudrez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 145

El cruce de estas dimensiones puede servir para identificar las caractersticas dediversos tipos de pruebas estandarizadas y orientar los componentes especficos desus procesos de elaboracin. Una propuesta, aunque no exhaustiva, de tipologa depruebas estandarizadas se recoge en el Cuadro 1. Los elementos metodolgicos y losaspectos que entendemos ms relevantes en su construccin los comentaremos acontinuacin.

PRUEBAS DE AMPLIO ESPECTRO

En este apartado revisamos las caractersticas y usos de pruebas de Rendimientoque se orientan a la evaluacin de grandes reas o Dominios Educativos. En estacategora incluimos las pruebas que se utilizan como Indicadores de Resultados para

CUADRO 1TIPOS FUNDAMENTALES DE PRUEBAS ESTANDARIZADAS VALORADOS

RESPECTO A OCHO DIMENSIONES BSICAS DE CARACTERIZACIN

Tipo de Prueba

Estandar izada

DIMENSIONES DE VALORACIN

Amp litu d

del Dominio

Educativo

Lmites

del Domin io

Educativo

Dimen-

sionalidad'

Amp litu d

de la

Poblac in

Grado de

diversidad

de la

Poblac in

Decisiones

Aso ciad as

Unidades

sobre las

qu e se

decide

Tipo de

Estndar

D E A M P L I O E S P E C T R O :

Indicadores DeResultados

Certificacin Admisin

Amplio No-finitos

Difusos

Multidimen-

sionales

Amplia /

Mu y

amplia

Hetero-

gnea

Formati-

vas/Sumativas

Grupos Mixto:

No rma tivo

Sumativas Individuos No rma tivo

Criterial

D E N I V E L o D O M I N IO Mixto Mixto Multidimen-

sionales

Intermedia

/ Amplia

Mixto Sumativas Individuos Criterial

D E C L A S E Reducido Finitos

Concretos

Unidimen-

sionales

Reducida /

Mu y

reducida

Ho m o g-

nea

Formati-

vas/Sumativas

Individuos Criterial

D E P R O P S I T O

D I A G N S T I C O

Mixto Finitos

Concretos

Mixtos Amplia/

Reducida

Heterog-

nea

Formati-

vas

Individuos No rma tivo

Criterial

I N D I V I D U A L I Z A D A S Reducido Finitos

Concretos

Unidimen-

sionales

Reducida Homog-

nea

Formati-

vas/

Sumativas

Individuos

y/o

Grupos

Criterial

3 Hace referencia a Ia s caractersticas originales del Dominio Educativo. Todas las pruebas es precisoadecuarlas a Universos Unidimensionales, por lo que en el caso de u niversos multidimensionales, sefocalizan las pruebas sobre regiones especficas del Dominio.

el Anlisis y/o Evaluaciones de Sistemas Educativos, Centros y Programas, pruebasde Certificacin y pruebas de Admisin.

Pruebas Estandarizadas como Indicadores de Resultados.La actividad evaluativa forma parte de la cultura de gestin de los Estados demo-

crticos. En el mbito pedaggico pueden observarse diversos modelos y enfoques deEvaluacin de los sistemas educativos en los que confluyen indicadores de diferentendole.

Para la construccin de indicadores de resultados, parece claro que cuando seaborda el anlisis de un Sistema Educativo, de un Programa o de un Centro, uno delos indicadores a tener en cuenta aunque no de forma exclusiva son los resultadosesenciales del programa (De Miguel, et al., 1994; Prez Juste y Martinez Aragn, 1989;Tejedoret al., 1994).

En estos contextos es necesario utilizar pruebas estandarizadas que "traduzcan"los niveles de competencia que en las diferentes disciplinas y materias, una sociedadasume como objetivo educativo.

En este sentido, no es posible abordar un anlisis adecuado de un sistema o unPrograma si no se cuenta con pruebas estandarizadas de probada fiabilidad y validez.

As, buena parte de los modelos de evaluacin de Sistemas Educativos basados enindicadores' incorporan indicadores de resultados del aprendizaje de los alumnossustentados sobre pruebas estandarizadas, diferencindolos de las calificaciones esco-lares o de otros indicadores de sntesis (como las tasas de egresados) que suelen

identificarse como Resultados del Sistema. En los campos de la evaluacin de centrosy de programas tambin resulta habitual la utilizacin de estas pruebas como indica-dores. Mayor tradicin, si cabe, tiene la utilizacin de pruebas de este tipo comoindicadores para actuaciones evaluativas a la medida en muy diversos niveles educa-tivos, mbitos de referencia y objetivos (a partir de los servicios de instituciones comoel ETS en USA, el APU para Inglaterra, Gales e Irlanda del Norte; o el CITO en elcontexto holands-alemn).

Qu componentes estn implicados en la elaboracin de estas pruebas?La definicin del Dominio a que se refieren estas pruebas debe realizarse por un

Comit de Expertos en la Materia objeto de evaluacin, apoyados por especialistas enMedicin y Evaluacin como asesores metodolgicos. Los problemas que deben en-frentar este tipo de Comits son variados y de su adecuada solucin depende en

4 Existen sistemas de indicadores que permiten la comparabilidad entre diversos pases y utilizan un

nmero re lat ivamente reducido de pruebas como es e l caso de la O CDE (CERI / INES;1995) o la ComunidadEuropea (West et al., 1995). A un nivel intermedio se encuentran los programas desarrollados por la IEA(Post lethwaite, 1987), f inalmente existen otros ms completos en cuanto a la informacin que emplean sobreproductos educat ivos como el s istema federal USA (SSPEI, 1991) o algunos otros s istemas ms recientes quese estn impulsando en el mbito iberoamericano (por ejemplo la propuesta de Martnez Rizo; 1996). En

nuestro pas, el Instituto Nacional de Calidad y Evaluacin (INCE) est desarrollando pru ebas comoindicadores de resul tados del sistema educativo, habindose comenzado a publ icar los pr imeros resul tados(Gi l , Gonzlez y Surez, 1995; INCE, 1996).


4/12

146 J.M. Jornet MeliyJ.M. Surez Rodrguez Pruebas estandarizadasyevaluacin del rendimiento 147

buena medida la validez y utilidad de las pruebas resultantes. Pasamos a revisarbrevemente los elementos que caracterizan mtricamente el desarrollo de estas prue-bas y, en consecuencia, condicionan su uso.

El Dominio Educativo, como Universo de Medida, suele ser muy amplio, referidogeneralmente a una materia o disciplina considerada en funcin de los objetivosterminales de todo un perodo educativo (por ejemplo, las Matemticas o el Lenguajeen la Primaria, o al final de la Secundaria) o, a lo sumo, se focalizan sobre grandes

dimensiones de las mismas (Medida o Algebra, Comprensin Lectora...). Adems, loslimites del Dominio suelen ser difusos, dado que junto a la amplitud del mismo, sesuma como dificultad aadida en la definicin del Dominio el hecho de que suelen serpruebas cuya finalidad es la evaluacin en una gran poblacin de sujetos, afectadospor muy diversas aplicaciones de los Diseos Curriculares de referencia, desarrolla-dos sobre diferentes modelos didcticos.

Este hecho conlleva que nos encontremos ante Dominios en la prctica no-finitos,en los que no es posible establecer una estrategia de muestreo probabilstico desde elUniverso de Medida para configurar la Pruebas. De esta forma, la definicin delDominio debe realizarse sobre productos educativos esenciales, equiprobables a tra-vs de diferentes subpoblaciones y que mantengan sus parmetros fundamentalesinvariantes en las subpoblaciones identificables en la poblacin.

Una dificultad adicional en la definicin de este tipo de Dominios reside en que,por la amplitud del Universo de Medida, generalmente no son unidimensionales y

estn apoyados en constructos tericos dbiles', con pocas evidencias de validacin.En este tipo de pruebas, los avances mas claros corresponden a estructuracionesdimensionales por el nivel cognitivo que implican las tareas-tems.

As, si bien la base de desarrollo de la definicin del Dominio recae sobre el juiciode expertos, tambin es cierto que su comprobacin se sustenta fundamentalmentesobre comprobaciones estructurales basadas en el anlisis emprico de los resultadosde las pruebas. En este sentido, un problema adicional que encontramos en estosdesarrollos es que la comprobacin de la Unidimensionalidad7 es difcil, pues, aunqueexistan propuestas metodolgicas especficas para este tipo de anlisis con variablesdicotmicas, ciertamente los resultados son insatisfactorios dado que las dimensionesen muchas ocasiones se identifican por la dificultad de los Items y no son interpreta-

bles desde los contenidos.Por ello, en las estrategias de desarrollo de este tipo de pruebas es especialmente

5 Ante la imposibilidad de concretar todos los miembros del Universo de Medida, se pasa a utilizarestrategias de representacin fundamentadas en tipologas bsicas o elementos clave en la estructura delDominio.

6 Es decir, no suelen estar desarrollados a partir de una teora de aprendizaje que, de manera holsta,globalice y de sentido a la estructuracin y funcionalidad de la prueba.

7 Siendo este un supuesto bsico sobre el que se sustenta la medida desde cualquiera de los modelosactualmente existentes y que se enraiza en la informacin que se extrae en cada elemento de la prueba(Hambleton y Swaminathan, 1985; Osterlind, 1992). Aunque se han planteado algunas alternativas parasuperar este problema, como los trabajos de Reckase (1979) o Samejima (1974), hasta el momento no sepueden considerar como autnticas opciones disponibles.

importante el trabajo realizado por el Comit de expertos, anticipando la estructuraterica posible del Dominio e identificando regiones en el mismo, de forma que paracada uno de los subdominios se configuren pruebas especficas.

Junto a los problemas tericos contemplados en lneas anteriores, es preciso consi-derar en la definicin del Dominio de estas pruebas, algunos aspectos de orden prc-tico ligados a la funcionalidad de las mismas. Si se desea desarrollar pruebas quesirvan como Indicador de Resultados y utilizarlas en evaluaciones sucesivas, no es tilconfigurar una sola prueba'. La alternativa de elaborar Formas Paralelas es compleja ydifcil de lograr. En este marco, la creacin de Bancos de Reglas de Generacin deElementos' lo ms deseable o Bancos de tems lo ms frecuente se configurancomo alternativas que nos acercan a la posibilidad de disponer de pruebas aleatoria-mente paralelas o al menos equivalentes.

En este contexto de desarrollo es especialmente importante el trabajo que realiza elComit de expertos en cuanto a la formulacin y revisin de tems. As, un aspectocrucial en la elaboracin de este tipo de pruebas es el Anlisis Lgico de tems que secentra sobre diferentes elementos.

En primer lugar, respecto a la seleccin inicial de tems, es conveniente basarla endos dimensiones del contenido: a) la importancia de los tems, y b) su dificultadterica. Esta consideracin de dos dimensiones facilita que los tems sean propuestosy seleccionados desde la idea, antes sealada, de que que representen conocimientos ohabilidades esenciales, cubriendo a su vez diferentes estratos de dificultad. Desde estaestrategia se evita que la seleccin de tems se contamine con la idea de "mnimacompetencia", la cual, en ocasiones, es entendida como expresin de la dificultad yno de la importancia: este hecho constituye una desviacin frecuente del trabajo deestos comits.

Otro elemento a tener en cuenta en la formulacin de los tems es su calidadtcnica, la cual es necesario revisar inicialmente por procedimientos lgicos y, poste-riormente, basndose en resultados de ensayos piloto. En el caso de utilizacin deItems de Eleccin Mltiple, el anlisis de distractores debe constituir un trabajo centralde este aspecto. As, es tanto ms importante el control y la anticipacin de la dificul-tad y la adivinacin desde la formulacin de los tems, que desde el anlisis empricode resultados.

Junto a estos elementos, el anlisis del Sesgo supone un aspecto clave para lavalidez de este tipo de pruebas. Debe tenerse en cuenta que stas son pruebas destina-das a la Medicin y Evaluacin de un Dominio en una amplia poblacin de referencia.

De esta manera, es conveniente anticipar en el anlisis lgico las variables que podran

8 Una sola aplicacin de una prueba de estas caractersticas puede inhabilitar su uso. Una vez esconocida una prueba de este tipo puede ser utilizada como objeto directo de aprendizaje.

9 Son procedimientos que concretan de forma unvoca al tem de forma que su escritura se tornaautomtica, entre ellos los ms destacados son los que se recogen en Roid y Haladyna (1982). Aunquelentamente, los procedimientos han ido evolucionando para tratar de hacer frente a la evaluacin de laactuacin en tareas complejas, incrementando el nivel cognitivo de la evaluacin (por ejemplo, los conjuntosde tems tem sets desarrollados por Haladyna 1992, o el modelado de tems desarrollado porLa Duca La Duca et al. 1986).


5/12

Pruebas estandarizadas y evaluacin del rendimiento 149148 J.M. Jornet Meli y J.M. Surez Rodrguez

actuar como fuente de sesgo. No vamos a extendernos aqu en estos aspectos, dadoque han sido anteriormente expuestos en esta Revista (Jornet y Surez, 1990; Ordea -na,1991); sin embargo, en este tipo de pruebas es bsica la independizacin del sesgo,el cual puede provenir de diferentes fuentes como el Sexo, el mbito territorial, losniveles socioculturales o socioeconmicos, la Lengua, etc...

El control de todos estos elementos se basa en dinmicas de juicio bien estableci-das, en las que en la sntesis de resultados se utilizan procedimientos de anlisis de laconsistencia inter-jueces.

En este sentido, hay que destacar la necesidad de los procedimientos de juicio, elestudio de las dinmicas ms adecuadas a seguir por parte de los Comits y de lostipos de anlisis a realizar, tanto como elementos de sntesis de la opinin de losComits, como para detectar jueces que aportan valoraciones extremas, etc.

La Validez de las pruebas se asienta sobre procesos de anlisis terico de loscomponentes de medida y la revisin lgica de todas las unidadesl. Es fundamentalreconocer el valor de los procesos de juicio en este mbito, los cuales debern seratendidos adecuadamente. No obstante, un problema habitual que se contempla eneste tipo de pruebas es que muchas de ellas se sustentan ms sobre el Modelo deMedida utilizado que sobre el anlisis terico del Dominio Educativo. Por mencionartan slo uno de los elementos clave en que se asienta la Validez de Constructo. Dehecho, el problema estriba en que los principios que se refieren a la validez y que estnrecogidos en cualquiera de los modelos de medida no son sino una parte relativamen-

te reducida de los indicios que definimos como facetas de la Validez de Constructo(Angoff, 1988). Por ello las aportaciones de los modelos de medida deben entenderseen un plano instrumental dentro de la estrategia global de validacin y no a la inversa.

Qu Modelo de Medida es ms adecuado en este contexto?Si se pretende utilizar estas pruebas sobre una poblacin amplia, la base mtrica

necesariamente se encuentra en la Teora de Respuesta al tem que favorece el desarro-llo de pruebas sobre parmetros invariantes de los tems y que permiten una gradua-cin adecuada de los tems asociados con la habilidad general que mide la prueba(Hambleton y Swaminathan, 1985; Weiss y Yoes, 1991). No obstante, estos modeloshan demostrado su adecuacin, hasta el momento, con dos condiciones bastante pre-cisas no existiendo un acuerdo generalizado sobre su utilizacin cuando alguna deellas no se cumple. La primera condicin resulta de la unidimensionalidad del cons-tructo y la segunda del tamao de la poblacin referente para establecer la invarianza(Linn, 1990; Osterlind, 1992).

Un elemento adicional, que gua la seleccin de Indicadores tanto para el Anlisisde tems, como para la Fiabilidad, es el tipo de interpretacin de las puntuaciones quese requiere. As, la dicotoma Normativa-Criterial est a la base de esta seleccin.

Las pruebas estandarizadas de Rendimiento como Indicadores de Resultados noson interpretadas individualmente, por lo que, en principio, no sera necesario ningnelemento que coadyuve a Ia interpretacin. As, respecto a la seleccin de indicadores,

10 Y debe ser refrendada por la acumulacin de evidencias empricas, tanto desde una base de inves-tigacin experimental como correlacional.

el Anlisis de parmetros de los tems y el sesgo, junto a comprobaciones de lafiabilidad como consistencia global seran suficientes para un planteamiento mtricoadecuado de las pruebas.

Sin embargo, el contexto de uso de estas pruebas aunque no requieran de unEstndar para la interpretacin individual de puntuaciones lleva a que se necesitealgn procedimiento global. De este modo, estas pruebas se utilizan en Evaluacionessobre la Calidad de un Sistema, un Centro o un Programa y, por ello, debe tenerse encuenta que de no acompaarse de ningn elemento interpretativo la Evaluacin que-dar en el terreno meramente descriptivo.

En ste mbito, las informaciones normativas son indudablemente la base de an-lisis y la referencia ms clara respecto a las caractersticas del Dominio evaluado. Noobstante, es conveniente que el Comit de Expertos que desarrolla el Anlisis y Espe-cificacin del Dominio establezca adems un Estndar" basado en juicio queidentifique, al menos, los niveles mnimos de competencia aceptables como indicadorde suficiencia del sistema. El Estndar operativiza la idea de calidad. Este tipo deEstndares, son especialmente tiles en estudios Longitudinales, pues es conocido quecuando trabajamos con grandes muestras, pequeas diferencias se identifican comodiferencias estadsticamente significativas, y es necesario algn tipo de criterio quenos permita valorar la "cualidad de la diferencia".

Para el desarrollo de este tipo de Estndares se puede trabajar desde Metodologasespecficas de Estndares basados en los Items. Son especialmente de inters para este

tipo de pruebas los procedimientos desarrollados para situaciones multivariadas dedecisin, como por ejemplo las propuestas de modificacin del mtodo de Angoff(Hambleton y Plake, 1995), el procedimiento de Jaeger (1993) o la sntesis formulada

por Putnam, Pence y Jaeger (1995). Estos procedimientos abordan la toma de decisio-nes en tareas complejas, partiendo de la base de que lo que se busca es un perfil deejecucin a travs de un conjunto de dimensiones relevantes; lo que es el caso de unabuena parte de las situaciones que se encuentran dentro de este tipo de pruebas. Endefinitiva, constituyen un avance en la linea de operativizar la idea de calidad a partirde los contenidos evaluados, reteniendo la complejidad consustancial a la magnituddel Dominio a que se refieren este tipo de pruebas.

Pruebas Estandarizadas de Certificacin y de Admisin.

Estas pruebas tienen por objeto recoger la informacin que permita certificar queuna persona ha superado administrativamente un determinado nivel educativo o que

tiene los conocimientos necesarios para ser admitido en un programa de formacin deamplio espectro, por ejemplo, en la enseanza universitaria12. Son pruebas que, por

11 Entendemos por Estndar la puntuacin en el Dominio que indica el nivel mnimo de competencia.Se trata de la expresin de este nivel en la Escala de puntajes verdaderos, tericos, libres de error (Jornet ySurez, 1989b).

12 En nuestro pas existen pocas experiencias an desarrolladas con este tipo de pruebas. Estudios deinters a este respecto son los de Tourn (1985) y Toca y Tourn (1989), en el mbito universitario, o enrelacin a la Educacin General Bsica los trabajos llevados a cabo por Rivas et al. (1986), que desarrollaronuna lnea de investigacin que condujo a la elaboracin de pruebas para los finales de Ciclo en la EGB endiversas materias.


6/12

150 J.M. Jornet Melid y J.M. Surez Rodrguez Pruebas estandarizadas y evaluacin del rendimiento 151

tanto, se orientan a un universo instruccional muy amplio, cuya definicin es bsica-mente emprica es decir, muy operativizada, y que se centran muy especialmenteen el producto educativo.

As, si se pretende establecer un nivel generalizado que certifique unos conoci-mientos mnimos para superar la Secundaria Obligatoria, obviamente estamos ha-

blando de abordar la medicin y evaluacin de un Dominio educativo que se extiendea lo largo de cuatro aos y que est concretado en un nmero importante de materiasdiferenciadas. Adems, parece razonable tener presente que para esta situacin noexisten aportaciones tericas que nos permitan extraer conclusiones cindonos a lavaloracin de unas cuantas dimensiones. Como mucho, podremos efectuar una defini-cin bastante pormenorizada del Universo de Medida eligiendo algn punto de refe-rencia como pueden ser los textos legales que reflejan las orientaciones y objetivosnecesarios en estos niveles. En relacin directa con esta cuestin, si no se dispone deun marco terico slido de referencia y se debe abarcar un universo muy amplio es

bsicamente imposible abordar una evaluacin del proceso, por lo que estas pruebasse suelen concentrar en la valoracin del producto educativo. Las reglas de conexinentre el Universo de Medida de referencia y la prueba concreta no se pueden especifi-car de forma exhaustiva, por los mismos motivos que acabamos de apuntar.

Las referencias a la definicin del Dominio Educativo, que sealamos para laspruebas anteriores, son aplicables aqu. nicamente debe tenerse en cuenta que en laseleccin de unidades del Dominio prevalecern los juicios acerca de la relevancia delos Items como expresin de competencia, dado que ello es especialmente importantepara poder establecer el Estndar.

Qu tipo de interpretacin se requiere en estas pruebas?

A diferencia de las pruebas descritas anteriormente, hay que considerar que apartir de estas pruebas se pretende realizar una interpretacin especfica del nivel decompetencia de cada persona, por lo que el planteamiento global de desarrollo de laspruebas vara sustancialmente en la seleccin de indicadores. Precisamente debido aesta referencia individual en el objetivo de valoracin, en este contexto, cuando setrata de la valoracin de personas pertenecientes a una poblacin muy amplia resultaespecialmente importante enfatizar el anlisis del sesgo para asegurar la equidad de laevaluacin.

El establecimiento del estndar de superacin es difcil que se refiera exclusiva-mente a un valor absoluto. En este sentido, hay que tener presente que la propiaamplitud y heterogeneidad del contenido hacen muy difcil poder definir exactamentecul es el nivel mnimo exigible mediante objetivos o conocimientos especficos aun sujeto para alcanzar el nivel de competencia. Adems, estas pruebas afectan alconjunto de la sociedad y, por ello, deben participar muy directamente en este procesode decisin los diversos colectivos implicados. As, es conveniente llevar a cabo unproceso de determinacin del estndar de tipo mixto, integrando los criterios absolu-tos con las consecuencias que de su aplicacin se derivaran para diferentes colectivos.

De este modo, es muy importante tener en cuenta en este trabajo la minimizacinde los Errores de Seleccin, por lo que las labores de adecuacin del Estndar como

Punto de Corte'3 son especialmente relevantes. La determinacin de la puntuacin decorte debe desarrollarse a partir de un proceso iterativo en el que se conjuguentcnicas de juicio con anlisis empricos y en el que el estudio de las consecuencias deaplicacin del Estndar moderen las aplicaciones de juicio. En este contexto es bsicala retroalimentacin de informacin al Comit de Expertos que desarrolla las pruebas.

En estos procedimientos se tiende a seleccionar la puntuacin de corte como aque-lla que maximiza la fiabilidad y minimiza los Errores de Seleccin (tipo I y tipo II). Noobstante, atendiendo a la Razn de Pase14

, si es que est prefijada, el Comit deExpertos puede valorar la utilidad diferencial de asumir decisiones con Error tipo I otipo II, de forma que se integren en la determinacin de la puntuacin de corte lacomposicin de aquellos errores evaluativos que resulte menos lesiva para el adecua-do uso del estndar.

Como en el caso de las pruebas anteriores estas pruebas deben sustentar su desa-rrollo como Modelo de Medida sobre la Teora de Respuesta al tem. Sin embargo, enla seleccin de indicadores para el anlisis de tems y para la fiabilidad es preciso teneren cuenta la existencia del estandar criterial. Por ello, en la determinacin de lafiabilidad deben contemplarse indicadores de Consistencia de la Decisin, de formaque pueda valorarse la capacidad de la prueba para diferenciar, al menos, entresujetos que tienen y no tiene el nivel mnimo de competencia en el Dominio deReferencia. Por su parte, en el analisis de tems se atender especialmente a la identi-ficacin de indicadores de discriminacin, en los que debern incluirse formulaciones

que tengan en cuenta adems de la capacidad global de discriminacin la actua-cin consecuente con el Punto de Corte fijado.

Pruebas de Nivel y de Dominio.

Las pruebas de Nivel y las de Dominio las podemos considerar como variacionesde las anteriores, diferencindose en virtud de la amplitud del Dominio Educativo aque se refieren que es ms reducido o bien en relacin a la amplitud de lapoblacin a la que van dirigidas que tambien suele ser ms especfica. Tienen enparte por tanto unos objetivos y caractersticas semejantes a las anteriores. En estecaso, nos estamos refiriendo a pruebas que aporten informacin, por ejemplo, sobre siun estudiante ha alcanzado el nivel suficiente como para pasar de un curso a otro enuna materia, o bien si ha superado los niveles mnimos exigidos en un programa deformacin concrete por ejemplo, un programa de reciclaje para docentes sobretcnicas de observacin en el aula. El hecho de referirse a un programa educativo

mucho ms concreto conlleva diferencias sustanciales que se pueden sintetizar en lassiguientes:

13 Entendemos por Punto de Corte aquella puntuacin en la prueba que expresa el nivel mnimo decompetencia. Proviene del Estndar y constituye el ajuste emprico del mismo, teniendo en cuenta criteriosde fiabilidad (Jornet y Surez, 1989b).

14 % de sujetos que pueden ser admitidos, por ejemplo, en un programa.15 Se ha informado de algunos desarrollos especficos de pruebas insertas en Modelos evaluativos

que podran ser identificables en esta categora como los trabajos de Rodrguez Lajo (1986), Jornet (1987) yJornet et al. (1993).


7/12


a) se puede dar una definicin del universo de referencia tanto emprica comoterica esto ltimo especialmente en los programa ms concretos,

b) se puede aspirar a la valoracin del proceso y no slo del producto. Al serpruebas referidas a dominios ms concretos cabe identificar unidades en elDominio, a partir de las cuales se puedan realizar inferencias acerca de losprocesos,

c) las reglas de conexin entre el universo y la prueba estn mucho ms determi-nadas en numerosas ocasiones completamente determinadas,

d) en el anlisis de tems, junto a los indicadores de los parmetros bsicos resultade inters (al ser pruebas de nivel o de evaluacin de un programa especfico) lasensitividad instruccional, como expresin de la capacidad de los tems paradiscriminar las adquisiciones propias del programa,

e) la amplitud de las poblaciones de referencia puede condicionar el Modelo deMedida adecuado a cada caso. As, se debe distinguir entre las pruebas que seorientan a poblaciones amplias y las que se destinan a mbitos ms concretos.Por ejemplo, hay que diferenciar entre una prueba de Clculo para primero dePrimaria aplicable a estudiantes valencianos y otra destinada a evaluar la com-petencia alcanzada en un programa de formacin para la participacin de Equi-pos Directivos de Centros. El Dominio se concreta en ambos caso, pero laprimera situacin va dirigida a una poblacin amplia y le son aplicables losmismos referentes de Medida que los ya comentados en los casos anteriores,

mientras que en la segunda situacin las pruebas se debern sustentar en laTeora Clsica del Test y en indicadores que provienen del mbito de la Evalua-cin Referida al Criterio'".

f) el estndar de referencia est normalmente basado en un criterio absolutoaunque se den, obviamente, casos en que se utiliza una combinacin coninformacin normativa.

En cualquier caso, este tipo de pruebas se sita entre las pruebas amplio espectro ylas de Aula, adoptando caractersticas que les son propias a los dos enfoques.

PRUEBAS DE CLASE O DE USO EN EL AULA

Las pruebas de Clase o pruebas de Aula hacen referencia a las que puede utilizar elprofesor para la evaluacin de sus alumnos. No obstante, es en este mbito donde

probablemente se aprecia una peor aceptacin de las pruebas estandarizadas. Y ello,porque se atribuye a la Estandarizacin condiciones que alejan estas pruebas de laindividualizacin.

Sin embargo, debe tenerse en cuenta que ambos Estandarizacin e Individualiza-cin no son conceptos necesariamente contradictorios; ms bien, es el tipo de usoque se realice de las pruebas lo que puede enfrentarlos. La Estandarizacin mejora

16 En ambos casos se pueden utilizar aportaciones derivadas de la Teora de la Generalizabilidad paraconseguir indicadores ms consistentes de los parmetros de la prueba, especialmente en aquellos casos enlos que no sea adecuado utilizar los modelos TRI (Brennan, 1983; Shavelson y Webb, 1991).

esencialmente las condiciones de objetivacin de la medida. Y ello a veces se olvidapor parte de los detractores de las pruebas, poniendo el nfasis sobre aspectos propiosde la individualizacin que, sin embargo, podran se atendidos con pruebas estanda-rizadas, sin considerar que los procedimientos no-estandarizados no resuelven ade-cuadamente los problemas derivados de la subjetividad del observador o el evalua-dor.

Por otra parte, el marco derivado de la LOGSE ha puesto de manifiesto la necesi-

dad de individualizar o personalizar los diseos curriculares. Un problema prctico alque habitualmente aluden los profesores es la falta de metodologa adecuada para eldesarrollo de las Adaptaciones Curriculares Individualizadas. Obviamente, las solu-ciones no estn slo en la Medida y la Evaluacin, pero stas constituyen un elementoinstrumental inicial desde el que abordar la solucin de este problema.

As, debe tenerse en cuenta que el desarrollo de pruebas estandarizadas para laevaluacin de una unidad didctica es probablemente el marco donde puede dispo-nerse de pruebas ms vlidas. Esto es as, dado que los Dominios Educativos dereferencia en estos casos constituyen Universos de Medida finitos, claramente especi-ficables, concretos.

Este hecho afecta directamente a la Validez de Contenido, pudiendo aspirar en estecontexto a pruebas ms representativas del Dominio Educativo del que se derivan.Por otra parte, si se estructura el Dominio Educativo de forma perfectamente asociadaal planteamiento metodolgico-didctico, la Validez de Constructo tambin puede

verse beneficiada. Esto es as, no slo por el hecho de la asociacin trabajo de aula-sistema de evaluacin (que sera una expresin ms concreta de la Validez de Cons-tructo, como Validez Curricular), sino muy especialmente por las caractersticas deldesarrollo del aprendizaje, en el que se podr reflejar el constructo terico que est a la

base del diseo curricular y del enfoque metodolgico-didctico del programa.Adems, los Dominios Educativos, en estos casos, se refieren a unidades didcticas

o lecciones por lo que incluyen pocas unidades, lo que favorece el micro-anlisisde todas las tareas-tems implicados en el Dominio. Pueden permitir, pues, una defini-cin exhaustiva de la poblacin de conductas que pongan de manifiesto las adquisi-ciones (habilidades, capacidades y destrezas) a que hace referencia un Dominio. Deesta forma, en la definicin de este tipo de Dominios cabe identificar unidades demedida, a partir de las cuales se puedan inferir interpretaciones procesuales bastanteprecisas, as como de productos especficos.

Ello favorece que este tipo de pruebas pueda estar muy bien adaptado para la

medicin y evaluacin de procesos y productos de aprendizaje". De este modo, lasposibilidades de interpretacin se abren: no slo se puede interpretar un nivel decompetencia a partir de la puntuacin total sino explicar el nivel, informando delos procesos de adquisicin a partir de la interpretacin particular de los tems.

Este hecho se ve favorecido porque la situacin de Medida que puede darse en unAula no tiene por qu limitarse a una situacin de examen habitual tipo test. En este

17 Recientemente se ha venido informando de propuestas de inters en nuestro mbito educativo,como las de Buenda y Salmern (1994) o las de Toboso (1995 a y b).


8/12

1

J.M. Jornet Meliy

J.M. Surez Rodrguez

marco, pueden formar parte de la "prueba" diversos tipos de elementos: desde temsclsicos de lpiz y papel hasta tems micro-situacionales en los que la valoracinprovenga de la observacin de la tarea que realiza cada individuo.

La definicin del Dominio, establecimiento de Reglas de generacin de tems yescritura de tems, la realiza como en casos anteriores un comit de expertos, peroen esta situacin, est compuesta por los profesores de una materia (o departamento,o equipo de ciclo).

En el trabajo a realizar por el Comit hay que tener en cuenta los siguientes

aspectos: Antes de desarrollar la prueba es esencial definir el rol que sta tendr dentro

de los recursos evaluativos de que disponga el profesor. El contexto ideal deuso es aquel en el que se identifican fuentes mltiples y diversos instrumentos.

En el desarrollo del Anlisis del Dominio la reflexin deber orientarse haciaelementos de relevancia de los tems respecto de los objetivos que pretendenmedir (Congruencia tem-Objetivo) as como respecto a la representatividad delos tems como situacin evaluativa en relacin a los planteamientos meto-dolgico-didcticos seguidos en el Aula.

Aunque en este contexto no resulta tan trascendente el anlisis del Sesgo de lostems, su anticipacin por procesos de juicio es una labor de especial inte-rs. As, junto a variables bsicas como Sexo o Lengua en Comunidades

bilinges, dependiendo del nivel educativo, pueden producirse sesgos ensituaciones de apertura del currculum. De esta manera, pueden haber alumnosreforzados en su aprendizaje de una materia por el efecto del aprendizaje deotras opcionales. Este tipo de sesgo sera importante identificarlo a efectos dedeterminar adecuadamente el nivel de competencia a que puede aspirarse en lamateria en la que se desarrolla la prueba.

No obstante, aunque existan sesgos de los que necesariamente tengamos queindependizar a las pruebas, otros como el ltimo mencionado puede serdifcil de eliminar, por lo que al menos es importante identificarlos, conocerlos,y asignarles valor diagnstico o modulador de las decisiones evaluativas.

El anlisis del sesgo en este caso se basa ms sobre procesos cualitativos dejuicio que sobre la comprobacin emprica de los resultados obtenidos por laspersonas evaluadas. El factor clave para poder llevar a cabo una comprobacinadecuada es el tamao de la muestra, en estos casos muy reducida.

Respecto a los componentes tcnicos derivados del Modelo de Medida, en estecontexto no puede utilizarse la Teora de Respuesta al tem, dado que el tamao de losgrupos que se trabaja es muy reducido.

No obstante, dentro de la Teora Clsica de los Tests se dispone de indicadoressuficientes que pueden, realizando las adecuadas adaptaciones en su uso e interpreta-cin, operacionalizar los anlisis necesarios. Asimismo, en el marco de la EvaluacinReferida al Criterio existen mltiples indicadores de fcil utilizacin que racionalizanla lgica de seleccin criterial.

Sin embargo, hay que tener presente que las caractersticas derivadas del objeto de

Pruebas estandarizadas y evaluacin del rendimiento 155

medida y del uso de la prueba, as como las que devienen de los tipos de distribucinque podemos encontrar en pequeas muestras", conllevan necesarias modificacionesen la utilizacin e interpretacin de indicadores clsicos. De esta manera, caractersti-cas bsicas empricas tiles en la seleccin de tems del Modelo Clsico no serandeseables aqu. El valor de los parmetros e indicadores radica no tanto como elemen-to de seleccin de los tems (que se sustentar preferentemente sobre procesos dejuicio) como elemento de informacin para el grupo de profesores Comit quedesarrolla la prueba. Su valor como indicadores de seleccin de tems, se circunscribea la comprobacin de las hiptesis funcionales que el Comit haya anticipado para lostems, respecto a la dificultad terica y su capacidad de discriminacin primordial-mente (Jornet y Surez, 1994 ; Rivas, Jornet y Surez, 1995).

Qu tipo de interpretaciones se requieren?En este contexto, en donde se deben tomar decisiones acerca de la promocin de

cada persona en su aprendizaje, es preciso conocer adecuadamente su posicin res-pecto del Dominio Educativo, por lo que la interpretacin necesariamente debe sercriterial, basada en un estndar absoluto.

Para el desarrollo del Estndar y su especificacin como puntuacin de corte laaportacin del Comit de Expertos es nuevamente esencial. Entre los mtodos en quepueden apoyarse, en este contexto de desarrollo de pruebas, cobran especial relevan-cia aqullos que utilizan como informacin para retroalimentar al Comit en su proce-so de determinacin, el anlisis de las consecuencias de su aplicacin sobre sujetosconocidos (Livingston y Zieky, 1982). Estos usos, en la prctica, se convierten enevidencias de validacin de la puntuacin de corte.

En cualquier caso, los procesos de evaluacin en el Aula hay que considerar que nose debe aspirar a que se sustenten sobre pruebas estandarizadas exclusivamente. Laoportunidad de su utilizacin depende fundamentalmente de que sean adecuadas altipo de materia que se pretenda evaluar. La defensa del uso de este tipo de pruebaspara la evaluacin debe realizarse desde el marco en que realmente sean ms tiles(fiables y vlidas) que otras alternativas o tcnicas evaluativas. Asimismo, debe tener-se en cuenta que las pruebas estandarizadas deben derivarse desde un programaeducativo bien establecido y, como instrumento estn al servicio del mismo. Un peli-gro genrico que nace del uso de cualquier sistema de evaluacin es que acabensiendo los instrumentos los que constituyan la referencia para el desarrollo del progra-ma, acabando por condicionar su uso (De la Orden, 1993).

PRUEBAS DE PROPSITO DIAGNSTICO

LasPruebas de Propsito Diagnstico rompen con el discurso de lo ms general alo ms concreto que relaciona los tres tipos que hemos expuesto. As, mientras en las

pruebas revisadas con anterioridad el objetivo es, en trminos generales, valorar las

18 No sera aceptable anticipar como efecto educativo que el Rendimiento se distribuir como la CurvaNormal. Es ms lo habitual y deseable sera que los efectos educativos fueran asimilables a distribucio-nes beta, con tendencia asimtrica negativa.

154


9/12


adquisiciones sobre un programa educativo, ms o menos amplio, aqu se trata depoder indagar respecto a la posible existencia de determinados problemas de aprendi-zaje y cules son sus caractersticas concretas. El objetivo es, pues, delimitar si se da undeterminado problema en el proceso normal de adquisiciones que desarrolla un sujetoy poder extraer informacin sobre la cualidad de tal problema, de modo que se puedaorientar mejor la subsiguiente intervencin.

En este grupo incluimos dos grandes tipos de pruebas: referidas al Currculum yde diagnstico propiamente dichas.

Las pruebas estandarizadas referidas a un currculum tienen por objeto indagaracerca de la posicin de un sujeto respecto a un Diseo Curricular dado (que actacomo Dominio Educativo). Las hemos clasificado aqu porque su propsito general-mente es de tipo diagnstico, dado que se trata de recabar informacin independientede las calificaciones escolares y sin finalidad de uso en el contexto del Aula acercade si los sujetos tienen adquisiciones bsicas correspondientes con su desarrollo curri-cular-escolar, o bien presentan disfunciones-19.

Generalmente, estas pruebas pretenden abarcar Dominios amplios, correspondien-tes a dimensiones que se identificables a travs de un Diseo Curricular de largoalcance (como por ejemplo, Numeracin, Clculo Mental, Interpretacin de Datos oResolucin de Problemas). Sin embargo, en el anlisis del Dominio prevalece la iden-tificacin de los elementos clave que se asocian a diferentes etapas de adquisicin.Esta identificacin es la que permite situar al sujeto en su nivel de aprendizaje en elDominio.

Por su parte, las pruebas Diagnsticas propiamente dichas tienen como finalidadno slo determinar la posicin del sujeto en el Dominio de referencia, sino describiradecuadamente los elementos deficitarios con el fin de planificar la intervencin. Eneste sentido, las unidades del Dominio deben estar claramente definidas y previamen-te analizadas respecto a su asociacin con unidades de intervencin.

Es habitual que en estas situaciones se parta de un marco terico que definedimensiones respecto de las cuales su puede concentrar la informacin significativa

para la toma de decisiones, aunque no siempre tenga la consistencia terico-metodol-gica debida (De la Orden et al. 1994).

Como seala Oosterhof (1994), las pruebas de propsito diagnstico deben serutilizadas con cautela, pues la investigacin bsica acerca de los constructos en ellasimplicados, todava es escasa20 .

En relacin directa con esto, el objetivo de la evaluacin con estas pruebas es mixto,

en el sentido que pueden estar orientadas al proceso educativo, al producto o acualquier combinacin de ambos objetivos. Esto conlleva que las pruebas estn basa-

19 Aunque no son muy frecuentes, existen ya algunas pruebas de inters como por ejemplo la EscalaKey-Math R de Connolly (1988), adaptada por Mari (1996) a nuestro contexto educativo o algunas otrasdesarrolladas directamente en el mismo, como la Batera de Pruebas de Lenguje FCI (Bartolom, et al.,1985).

20 Sin embargo, se pueden identificar ya desarrollos muy adecuados (como la prueba CRIL de Len-guaje de Wiig, 1990, de la que parte el desarrollo de la prueba ICL de Puyuelo y Renom 1993 y Puyuelo,Renom y Solanas 1995).

das en unas reglas de conexin con el universo tan especficas como lo permita lascaractersticas y la amplitud del mismo. Finalmente, el estndar en que se basa ladecisin suele ser una combinacin de indicadores absolutos y normativos. Esto es asdado que para la determinacin de la existencia de un problema suele ser tan tilemplear definiciones absolutas que reflejen las claves de su identificacin (nivel enque se produce un problema, patrn procesual del mismo, etc...) como la informacinrelativa al grupo de pertenencia para situar la dimensin caracterstica del mismopor ejemplo, un problema de inversiones en la lectura depender tanto de unadeterminada frecuencia concreta como de la situacin relativa dependiendo del grupode edad al que pertenece el sujeto.

PRUEBAS INDIVIDUALIZADAS

En este caso el objeto es proporcionar un sistema de recogida de informacin muyflexible que se ajuste a las caractersticas de cada sujeto o situacin de medida y queproporcione, por ello, una informacin ms rica y significativa en los puntos crticos.Como se aprecia en el Cuadro 2, no siempre la unidad de referencia es un sujetoconcreto, pudiendo ser un currculum o programa completo. Adems, la adaptacinpuede realizarse de forma esttica o dinmica. En el primer caso la prueba entera seconstruye en funcin de las caractersticas o directrices del grupo o situacin dereferencia, mientras que en el segundo caso es el propio rendimiento el que proporcio-na el patrn de referencia para la adaptacin sucesiva de la prueba.

Estamos hablando de pruebas que precisan de una definicin lo ms exhaustivaposible del Dominio Instruccional de referencia y de unas reglas sumamente concretasde relacin entre el Universo Instruccional y la prueba. De no producirse estas condi-ciones no se podra establecer bien el ajuste para cada situacin o individuo.

En general, las pruebas adaptadas se fundamentan en bancos de objetivos e temsque ofrecen algunas grandes organizaciones pblicas y privadas. Los dos formatosesenciales se dan en funcin de que sea la propia empresa u organizacin que facilitela adaptacin ya completada al usuario final o que se le suministre la informacin yuna herramienta informtica a este ltimo para que pueda hacer esta adaptacin porsus propios medios. As, los sistemas AIMS (Academic Instructional MeasurementSystems) de The Psychological Corporation, ORBIT (Objective-Referenced Bak of te-ms and Tests) de CTB / McGraw-Hill o MULTISCORE de The Riverside PublishingCompany estn compuestos por unos centenares a miles de objetivos y muchos milesde tems que abarcan la mayor parte de los mbitos curriculares de la educacin

primaria y secundaria.La adaptabilidad en el caso de situaciones o programas depender de la cantidad

de opciones disponibles sobre el dominio (objetivos, tems, etc.), de las informacionessobre la estructura y caractersticas mtricas de los elementos (dificultad, discrimina-cin, eleccin de alternativas, recomendaciones asociadas, etc.) y de la existencia demecanismos para integrar variaciones propias de cada situacin en la prueba (herra-mientas que permitan el desarrollo de objetivos, tems con diversas variantes, reco-mendaciones, etc.).


10/12

158 J.M. Jornet Melid y J.M. Surez Rodrguez Pruebas e standariz adas y eva luacin d el rendimie nto 159

En el caso de los tests con adaptacin instantnea a la ejecucin por el sujetocomo el MicroCAT Testing System (Assessment Systems Corporation, 1988) o losWICAT Systems (1986) sirven esencialmente las ideas que acabamos de apuntar. Noobstante, la adaptabilidad en estos casos se incrementa cuando esta pruebas se puedeadaptar mejor al sujeto en la situacin especfica de aplicacin que sirve como referen-cia (sea el programa, el sistema especfico de recuperacin, etc.). Asimismo, la infor-macin que se puede obtener en estas situaciones es tan rica que difcilmente se puedeencarar una prueba de este tipo solamente en funcin de una valoracin del producto.

No obstante, este es el enfoque predominante todava, pues se ha producido unaadaptacin excesivamente mimtica respecto a las pruebas tradicionales. Pinsese queestamos hablando de pruebas que por su complejidad, normalmente, precisan de unsoporte de tecnologa informtica, ya que el nico medio que facilita una gran preci-sin y variedad en la recoleccin de informacin. De hecho, este tipo de medida es elhorizonte natural de los sistemas EAO al incorporar la evaluacin dinmica que seprecisa en estos casos. Hoy en da, con todo, la mayora de los sistemas EAO estnlejos de adoptar las posibilidades de medida inherentes a este tipo de pruebas dehecho, tienen serios problemas para cubrir las mnimas directrices que garanticen unavaloracin del rendimiento. Existen, no obstante, algunas excepciones que constitu-yen caminos muy sugerentes, como la experiencia del Cognition Technology Groupen la Universidad de Vanderbilt (Goldman, Pellegrino y Bransford, 1994), con plantea-mientos integrales de enseanza y evaluacin-medida que pueden aportar respuestasa algunas necesidades de transformacin que ya hemos sealado.

La calidad de la Definicin del Dominio de estas pruebas basadas en bancos detems es bastante elevada21. En cualquier caso, el nivel de especificacin que requierenpermite una valoracin ajustada y actualizada de estos sistemas que sirva de referen-cia para nuestra actuacin. Por ejemplo, se realizan revisiones de estos sistemas peri-dicamente que nos aaden referentes de validez y utilidad de los mismos (Naccarato,1988).

Los Modelos de Medida asociados a las aplicaciones ms consistentes estn basa-dos en Teora de Respuesta al tem, tanto para la composicin del banco de referenciacomo para su gestin en cada situacin de evaluacin concreta (Kingsbury y Zara,1989). No obstante, como ya hemos sealado, el campo es muy heterogneo y deses-tructurado, hallndose incluso pruebas que no estn soportadas por modelo algunode medida. En definitiva, para los proyectos de una cierta envergadura respaldados

por instituciones o empresas de suficiente solvencia las herramientas disponibles enlos modelos TRI constituyen la recomendacin universalmente aceptada. Las limita-ciones son las mismas que ya se han descrito respecto a otras pruebas y las ventajasson an mayores, al entramarse los procedimientos con mayor facilidad en una estruc-tura de aplicacin basada en ordenador. Queda por resolver, a pesar de todo, unaamplia variedad de temticas y situaciones para las que, al igual que en otros contex-tos de evaluacin, no cesan de proponerse alternativas parciales que, siendo muy

21 Otra cuestin bien diferente la constituyen los sistemas de evaluacin ligados a las aplicaciones

EAO, cuya calidad metodolgica general es muy desigual.

CUADRO 2SNTESIS DE PROCEDIMIENTOS DE PRUEBAS INDIVIDUALIZADAS

Tipos de Prueba o procedimiento Objetivo Caractersticas de las Tareas/Pruebas

PRUEBAS DE ADMINISTRACIN

INDIVIDUAL

Mejorar la precisin en la estimacinde la habilidad del sujeto

Las tareas estn graduadas, en oca-siones se basa la administracin ensenderos de decisin.

P R U E B A S D E F O R M A S M L T I P L E S Obtener mltiples medidas paralelas,equivalentes o al menos compa-

rables de cada sujeto.

Pruebas estadsticamente paralelas

P R U E B A S E S T A N D A R I Z A D A S D E

N IV E L E S M L T IP L E S

Simplificar la medida ajustndolaal nivel de habilidad del sujeto

Items basales; determinaciones delnivel inicial de partida de la prueba.

T E S T S A D A P T A T I V O S

D E N I V E L

D I A G N S T I C O S

Maximizar la precisin de la estima-cin de la habilidad de cada sujeto,utilizando el mnimo nmero de Items

Diagnosticar las dificultades deaprendizaje concretas del sujeto

tems clave-caractersticos de niveles.

Seleccin especfica de los tems aadministrar en funcin del nivelinicial demostrado por el sujeto en

tems de prueba.

S O P O R T E S T E C N O L G I C O S A

L A I N V I D U A L I Z A C I N

B A N C O S D E I T E M ST R A D I C I O N A L E S

Automatizar la construccin deprue bas a pa rtir de una defin icin

genrica del Dominio, con temscerrados e identificados por sus

parm etros .

Pruebas ajustadas a diseos curricula-res y adaptadas a niveles especficos.

B A N C O S D E R E G L A S D EG E N E R A C I N D E I T E M S

Automatizar la construccin detems, y en algunos casos, inclusosu administracin. Generar mlti-pies prueba s pa ralelas .

Tests paralelos en contenido, dife-rentes para cada sujeto y que puedenajustarse a los diversos curricula.

sugerentes, no se han estructurado en ningn planteamiento suficientemente slidohasta el momento presente.

Por lo que respecta a los estndares, aunque tambin utilizan informacin respectoa criterios diferenciales, lo fundamental de las decisiones consiste en las definicionesabsolutas que incorporan. De hecho, en muchos casos los referentes diferenciales sonparciales o imposibles, en funcin de la adaptacin que se realice por ejemplo, si seaade una cantidad sustancial de modificaciones en la definicin de algn subdomi-nio educativo todo referente normativo a este respecto carecera de validez. En otras


11/12

160 J.M. Jornet Meli y J.M. Surez Rodrguez Pruebas es tandariza das y evalu acin del rendimient o 161

1

situaciones, la informacin normativa solamente puede actuar como referente marcorelativamente alejado, dado que el propsito de estas pruebas suele ser ms formativou orientado a la recuperacin. Desafortunadamente existe poco trabajo hecho en estembito e incluso las orientaciones reflejadas a este respecto en las "normas y orienta-ciones de actuacin" (APA, 1986) no parecen haber madurado suficientemente lanecesaria adaptacin a estas situaciones de medida-evaluacin.

ALGUNAS NOTAS FINALES

La evolucin de los mtodos de construccin de pruebas aporta una base bastanteslida para el desarrollo de instrumentos estandarizados de evaluacin. Para nuestrombito educativo, los desarrollos son muy escasos, aunque crecientes, en consonanciacon la progresiva implantacin de actividades de evaluacin. El arraigo de una culturaevaluativa sin duda conllevar la necesidad de utilizar instrumentos mucho mejorconstruidos y adaptados que los que habitualmente se utilizan. La demanda de cali-dad tambin afectar a los instrumentos evaluativos. Slo ser posible responder aestos retos si abordamos decididamente el desarrollo de instrumentos de medidaeducativa, que respondan a las necesidades de los diversos programas y fenmenos aevaluar.

La institucionalizacin de la revisin del sistema educativo y de los diferentescomponentes y actores del mismo es una realidad a la que necesariamente se deberesponder con instrumentos mejor diseados. Incluso, hechos evaluativos que afectan

muy directamente a nuestra sociedad como es la selectividad universitaria en laactualidad an se desarrolla sobre esquemas imprecisos, que hacen que sta no res-ponda en definitiva al sistema y que no se pueda hablar de equidad evaluativa.Actuaciones como la selectividad estn reclamando respuestas profesionales evaluati-vas que, al menos, integren las opciones metodolgicas disponibles.

En el campo del Diagnstico Educativo tambin es evidente la carencia de instru-mentos. De hecho no se dispone de Bateras a lo largo de los diferentes niveles y reaseducativas que cubran las dimensiones esenciales del Rendimiento. Otro tanto puededecirse respecto a las versiones individualizadas, como las Pruebas Asistidas porOrdenador, que adems deben reivindicar su existencia frente a los exiguos sistemasde evaluacin que incorporan las aplicaciones de Enseanza Asistida por Ordenador.

Respecto a las evaluaciones en el Aula deben estar soportadas sobre una profundareflexin por parte de los profesores acerca de los componentes de sus diseos curri-culares. Un aspecto central de esta reflexin debe ser el sistema de evaluacin. El

desarrollo de instrumentos no tiene por qu ser la finalidad, pero s constituye unbuen medio de revisin de los componentes de un programa educativo, as como delos elementos que inciden en su realizacin. Incorporar elementos propios de laspruebas estandarizadas, como son el anlisis de los Dominios Educativos o el Desarro-llo de Estndares, aunque no se persiga ni se llegue a una estandarizacin completa,supone indudablemente integrar elementos de mejora de los procesos evaluativos.Obviamente, en muchas ocasiones se afirma que el profesorado no ha sido formadopara abordar este tipo de procesos. La respuesta es clara: es necesario reforzar la

formacin de estos profesionales en estas reas, dado que son instrumentales para suactuacin docente.

Por ltimo, la estandarizacin de la medida, como base para la evaluacin, si

quiera en sus versiones ms "tecnolgicas" como las Pruebas Asistidas por Ordena-dor, no implica necesariamente un empobrecimiento de la informacin necesaria enla evaluacin. Existen suficientes vas de trabajo para incorporar definitivamente lamedida de tareas complejas, el proceso de construccin de los conocimientos, el apren-dizaje cooperativo o el pensamiento crtico. En buena medida, nos tenemos que com-

prometer en realizar un esfuerzo por avanzar en esas direcciones y tratar de situarnosen lnea con los pases ms desarrollados en estos mbitos disciplinares.

REFERENCIAS BIBLIOGRFICAS

AMERICAN PSYCHOLOGICAL ASSOCIATION (1986) Guidelines for computer-basedtests and interpretation. Washington, D.C.: Autor.

ANGOFF, W.H. (1988) Validity: An evolving concept. En H. WAINER y H.I. BRAUN(Eds.) Test Validity. Hillsdale, NJ: LEA.

BARTOLOM, M.; BISQUERRA, R.; CABRERA, F.; ESPN, J.V.; MATEO, J. Y RODR-GUEZ, Ll. (1985) Batera de Pruebas de Lenguaje Final de Ciclo Inicial. Barcelona:CEAC.

BRENNAN, R.L. (1983) Elements of Generalizability Theory. Iowa City, IA: AmericanCollege Testing Program.

BUENDIA, L. y SALMERN, H. (1994) Construccin depruebas criteriales de aula.Revista de Investigacin Educativa, 23, 405-410.

CERI/ INES (1995) Education at a Glance. OECD Indicators. Pars: OECD.CONNOLL Y, A.J. (1988)Key Math Revised: a diagnostic inventory of essential mathematics.

Circle Pins, Minnesota: American Guidance Service.DE LA ORDEN, A. (1993) Influencia de la evaluacin del aprendizajeen la eficacia de

la enseanza. Revista deInvestigacin Educativa, 22, 7-42.DE LA ORDEN, A.; GAVIRIA, J.L.; FUENTES, A. y LZARO, A. (1994) Modelos de

construccin y validacin de instrumentos diagnsticos. Revista de InvestigacinEducativa, 23,129-178.

DE MIGUEL, M. et al. (1994) Evaluacin para la calidad de los Institutos de EducacinSecundaria. Madrid: Escuela Espaola.

GIL, G.; GONZLEZ, A. y SUREZ, J.C. (1995) Un modelo de construccin deprue-basde rendimiento para la evaluacin de las enseanzas mnimas en la Educacin

Primaria. En AIDIPE (Comp.) Estudios de Investigacin Educativa en IntervencinPsicopedaggica. Valencia: AIDIPE.

GOLDMAN, S.R., PELLEGRINO, J.W. y BRANSFORD, J.D. (1994) Assessing progra-ms that invite thinking. En E. BAKER y H.F. O'NEIL Jr. (Eds.) (1994) TechnologyAssessment in Education and Training. Hillsdale, NJ: LEA.

HALADYNA, T.M. (1992) Context dependent tem sets.Educational Measurement: Issuesand Practice. 11, 11-25.

HAMBLETON, R.K. (1984) Validating the tests scores. En R. BERK (De.) A guide to


12/12

162 J.M. Jornet Melid y J.M. SurezRodrguez Pruebas e standariza das y evalu acin del rendimient o 163

Criterion-Referenced Tests construction. Baltimore, Mass.: Johns Hopkins UniversityPress.

HAMBLETON, R.K.; SWAMINATHAN, H. (1985) tem Response Thory: Princip les andApplications.Norwell, MA: Kluwer.

INCE (1996) Lo que aprenden los alumnos de 12 aos. Evaluacin de la Educacin Primaria.Datos bsicos.1995. Madrid: Centro de Publicaciones del Ministerios de Educaciny Cultura.

JORNET, J.M. (1987) Una aproximacin terico-emprica a los mtodos de medicin de

referencia criterial. Tesis Doctoral. Valencia: Universitat de Valencia.JORNET, J.M. y SUREZ, J.M. (1989a): Conceptualizacin del Domnio educativo

desde una perspectiva integradora en Evaluacin Referida al Criterio. Bordn. 41,2, 237-275.

JORNET, J.M. y SUREZ, J.M. (1989b): Revisin de Modelos y Mtodos en la deter-minacin de estndares y en el establecimiento de un Punto de corteen EvaluacinReferida al Criterio (ERC). Bordn. 41, 2, 277-301.

JORNET, J.M. y SUREZ, J.M. (1994) Evaluacin Referida al Criterio. Construccin deun Test Criterial de Clase. En V. GARCA HOZ (Dir.) Problemas y Mtodos deInvestigacin en Educacin Personalizada. Madrid: Rialp.

JORNET, J.M., SUREZ, J.M ., GONZLEZ SUCH, J., PREZ CARBONELL, A. yFERRNDEZ, M.R. (1993) Evaluation Report of the Project: Communication and Pre-sentation Skills for Technological Transfer Agents. Euro-Innovations-Manager. Valen-cia: ADEIT / IMPIVA / CEEI.

KINGSBURY, G.G. y ZARA, A.R. (1989) Procedures for selecting Items for computeri-zed adaptive testing.Applied Measurement in Education 2(4), 359-375.

LADUCA, A., STAPLES, W.I., TEMPLETON, B. y HOLZMAN, G.B. (1986) tem mo-delling procedure for constructing content-equivalent multiple-choice questions.Medical Education, 20, 53-56.

LINN, R.L. (1990) Has tem Response Theory increased the Validity of AchievementTest scores?Applied Measurement in Education, 3, 2, pp. 115-141.

LIVINGSTO N, S.A. y ZIEKY, M.J. (1982)Passing Scores. Princeton N.J.: ETS.MARI, R. (1996) Evaluacin delRendimiento en Matemticas: adaptacin de la Es cal a Key

Math-R. Tesis Doctoral (enprensa: microficha). Valencia: Universitat de Valencia.MARTNEZ RIZO, F. (1996) La calidad de la educacin en Aguascalientes. Diseo de un

sistema de monitoreo. Aguascalientes, Mxico: Universidad Autnoma de Aguasca-lientes (UAA)-Instituto de Educacin de Aguascalientes (IEA).

NACCARATO, R.W. (1988)A guide to item banking in Education (3a ed.) Portland, O.:Northwest Regional Education Laboratory.

ORDEANA, B. (1991) Funcionamiento diferencialde los tems: una aplicacin alcampode las diferencias entre sexos.Revista deInvestigacin Educativa, 9,17, 119-128.

OSTERLIND, S.J. (1992) Constructing test items. (2a ed.). Boston: Kluwer.PREZ JUSTE, R. y MARTNEZ ARAGN, L. (1989) Evaluacin de centros y calidad

educativa. Madrid: Cincel.POSTLETHWAITE, T.N. (1987) Introduction: Special issue on the Second IEA Study.

Comparative Educational Review. 31(1), 150-158.

RECKASE, M.D. (1979) Unifactor latent trait models applied to multifactor tests.Jour-nal of Educational Statistics. 4, 207-230.

RIVAS F. et al. (1986): Proyecto Valencia: Objetivos bsicos de aprendizaje en los Ciclos yAreas de LenguajeyMatemticas en la EGB. Una aproximacin de Evaluacin Referida alCriterio. Valencia: Servicio de Estudios y Publicaciones Universitarias, S.A.

RIVAS, F. JORNET, J.M. y SUREZ J.M. (1995) Evaluacin del aprendizaje escolar:claves conceptuales y metodolgicasbsicas. En F. SILVA (De.):Evaluacin psicol-

gica en nios y adolescentes. Madrid: Sntesis.

RODRGUEZ LAJO, M. (1986) Evaluacin del rendimiento criterial vs. Normativo.Modelo de evaluacin FCO.Revista de Investigacin Educativa. 3, 6, 304-321.

ROID, G.H. y HALADYNA, T.M. (1982)A technology of test-item writing.New York :Academic Press.

SAMEJIMA, F. (1974) Normal ogive model on the continuous response level in themultidimensional latent space.Psychometrika. 39, 111-121.

SHAVELSON, R.J. y WEBB, N.M. (1991) Generalizability Theory. A Primer.NewburyPark, CA.: SAGE.

SPECIAL STUDY PANEL ON EDUCATION INDICATORS (SSPEI) (1991) Educationcounts. An indicator system to monitor the nation's educational health. Washington :National Center for Educational Statistics. USA Department of Education.

TEJEDOR, F.J.; GARCA VALCRCEL, A. y RODRGUEZ CONDE, M.J. (1994) Pers-pectivas metodolgicas en la evaluacin deprogramas en el mbito educativo.Revista deInvestigacin Educativa. 23, 93-128.

TOBOSO J. (1995a): Fundamentos tericos del proceso evaluador desde el marcocurricular de la LOGSE. En AIDIPE (Comp.):Estudios de Investigacin Educativa enIntervencin Psicopedaggica. Valencia: AIDIPE.

TOBOSO J. (1995b): Estudio emprico sobre la Evaluacin de componentes cognitivosen la Resolucin deproblemas.En AIDIPE (Comp.):Estudios deInvestigacin Educa-tiva enIntervencin Psicopedaggica. Valencia: AIDIPE.

TOCA, M.T. y TOURON, J. (1989) Factores del Rendimiento Acadmico en los Estu-dios de Arquitectura.Revista de Investigacin Educativa, 7,14, 31-47.

TOURON , J. (1985) Laprediccin del rendimiento acadmico: procedimientos, resul-tados e implicaciones.Revista Espaola dePedagoga,169-170, 473-495.

WEISS, D.J. y YOES, M.E. (1991) Item Response Theory. En R.K. HAMBLETON y J.N.ZAAL (eds.)Advances in Educational and Psychological Testing. Boston, MA: Kluwer

WEST, A.; PENNELL, H.; THOMAS, S. y SAMMONS, P. (1995) Educational perfor-mance indicators.EERA Bulletin, 1, 3, 3-11.

pruebas estandarizadas y evaluacion rendimiento j.m. jornet meliá y j.m. suárez rodríguez

Documents