evaluacion directores inee (1)

27
DOF: 13/11/2015 CRITERIOS técnicos y de procedimiento para el análisis de los instrumentos de evaluación, el proceso de calificación y la emisión de resultados de la evaluación del desempeño de quienes realizan funciones de dirección (directores) en Educación Básica, 2015-2016. Al margen un logotipo, que dice: Instituto Nacional para la Evaluación de la Educación. CRITERIOS TÉCNICOS Y DE PROCEDIMIENTO PARA EL ANÁLISIS DE LOS INSTRUMENTOS DE EVALUACIÓN, EL PROCESO DE CALIFICACIÓN Y LA EMISIÓN DE RESULTADOS DE LA EVALUACIÓN DEL DESEMPEÑO DE QUIENES REALIZAN FUNCIONES DE DIRECCIÓN (DIRECTORES) EN EDUCACIÓN BÁSICA, 2015-2016. El presente documento está dirigido a las autoridades educativas que en el marco de sus atribuciones implementan evaluaciones que, por la naturaleza de sus resultados, regula el Instituto Nacional para la Evaluación de la Educación (INEE), en especial las referidas al Servicio Profesional Docente (SPD) que son desarrolladas por la Coordinación Nacional del Servicio Profesional Docente (CNSPD). Así, y con fundamento en lo dispuesto en los artículos 3o. fracción IX de la Constitución Política de los Estados Unidos Mexicanos; 7, fracción X de la Ley General del Servicio Profesional Docente; 22, 28, fracción X; 38, fracciones IX y XXII de la Ley del Instituto Nacional para la Evaluación de la Educación; 54 de los Lineamientos para llevar a cabo la evaluación del desempeño de quienes realizan funciones de docencia, dirección y supervisión en Educación Básica y Media Superior, 2015-2016, LINEE- 05-2015, la Junta de Gobierno aprueba los siguientes criterios técnicos y de procedimiento para el análisis de los instrumentos de evaluación, el proceso de calificación y la emisión de resultados de la evaluación del desempeño de quienesrealizan funciones de dirección (directores) en Educación Básica (EB), 2015-2016. Los presentes Criterios técnicos y de procedimiento tienen como finalidad establecer los referentes necesarios para garantizar la validez, confiabilidad y equidad de los resultados de los procesos de evaluación. Su contenido se organiza en cuatro apartados: 1) Características generales de los instrumentos para evaluar el desempeño de la función de dirección (directivos); 2) Criterios técnicos para el análisis e integración de los instrumentos de evaluación; 3) Procedimiento para el establecimiento de puntos de corte y estándares de desempeño de los instrumentos de evaluación; 4) Resultado de la evaluación del desempeño: resultado por instrumento y resultado global. En la parte final se presenta un Anexo con información detallada de algunos de los aspectos técnicos que se consideran en el documento. Definición de términos Para los efectos del presente documento, se emplean las siguientes definiciones: Alto impacto: Se indica cuando los resultados del instrumento tienen consecuencias importantes para las personas o las instituciones; por ejemplo, en los procesos de admisión o certificación. Calificación: Proceso de asignación de una puntuación o nivel de desempeño logrado a partir de los resultados de una medición. Confiabilidad: Cualidad de las mediciones obtenidas con un instrumento, que se caracterizan por ser consistentes y estables cuando este se aplica en distintas ocasiones. Constructo: Elaboración teórica formulada para explicar un proceso social, psicológico o educativo y cuya adecuada descripción permite que sea susceptible de ser observable o medible. Correlación punto biserial: Medida de consistencia que se utiliza en el análisis de reactivos, indica si hay una correlación entre el resultado de un reactivo con el resultado global del examen.

Upload: jessica-medina

Post on 14-Jul-2016

15 views

Category:

Documents


2 download

DESCRIPTION

Diario Oficial "Criterios técnicos y procedimiento para el análisis de los instrumentos de evaluación de directores"

TRANSCRIPT

DOF: 13/11/2015

CRITERIOStcnicos y de procedimiento para el anlisis de los instrumentos de evaluacin, el proceso decalificacin y la emisin de resultados de la evaluacin del desempeo de quienes realizan funciones de direccin(directores) en Educacin Bsica, 2015-2016.Al margen un logotipo, que dice: Instituto Nacional para la Evaluacin de la Educacin.CRITERIOS TCNICOS Y DE PROCEDIMIENTO PARA EL ANLISIS DE LOS INSTRUMENTOS DE EVALUACIN,EL PROCESO DE CALIFICACIN Y LA EMISIN DE RESULTADOS DE LA EVALUACIN DEL DESEMPEO DEQUIENES REALIZAN FUNCIONES DE DIRECCIN (DIRECTORES) EN EDUCACIN BSICA, 2015-2016.El presente documento est dirigido a las autoridades educativas que en el marco de sus atribucionesimplementan evaluaciones que, por la naturaleza de sus resultados, regula el Instituto Nacional para laEvaluacin de la Educacin (INEE), en especial las referidas al Servicio Profesional Docente (SPD) que sondesarrolladas por la Coordinacin Nacional del Servicio Profesional Docente (CNSPD).As, y con fundamento en lo dispuesto en los artculos 3o.fraccin IX de la Constitucin Poltica de losEstados Unidos Mexicanos; 7, fraccin X de la Ley General del Servicio Profesional Docente; 22, 28, fraccinX; 38, fracciones IX y XXII de la Ley del Instituto Nacional para la Evaluacin de la Educacin; 54 de losLineamientos para llevar a cabo la evaluacin del desempeo de quienes realizan funciones de docencia,direccin y supervisin en Educacin Bsica y Media Superior, 2015-2016, LINEE-05-2015, la Junta deGobierno aprueba los siguientes criterios tcnicos y de procedimiento para el anlisis de los instrumentosdeevaluacin, el proceso de calificacin y la emisin de resultados de la evaluacin del desempeo de quienesrealizan funciones de direccin (directores) en Educacin Bsica (EB), 2015-2016.Los presentes Criterios tcnicos y de procedimiento tienen como finalidad establecer los referentesnecesarios para garantizar la validez, confiabilidad y equidad de los resultados de los procesos de evaluacin.Su contenido se organiza en cuatro apartados: 1) Caractersticas generales de los instrumentos para evaluarel desempeo de la funcin de direccin (directivos); 2) Criterios tcnicos para el anlisis e integracin de losinstrumentos de evaluacin; 3) Procedimiento para el establecimiento de puntos de corte y estndares dedesempeo de los instrumentos de evaluacin; 4) Resultado de la evaluacin del desempeo: resultado porinstrumento y resultado global. En la parte final se presenta un Anexo con informacin detallada de algunosdelos aspectos tcnicos que se consideran en el documento.Definicin de trminosPara los efectos del presente documento, se emplean las siguientes definiciones:I.Alto impacto:Se indica cuando los resultados del instrumento tienen consecuenciasimportantes para las personas o las instituciones; por ejemplo, en los procesos de admisinocertificacin.II.Calificacin:Proceso de asignacin de una puntuacin o nivel de desempeo logrado a partirde los resultados de una medicin.III.Confiabilidad:Cualidad de las mediciones obtenidas con un instrumento, que se caracterizanpor ser consistentes y estables cuando este se aplica en distintas ocasiones.IV.Constructo:Elaboracin terica formulada para explicar un proceso social, psicolgico oeducativo y cuya adecuada descripcin permite que sea susceptible de ser observableomedible.V.Correlacin punto biserial:Medida de consistencia que se utiliza en el anlisis de reactivos,indica si hay una correlacin entre el resultado de un reactivo con el resultado globaldelexamen.VI.Criterio de evaluacin:Indicador de un valor aceptable sobre el cual se puede establecer ofundamentar un juicio de valor sobre el desempeo de una persona.VII.Desempeo:Resultado obtenido por el sustentante en un proceso de evaluacin o en uninstrumento de evaluacin educativa.VIII.Dificultad de un reactivo:Indica la proporcin de personas que responden correctamente elreactivo de un examen. Entre mayor sea este ndice, menor ser su dificultad y a mayordificultad del reactivo, menor ser su ndice.IX.Distractores:Opciones de respuesta incorrectas del reactivo de opcin mltiple, queprobablemente sern elegidas por los sujetos con menor dominio en lo que se evala.X.Dominio:Conjunto de conocimientos, habilidades, destrezas, actitudes u otros atributos quetienen las siguientes propiedades: lmites, extensin y definicin. Tambin se puede aplicar acontenidos, procedimientos u objetos.XI.Educacin bsica:Tipo de educacin que comprende los niveles de preescolar, primaria ysecundaria en todas sus modalidades, incluyendo la educacin indgena, la especial y la que seimparte en los centros de educacin bsica para adultos.XII.Educacin media superior:Tipo de educacin que comprende el nivel de bachillerato, losdems niveles equivalentes a este, as como la educacin profesional que no requierebachillerato o sus equivalentes.

XIII.Equiparacin:Proceso estadstico que se utiliza para ajustar las puntuaciones de las formasde un mismo instrumento, permite que las puntuaciones de una forma a otra sean utilizadas demanera intercambiable. La equiparacin ajusta, por dificultad, las distintas formas que fueronconstruidas con contenidos y dificultad similar.XIV.Error estndar de medida:Desviacin estndar de una distribucin hipottica de errores demedida de una poblacin.XV.Escala:Procedimiento para asignar nmeros, puntuaciones o medidas a objetos o sucesos conpropiedades especficas a partir de reglas definidas.XVI.Escalamiento:Proceso a travs del cual se construye una escala que facilita la interpretacinde la calificacin que obtienen los sustentantes en uno o varios instrumentos de evaluacin,colocando las puntuaciones de los distintos instrumentos o formas a una escala comn.XVII.Especificaciones de tareas evaluativas o reactivos:Descripcin detallada de lascaractersticas relevantes que se espera hagan los sujetos al sustentar el instrumento deevaluacin y que es posible observar a travs de las tareas evaluativas o los reactivos. Tienenel papel de guiar a los comits acadmicos en la elaboracin y validacin de las tareasevaluativas o de los reactivos y que estos cuenten con los elementos necesarios paraconstruirlos alineados al objeto de medida o constructo que se desea evaluar a travsdelinstrumento.XVIII.Estndar:Principio de valor o calidad en la conduccin y uso de los procedimientos deevaluacin y que son acordados por expertos en evaluacin.XIX.Evaluacin:Accin de emitir juicios de valor sobre un objeto, sujeto o evento queresultandecomparar los resultados de una medicin u observacin con un referente previamenteestablecido.XX.Examen:Instrumento de evaluacin que se emplea para identificar el nivel de dominio de lossustentantes sobre un constructo especfico.XXI.Instrumento de evaluacin:Procedimiento de recoleccin de datos que suelen tener distintosformatos, atendiendo a la naturaleza de la evaluacin, por ejemplo, instrumentos de seleccinde respuesta, instrumentos de respuesta construida, cuestionarios, observaciones, portafolios,entre otros.XXII.Instrumento de evaluacin referido a un criterio:Instrumento que permite comparar eldesempeo de las personas evaluadas, con un estndar preestablecido.XXIII.Jueceo:Mtodo en el cual se utiliza la opinin de expertos (denominados jueces) paradeterminar, entre otras cosas, la pertinencia de la validez de las tareas evaluativas o de losreactivos respecto a un dominio; el establecimiento de estndares de desempeo y puntos decorte; as como la calificacin de reactivos de respuesta construida.XXIV.Medicin:Proceso de asignacin de valores numricos a atributos de las personas,caractersticas de objetos o eventos de acuerdo con reglas especficas que permitan que suspropiedades puedan ser representadas cuantitativamente.XXV.Muestra:Subconjunto de la poblacin de inters que refleja las variables medidas en unadistribucin semejante a las de la poblacin.XXVI.Multi-reactivo:Conjunto de reactivos de opcin mltiple que estn vinculados a unplanteamiento general, por lo que este ltimo es indispensable para poder resolverlos.XXVII.Nivel de desempeo:Criterio conceptual que delimita el marco interpretativo de laspuntuaciones obtenidas en un instrumento de evaluacin, y que refiere a lo que la personaevaluada es capaz de hacer en trminos de conocimientos, destrezas o habilidades en elcontexto del instrumento.XXVIII.Objeto de medida:Conjunto de caractersticas o atributos que se miden en el instrumentodeevaluacin.XXIX.Parmetro estadstico:Nmero que resume un conjunto de datos que se derivan del anlisisde una cualidad o caracterstica del objeto de estudio.XXX.Perfil:Conjunto de caractersticas, requisitos, cualidades o aptitudes que deber tener elsustentante a desempear un puesto o funcin descrito especficamente.XXXI.Porcentaje de acuerdos inter-jueces:Medida del grado en que dos jueces coinciden en lapuntuacin asignada a un sujeto cuyo desempeo es evaluado a travs de una rbrica.XXXII.Porcentaje de acuerdos intra-jueces:Medida del grado en que el mismo juez, a travs de doso ms mediciones repetidas a los mismos sujetos que evala, coincide en la puntuacinasignada al desempeo de los sujetos, evaluado a travs de una rbrica.XXXIII.Punto de corte:En instrumentos de evaluacin con referencia a un estndar de desempeo,es la puntuacin mnima o criterio a alcanzar o a superar para considerar que el nivel dedesempeo de una persona cumple con lo esperado y distinguirlo de otro que no.XXXIV.Puntuacin:Nmero de aciertos obtenidos en un instrumento de evaluacin.

XXXV.Reactivo:Unidad bsica de medida de un instrumento de evaluacin que consiste en unapregunta o instruccin que requiere una respuesta del sujeto.XXXVI.Rbrica:Herramienta que integra los criterios a partir de los cuales se califica una tareaevaluativa.XXXVII.Sesgo:Error en la medicin de un atributo (por ejemplo, conocimiento o habilidad), debido auna variable no controlada, como las diferencias culturales o lingsticas de las personasevaluadas.XXXVIII.Tareas evaluativas:Unidad bsica de medida de un instrumento de evaluacin que consisteen la ejecucin de una actividad que es susceptible de ser observada.XXXIX.Validez:Juicio valorativo integrador sobre el grado en que los fundamentos tericos y lasevidencias empricas apoyan la interpretacin de las puntuaciones de los instrumentos deevaluacin.1.Caractersticas generales de los instrumentos para evaluar el desempeo de la funcin dedireccin (directivos)Comment by Luis Antonio Medina Gonzlez: Proceso en que se focaliza la evaluacin del desempeo. Estas etapas son las misma que el ciclo escolar anterior.Laevaluacin del desempeoes un proceso integrado que incluye varios instrumentos que dan cuenta delos diferentes aspectos que se describen en los Perfiles, parmetros e indicadores establecidos por laautoridad educativa. A continuacin se describen sucintamente cada uno de ellos.Expediente de evidencias de la funcin de direccinEste instrumento evala el anlisis y la reflexin que el director hace de la informacin contenida en lasevidencias de su gestin directiva, a partir de argumentar las decisiones y acciones que toma en el ejerciciode su funcin.Examen de conocimientos y habilidades directivasEste instrumento evala los conocimientos y las competencias que el director pone en juego para propiciarel adecuado funcionamiento de la escuela al coordinar, gestionar y ejercer un liderazgo en los procesos demejora continua, a partir de la resolucin de situaciones hipotticas de la prctica escolar.Ruta de mejora argumentadaEste instrumento evala la capacidad del director para analizar el contexto interno y externo de la escuela,jerarquizar prioridades y definir metas en la Ruta de mejora, as como la argumentacin que hace parapropiciar la mejora continua de la escuela y los aprendizajes de los alumnos.2.Criterios tcnicos para el anlisis e integracin de los instrumentos de evaluacinUno de los aspectos fundamentales que debe llevarse a cabo antes de emitir cualquier resultado de unproceso de evaluacin es el anlisis psicomtrico de los instrumentos que integran la evaluacin, con elobjetivo de verificar que cuentan con la calidad tcnica necesaria para proporcionar resultados confiables,acordes con el objetivo de la evaluacin.Las tcnicas empleadas para el anlisis de un instrumento dependen de su naturaleza, de los objetivosespecficos para el cual fue diseado, as como del tamao de la poblacin evaluada. Sin embargo, en todoslos casos, debe aportarse informacin sobre la dificultad y discriminacin de sus reactivos o tareasevaluativas, as como la precisin del instrumento, los indicadores de consistencia interna o estabilidad delinstrumento, los cuales, adems de los elementos asociados a la conceptualizacin del objeto de medida,forman parte de las evidencias que servirn para valorar la validez de la interpretacin de sus resultados.Estos elementos, debern reportarse en el informe o manual tcnico del instrumento.Con base en los resultados de estos procesos de anlisis deben identificarse las tareas evaluativas o losreactivos que cumplen con los criterios psicomtricos especificados en este documento para integrar elinstrumento, para calificar el desempeo de las personas evaluadas, con la mayor precisin posible.Para llevar a cabo el anlisis de los instrumentos de medicin utilizados en el proceso de evaluacin, esnecesario que los distintos grupos de sustentantes de las entidades federativas queden equitativamenterepresentados, dado que la cantidad de sustentantes por tipo de evaluacin en cada entidad federativa esnotoriamente diferente. Para ello, se definir una muestra de sustentantes por cada instrumento de evaluacinque servir para analizar el comportamiento estadstico de los instrumentos y orientar los procedimientosdescritos ms adelante, y que son previos para la calificacin. Para conformar dicha muestra, cada entidadfederativa contribuir con 500 sustentantes como mximo, y debern ser elegidos aleatoriamente. Si haymenos de 500 sustentantes, todos se incluirn en la muestra (OECD; 2002, 2005, 2009, 2014). Si no serealizara este procedimiento, las decisiones sobre los instrumentos de evaluacin, la identificacin de lospuntos de corte y los estndares de desempeo, se veran fuertemente influenciados, indebidamente, por eldesempeo mostrado por aquellas entidades que se caracterizan por tener un mayor nmero de sustentantes.Sobre la conformacin de los instrumentos de evaluacinComment by Luis Antonio Medina Gonzlez: Sentido y construccin del examen de conocimientos, esto debe quedar muy claro para todos aquellos que son susceptibles de evaluacin.Con la finalidad de obtener puntuaciones de los sustentantes con el nivel de precisin requerido para lospropsitos de la evaluacin, los instrumentos debern tener las siguientes caractersticas:Exmenes de casos con reactivos de opcin mltiple:Debern estar organizados en, al menos, dos niveles de desagregacin (reas y subreas; si fuera elcaso, temas); el primero deber contar, al menos, con dos conjuntos de contenidos especficosaevaluar.

apartir del segundo nivel (o tercer nivel, si fuera el caso) de desagregacin, se debern elaborar lasespecificaciones de las tareas evaluativas. Cada especificacin deber tener su definicinoperacional. Para cada especificacin deber existir, al menos, un reactivo con el cual ser evaluada.Los instrumentos de evaluacin debern tener, al menos, 80 reactivos efectivos para calificacin ydeber documentarse el procedimiento que se sigui para determinar la estructura del instrumentoyla cantidad de reactivos que lo conforman, a fin de justificar la relevancia (ponderacin) de loscontenidos especficos evaluados en el mismo.Para el diseo de los casos asociados a un solo reactivo debe cuidarse la extensin, a fin de que seincorpore nicamente la informacin que sea indispensable para resolver el reactivo.Para el diseo de los casos con formato de multi-reactivo deber verificarse que: a) todos losreactivos necesiten del planteamiento general para ser contestados; b) los reactivos evalenconocimientos o habilidades complejas, no de reconocimiento; c) los reactivos sean independientesentre s, esto es, que para poder responderse no requieran de la informacin incorporada en algunode ellos, o bien, de la respuesta dada a algn otro.Exmenes de respuesta construida:Debern estar organizados en, al menos, dos niveles de desagregacin (reas y subreas; si fueraelcaso, temas); el primero deber contar, al menos, con dos conjuntos de contenidos especficosaevaluar.A partir del segundo nivel (o tercer nivel, si fuera el caso) de desagregacin, se debernelaborar lasespecificaciones de las tareas evaluativas. Cada especificacin deber tener su definicinoperacional.Con base en las definiciones operacionales se disearn los niveles o categoras de ejecucin quese incluirn en las rbricas o guas de calificacin.En las rbricas o guas de calificacin los distintos niveles o categoras de ejecucin que seconsignen, debern ser claramente distinguibles entre s y con un diseo ordinal ascendente(demenor a mayor valor).Criterios y parmetros estadsticosLos instrumentos empleados para la evaluacin del desempeo de quienes realizan funciones de direccin(directores) en Educacin Bsica (eb) 2015-2016, debern atender los siguientes criterios y parmetrosestadsticos (Cook y Beckman 2006; Downing, 2004; Stemler y Tsai, 2008):I a. En el caso de los instrumentos de evaluacin basados en casos a partir de reactivos deopcinmltiple:La respuesta correcta deber tener una dificultad clsica de 10% a 90% y una correlacin puntobiserial corregida igual o mayor que 0.20.Los distractores debern tener correlaciones punto biserial negativas.La confiabilidad del instrumento deber ser igual o mayor que 0.90.II a. En el caso de los instrumentos basados en tareas evaluativas o en reactivos de respuestaconstruida, y que sern calificados con rbrica,(en el anexo del presente documento se detalla elprotocolo de calificacin para el trabajo con jueces) se debern atender los siguientes criterios y parmetrosestadsticos:La confiabilidad del instrumento deber ser igual o mayor que 0.80.La correlacin entre cada aspecto evaluado con la puntuacin global deber ser igual o mayorque0.30.El porcentaje de acuerdos inter-jueces deber ser igual o mayor que 70%.El porcentaje de acuerdos intra-jueces deber ser igual o mayor que 80% considerando, al menos,cinco medidas repetidas seleccionadas al azar. Estas mediciones debern aportarse antes de emitirla calificacin definitiva del sustentante, a fin de salvaguardar la confiabilidad de la decisin.I b. En el caso de los instrumentos de evaluacin con reactivos de opcin mltiple:La respuesta correcta deber tener una dificultad clsica de 10% a 90% y una correlacin puntobiserial corregida igual o mayor que 0.15.Los distractores debern tener correlaciones punto biserial negativas.La confiabilidad del instrumento deber ser igual o mayor que 0.80.II b. En el caso de los instrumentos basados en tareas evaluativas o en reactivos de respuestaconstruida y que sern calificados con rbrica:La correlacin entre cada aspecto evaluado con la puntuacin global deber ser igual o mayorque0.20.La confiabilidad del instrumento deber ser igual o mayor que 0.70.El porcentaje de acuerdos inter-jueces deber ser igual o mayor que 60%.

el porcentaje de acuerdos intra-jueces deber ser igual o mayor que 70% considerando, al menos,cinco medidas repetidas seleccionadas al azar. Estas mediciones debern aportarse antes de emitirla calificacin definitiva del sustentante, a fin de salvaguardar la confiabilidad de la decisin.En caso de que algn instrumento no satisfaga los criterios y parmetros estadsticos antes indicados, laJunta de Gobierno del Instituto determinar lo conducente, buscando salvaguardar la estructura delinstrumento que fue aprobada por el Consejo Tcnico y atendiendo al marco jurdico aplicable.3.Procedimiento para el establecimiento de puntos de corte y estndares de desempeo de losinstrumentos de evaluacinUn paso crucial en el desarrollo y uso de los instrumentos de evaluacin de naturaleza criterial, como es elcaso de los que se utilizarn para laevaluacin del desempeo de quienes realizan funciones de direccin(directores) en Educacin Bsica (eb) 2015-2016,es el establecimiento de los puntos de corte que dividen elrango de calificaciones para diferenciar entre niveles de desempeo.En los instrumentos de evaluacin de tipo criterial, la calificacin obtenida por cada sustentante secontrasta con un estndar de desempeo establecido por un grupo de expertos que describe el nivel decompetencia requerido para algn propsito determinado, es decir, los conocimientos y habilidades que, paracada instrumento de evaluacin, se consideran indispensables para un desempeo adecuado en la funcinprofesional. En este sentido el estndar de desempeo delimita el marco interpretativo de las puntuacionesobtenidas en un instrumento por los sustentantes. El procedimiento para el establecimiento de puntos de cortey estndares de desempeo incluye tres fases, las cuales se describen a continuacin:Primera faseComment by Luis Antonio Medina Gonzlez: Esto es importante que quede fijo en el entendimiento de todos los supervisores y directores a fin de dilucidar situaciones que surgen entre los maestros. Con el fin de contar con un marco de referencia comn para los distintos instrumentos de evaluacin, sedebern establecer descriptores genricos de los niveles de desempeo que se utilizarn ycuya nicafuncines orientar a los comits acadmicos en el trabajo del desarrollo de los descriptores especficosdecada instrumento, tales que les permita a los directivos (directores) tener claros elementos deretroalimentacin para conocer sus fortalezas y reas de oportunidad identificadas a partir de los resultadosde cada instrumento sustentado.Para todos los instrumentos se utilizarn cuatro niveles de desempeo: Nivel I (N I), Nivel II (N II), Nivel III(N III) y Nivel IV (N IV). Los descriptores genricos para los diferentes grupos de instrumentos y cada nivel seindican en las Tablas 1a, 1b y 1c.

Tabla 1a.Descriptores genricos de los niveles de desempeo para el instrumento Expediente deevidencias de la funcin de direccinNivel dedesempeoDescriptor

Nivel I(N I)El directivo aunque presenta evidencias de sus acciones para organizar el trabajo de laescuela, los argumentos que aporta sobre las decisiones y acciones tomadas enconjunto con el Consejo Tcnico Escolar y el Consejo Escolar de Participacin Socialson faltos de sistematizacin y estructura, por lo que no se observa una clara relacincon el objetivo de mejora de la calidad de los aprendizajes.

Nivel II(N II)El directivo presenta evidencias de sus acciones para organizar el trabajo de laescuela, y aporta argumentos que justifican las decisiones y acciones tomadas enconjunto con el Consejo Tcnico Escolar y el Consejo Escolar de Participacin Social yque han sido encaminadas a lograr el objetivo de la mejora de la calidad de losaprendizajes. Asimismo, ofrece una adecuada reflexin sobre sus cualidades yaptitudes en el ejercicio de su funcin.

Nivel III(N III)El directivo presenta slidas evidencias de sus acciones para organizar el trabajo de laescuela, y aporta argumentos relevantes que justifican las decisiones y accionestomadas en conjunto con el Consejo Tcnico Escolar y el Consejo Escolar deParticipacin Social y que han sido encaminadas a lograr el objetivo de la mejora de lacalidad de los aprendizajes, tomando en consideracin el contexto de la escuela,lapriorizacin de objetivos, en funcin de las necesidades ms apremiantes. Asimismo,ofrece una adecuada reflexin sobre sus cualidades y aptitudes en el ejercicio de sufuncin, as como la necesidad de continuar con su desarrollo profesional.

Nivel IV(N IV)El directivo presenta slidas evidencias de sus acciones para organizar el trabajo de laescuela, y aporta, con exhaustividad, argumentos relevantes que justifican lasdecisiones y acciones tomadas en conjunto con el Consejo Tcnico Escolar y elConsejo Escolar de Participacin Social y que han sido encaminadas a lograrelobjetivo de la mejora de la calidad de los aprendizajes. Se observa tambin queconsider el contexto de la escuela, el entorno socio-cultural y otorg especial atencina las caractersticas y a la diversidad de los estudiantes; a partir de ello y de lasnecesidades identificadas, se observa que se priorizaron estratgicamente losobjetivos y las posibilidades de intervencin y gestin, en colaboracin con las familias,la comunidad e incluso de otras instituciones interesadas en la mejora educativa delaescuela. Por otra parte, ofrece una adecuada reflexin sobre sus cualidades yaptitudes en el ejercicio de su funcin, as como la necesidad de enriquecer sudesarrollo profesional, con la disponibilidad de realizarlo con apoyo de los recursostecnolgicos disponibles.

Tabla 1b.Descriptores genricos de los niveles de desempeo para el instrumento Examen deconocimientos y habilidades directivasNivel dedesempeoDescriptor

Nivel I(N I)El directivo cuenta con los conocimientos bsicos para la adecuada organizacin yfuncionamiento escolar, as como de los componentes del currculo, del aprendizajede los alumnos, de los elementos del trabajo en el aula y de las prcticas docentes.Sin embargo, presenta carencias fundamentales respecto a la relevancia deincorporar en la gestin estrategias para una adecuada construccin de ambientesde inclusin y equidad en la escuela.

Nivel II(N II)El directivo demuestra conocimientos esenciales sobre las formas de organizacin yfuncionamiento escolar, as como de los componentes del currculo, del aprendizajede los alumnos, de los elementos del trabajo en el aula y de las prcticas docentesque le permitan favorecer, a travs de su desempeo, el funcionamiento eficaz de laescuela. Tambin, a travs de su gestin, incorpora prcticas que promueven laconstruccin de ambientes de inclusin y equidad viables en situaciones escolares,as como la promocin de principios ticos, filosficos y fundamentos legales encontextos educativos.

Nivel III(N III)El directivo demuestra conocimientos y habilidades indispensables para realizardiversas formas de organizacin y funcionamiento escolar, considerando lassituaciones de contexto y diversidad de la comunidad escolar y del entorno socio-cultural en el cual se desenvuelve el acto educativo. Asimismo, demuestra undominio slido de los distintos componentes del currculo, del aprendizaje de losalumnos, de los elementos del trabajo en el aula y de las prcticas docentes que lepermitan favorecer, a travs de su desempeo, el funcionamiento eficaz de laescuela. Tambin, a travs de su gestin, incorpora prcticas que promueven laconstruccin de ambientes de inclusin, equidad y respeto, viables en situacionesescolares, as como la promocin de principios ticos, filosficos y fundamentoslegales en contextos educativos y adaptarlos a las demandas especficas de lascondiciones escolares y de la poblacin estudiantil. Adems, analiza su prcticaprofesionalpara mejorarla.

Nivel IV(N IV)El directivo demuestra conocimientos y habilidades slidas y sistematizadas paraimplementar diversas formas de organizacin y funcionamiento escolar, con ampliasensibilidad a las situaciones de contexto de la comunidad escolar y del entornosocio-cultural en el cual se desenvuelve el acto educativo. Adems, demuestra unamplio dominio de los distintos componentes del currculo, del aprendizaje de losalumnos, de los elementos del trabajo en el aula y de las prcticas docentes, talesque le permitan favorecer, a travs de su desempeo, el funcionamiento eficiente yeficaz de la escuela. Por otra parte, gestiona y promueve la construccin deambientes de inclusin, equidad, respeto y reconocimiento a la diversidad ensituaciones escolares, as como de la promocin de principios ticos, filosficos yfundamentos legales en contextos educativos. Tambin realiza gestiones paracontribuir a la mejora educativa y a la calidad de los aprendizajes de los alumnosalestablecer vnculos entre el trabajo de la escuela y el de la zona escolar. Por otraparte, reflexiona sistemticamente sobre su prctica profesional para mejorarla, atravs de mecanismos de autoaprendizaje, formacin y capacitacin profesional, conel uso de las tecnologas de la informacin.

Tabla 1c.Descriptores genricos de los niveles de desempeo para el instrumentoRuta de mejora argumentadaNivel dedesempeoDescriptor

Nivel I(N I)El director demuestra algunas dificultades para plantear cules son los elementosque integran la Ruta de mejora, adems de que presenta debilidades para analizar elcontexto interno y externo de la escuela, hacer un diagnstico de la misma,jerarquizar prioridades y definir metas para el plantel, as como para evaluar losresultados de su gestin.

Nivel II(N II)El director demuestra conocimientos y habilidades bsicas para argumentar loselementos indispensables que integran la Ruta de mejora, sin embargo, muestracapacidad para analizar el contexto interno y externo de la escuela, hacer undiagnstico de la misma, jerarquizar prioridades y definir metas para el plantel, ascomo para evaluar los resultados de su gestin, tales que le permita plantearacciones encaminadas hacia la mejora continua y el funcionamiento de la escuela,cumpliendo con la Normalidad Mnima de Operacin Escolar.

Nivel III(N III)El director demuestra conocimientos y habilidades slidas para argumentar, justificary dar sustento a los elementos que integran la Ruta de mejora, adems de quemuestra capacidades para analizar el contexto interno y externo de la escuela, hacerun diagnstico de la misma, jerarquizar prioridades y definir metas para el plantel.Por otra parte, establece acciones de vinculacin entre la escuela y la comunidadpara fortalecer los aprendizajes de los alumnos y evala los resultados de su gestinpara plantear acciones encaminadas hacia la mejora continua y el funcionamientoeficaz de la escuela, cumpliendo con la Normalidad Mnima de Operacin Escolar.

Nivel IV(N IV)El director demuestra conocimientos y habilidades slidas y organizadas paraargumentar, justificar y dar sustento a los elementos que integran la Ruta de mejora.Adems, muestra amplia capacidad para analizar el contexto interno y externo de laescuela, hacer un diagnstico de la situacin y con base en ello, establecerprioridades y metas para el plantel, buscando la vinculacin entre la escuela y lacomunidad a fin de fortalecer los aprendizajes de los alumnos. Por otra parte, evalalos resultados de su gestin para plantear acciones encaminadas hacia la mejoracontinua y el funcionamiento eficiente y eficaz de la escuela, haciendo usoresponsable de los recursos con los que cuenta y cumpliendo con la NormalidadMnima de Operacin Escolar. Adems, disea estrategias viables para la atencin alos alumnos en riesgo de reprobacin, rezago o desercin escolar, incorporando enellas a los padres de familia, a la planta docente y a la comunidad escolar en general.

Segunda faseEn esta fase se establecern los puntos de corte y debern participar los comits acadmicos especficospara el instrumento de evaluacin que se est trabajando. Dichos comits se debern conformar, en suconjunto, con especialistas que han participado en el diseo de los instrumentos y cuya pluralidad searepresentativa de la diversidad cultural en que se desenvuelve la accin educativa del pas. En todos loscasos, sus miembros debern ser capacitados especficamente para ejercer su mejor juicio profesionala finde identificar cul es la puntuacin requerida para que el sustentante alcance un determinado nivel o estndarde desempeo.

Los insumos que tendrn como referentes para el desarrollo de esta actividad, ser la documentacin quedescribe la estructura de los instrumentos, las especificaciones y los ejemplos de tareas evaluativas oreactivos incluidos en las mismas. En todos los casos, los puntos de corte se referirn a la ejecucin tpicaoesperable de un sustentante hipottico, con un desempeo mnimamente aceptable, para cada uno de losniveles (N I,N II, N III o N IV). Para ello, se deber determinar, para cada tarea evaluativa o reactivoconsiderado en el instrumento, cul es la probabilidad de que dichos sustentantes hipotticos lo respondancorrectamente y, con base en la suma de estas probabilidades, establecer la calificacin mnima requeridaopunto de corte, para cada nivel de desempeo (Angoff, 1971).Una vez establecidos los puntos de corte que dividen el rango de calificaciones para diferenciar los nivelesde desempeo en cada instrumento, considerando el conjunto de reactivos que, en cada caso el sustentantehipottico es capaz de responder, se debern describir los conocimientos y las habilidades especficos queestn implicados en cada nivel de desempeo, en trminos de lo que este conoce y es capaz de hacer.Tercera faseEn la tercera fase se llevar a cabo un ejercicio de retroalimentacin a los miembros de los comitsacadmicos con el fin de contrastar sus expectativas sobre el desempeo de la poblacin evaluada, con ladistribucin de sustentantes que se obtiene en cada nivel de desempeo al utilizar los puntos de cortedefinidos en la segunda fase, una vez que se cuente con los resultados alcanzados por los sustentantes, a finde determinar si es necesario realizar algn ajuste en la decisin tomada con anterioridad y, de ser el caso,llevar a cabo el ajuste correspondiente.Los jueces debern estimar la tasa de sustentantes que se esperara alcanzara cada nivel de desempeopreviamente definido, y comparar esta expectativa con los datos reales de los sustentantes, una vez aplicadoslos instrumentos. Si las expectativas y los resultados difieren a juicio de los expertos, deber definirse unpunto de concordancia para la determinacin definitiva del punto de corte asociado a cada nivel dedesempeo en cada uno de los instrumentos, siguiendo el mtodo propuesto por Beuk, (1984).La tercera fase se llevar a cabo solamente para aquellos instrumentos de evaluacin en los que eltamao de la poblacin evaluada sea igual o mayor a 100 sustentantes. Si la poblacin es menor a 100sustentantes, los puntos de corte sern los definidos en la segunda fase.Si se diera el caso de que algn instrumento no cumpliera con el criterio de confiabilidad indicado enelapartado previo, la Junta de Gobierno del Instituto determinar el procedimiento a seguir para elestablecimiento de los puntos de corte correspondientes, atendiendo al marco jurdico aplicable.4.Resultado de la evaluacin del desempeo: resultado por instrumento y resultado globalTodos los sustentantes que participen en los procesos para la evaluacin del desempeo de quienesrealizan funciones de direccin (directores) en Educacin Bsica 2015-2016, recibirn los resultados de cadauno de los instrumentos de evaluacin(1)as como el resultado global de todo el proceso de evaluacin. Acontinuacin se presentan dos subapartados: en el primero se describen los procedimientos para calificar losresultados de los sustentantes en cada instrumento y la escala utilizada para reportarlos; en el segundo sedetallan los procedimientos para la obtencin del resultado global y la conformacin de los gruposdedesempeo.4.1Calificacin de los resultados obtenidos por los sustentantes en los distintos instrumentosque constituyen el proceso de evaluacin y la escala en que se reportarnEn cada plan de evaluacin es indispensable definir la escala en la que se reportarn los resultados de lossustentantes. Existen muchos tipos de escalas de calificacin; en las escalas referidas a norma, lascalificaciones indican la posicin relativa del sustentante en una determinada poblacin. En las escalasreferidas a criterio cada calificacin en la escala representa un nivel particular de desempeo referido a unestndar previamente definido en un campo de conocimiento o habilidad especficos.El escalamiento que se llevar a cabo en este proceso de evaluacin, permitir construir una mtricacomn para todos los instrumentos que se administrarn. Consta de dos transformaciones, la primeradenominada doble arcoseno, que permite estabilizar la magnitud de la precisin de las puntuacionesa lo largode la escala; la segunda transformacin es lineal y ubica el punto de corte del nivel de desempeo II en unmismo valor para todos los exmenes: puntuacin de 100 en esta escala (cuyo rango va de 60a 170puntos(2)).Al utilizar esta escala, diferente a las escalas que se utilizan para reportar resultados de aprendizaje en elaula (de 5 a 10 o de 0% a 100%, donde el 6 o 60% de aciertos es aprobatorio), se evita que se realiceninterpretaciones equivocadas de los resultados obtenidos en los exmenes, en virtud de que en los exmenesdelspdcada calificacin representa un nivel particular de desempeo respecto a un estndar previamentedefinido, el cual puede implicar un nmero de aciertos diferente en cada caso.En la siguiente grfica puede observarse el nmero de aciertos obtenidos en dos instrumentos delongitudes diferentes y con puntos de corte distintos que, a partir del escalamiento, es posible graficar en unamisma escala, trasladando el primer punto de corte a 100 puntos, aun cuando en cada examen el puntodecorte refiera a nmero de aciertos diferente. En este ejemplo la distribucin de las puntuaciones va de65 a125 puntos.

4.2Calificacin del resultado global, escala en que se reportar y procedimiento para laconformacin de los grupos de desempeoEl resultado global de la evaluacin se realizar considerando los siguientes instrumentos:oExpediente de evidencias de la funcin de direccinoExamen de conocimientos y habilidades directivasoRuta de mejora argumentadaLa calificacin globalLa calificacin global est concebida como compensatoria en tanto que hay un efecto aditivo que permiteque las puntuaciones parciales obtenidas en cada uno de los instrumentos utilizados para la evaluacin deldesempeo, se integren en una puntuacin nica sobre la que se establecer el punto de corte global. Esteefecto permite que las principales fortalezas de los directivos (directores) compensen sus posibles reasdeoportunidad en otros aspectos evaluados.Una vez sumado los aportes que hace cada instrumento que se utilizan para calificar a la puntuacin total,se lleva a cabo la transformacin a una escala que va de 800 a 1 600 puntos(3).Lo anterior con la finalidad defacilitar la comunicacin del resultado global de la evaluacin, porque siempre referir a la misma puntuacinpara determinar los grupos de desempeo.A manera de ejemplo, en las siguientes grficas, en el eje horizontal se muestra que la puntuacin total delos instrumentos ser variable, esto se debe a que depende de la cantidad de instrumentos que considere laevaluacin y la puntuacin alcanzada en cada uno de ellos. Sin embargo, la transformacin que se realizapermitir comunicar que para el resultado"Suficiente"se requieren, al menos, 1 000 puntos; para el grupo"Bueno", al menos, 1 200 puntos y para el grupo"Destacado", al menos, 1 400 puntos (representados en eleje vertical).

Asimismo, en los ejemplos se observa que, en la grfica de la izquierda, el punto de corte para alcanzar elresultado"Suficiente"es 285 puntos y en la derecha 330 puntos; sin embargo, en ambos casos la puntuacinglobal estar referida a 1 000 puntos.Esto mismo ocurre para los siguientes grupos, en los cuales, para alcanzar el resultado global de"Bueno"y"Destacado"son 325 puntos y 355 puntos, respectivamente, en la grfica izquierda. No as, para la grficaderecha en donde para alcanzar estos mismos resultados se requiere de 370 puntos y 395 puntos,respectivamente. En ambos casos, para el grupo de desempeo de"Bueno"ser de 1 200 puntos y para"Destacado"de 1 400 puntos.El resultado"No se present a la evaluacin"Para el caso en que el directivo (director) no sustente NINGUNO de los instrumentos considerados paraefectos de calificacin, su resultado global ser"No se present a la evaluacin"y en cada instrumento slose le asignar"NP: no present". Asimismo, debido a que no se cuenta con informacin, tampoco tendrdevolucin de los instrumentos que constituyen el proceso de evaluacin del desempeo.El resultado"Insuficiente"Se asignar el resultado"Insuficiente"cuando el directivo (director):No sustente alguno o algunos de los instrumentos que son considerados para la calificacin, loscuales son: i) Expediente de evidencias de la funcin de direccin; ii) Examen de conocimientos yhabilidades directivas; iii) Ruta de mejora argumentada.No se dar puntuacin global ni tampocoformar parte de los grupos de desempeo, pero recibir la retroalimentacin quecorresponda.No obtenga, al menos, N II en dos de los tres instrumentos.No se dar puntuacin global nitampoco formar parte de los grupos de desempeo, pero recibir la retroalimentacin quecorresponda.Haya obtenidomenosde 1 000 puntos en el resultado global de la evaluacin.No formar parte delos grupos de desempeo, pero recibir la retroalimentacin que corresponda.Se enfatiza que en cualquiera de estos escenarios los directivos (directores) recibirn los resultadosalcanzados en los instrumentos de evaluacin que hayan sustentado, a fin de proporcionarlesretroalimentacin para que conozcan sus fortalezas, debilidades y reas de oportunidad.El resultado"Suficiente"Comment by Luis Antonio Medina Gonzlez: Evaluacin de desempeo, categorizacin de resultados.Resultado Suficiente

El director con un resultado Suficiente en el proceso de evaluacin ser aquel que cumpla con lossiguientes criterios:1)obtenga, al menos, el nivel de desempeo II (N II) en por lo menos dos de los tres instrumentos queintegran el proceso de evaluacin.2)obtenga al menos 1 000 puntos en la escala de calificacin global.

Todos los instrumentos tendrn la misma jerarqua o peso en la puntuacin total de la calificacin, por loque el resultado global de la evaluacin del desempeo estar dado considerando la puntuacin que aportacada uno de los instrumentos. De esta forma el efecto compensatorio de la puntuacin global no se veafectado ni distorsionado por una ponderacin diferenciada de los instrumentos de evaluacin.La conformacin de los grupos de desempeoLos grupos de desempeo estarn conformados nicamente por los sustentantes que obtengan, al menos,un resultado"Suficiente"en la evaluacin, esto es, hayan alcanzado el criterio del nmero de instrumentosmnimos en N II y, al menos 1 000 puntos en la escala global. Con base en lo anterior, el resultado de laevaluacin de desempeo del directivo (director) puede ubicarse en alguna de las siguientes categoras:Resultado de la evaluacin: grupos de desempeoCriterios para formar partede un grupo de desempeo en Educacin Bsica

Resultado de la evaluacinPuntuacin global en escala 800 - 1 600

SuficienteoDe 1 000 a 1 199 puntos en la puntuacin global

BuenooDe 1 200 a 1 399 puntos en la puntuacin global

DestacadooAl menos 1 400 puntos en la puntuacin global

Sobre los resultados de la evaluacinEl resultado de la evaluacin, tanto para los resultados"Insuficientes", como de aquellos que forman partede un grupo de desempeo ("Suficiente","Bueno"o"Destacado"), aportar informacin relevante para disearprogramas y acciones de capacitacin, formacin y acompaamiento. Por otra parte, para los casos en queaplique, los resultados sern vinculados con el Programa de promocin en la funcin por incentivos eneb.AnexoEl propsito de este anexo es detallar los aspectos tcnicos especficos de los distintos procedimientosque se han enunciado en el cuerpo del documento, as como de brindar mayores elementos para suentendimiento y fundamento metodolgico.Protocolo de calificacin por jueces para las rbricasA continuacin se presenta un protocolo que recupera propuestas sistemticas de la literaturaespecializada (Jonsson y Svingby, 2007; Rezaei y Lovorn, 2010; Stemler y Tsai, 2008; Stellmack, et. al, 2009).1.Se reciben las evidencias de evaluacin de los sustentantes, mismas que deben cumplir con lascaractersticas solicitadas por la autoridad educativa.2.Se da a conocer a los jueces la rbrica de calificacin y se les capacita para su uso.3.Las evidencias de los sustentantes son asignadas de manera aleatoria a los jueces, por ejemplo sepueden considerarredes no dirigidas; intuitivamente, una red no dirigida puede pensarse como aquella en laque las conexiones entre los nodos siempre son simtricas (si A est conectado con B, entonces B estconectado con A y sucesivamente con losnnmero de jueces conectados entre s), este tipo de asignacin alazar permite contar con indicadores iniciales de cuando un juez est siendo reiteradamente"estricto"oreiteradamente"laxo"en la calificacin, lo cual ayudar a saber si es necesario volver a capacitar a alguno delos jueces y permitir obtener datos de consistencia inter-juez.4.Cada juez califica de manera individual las evidencias sin conocer la identidad ni el centro de trabajo delos sustentantes o cualquier otro dato que pudiera alterar la imparcialidad de la decisin del juez.5.Los jueces emiten la calificacin de cada sustentante, seleccionando la categora de ejecucin queconsideren debe recibir el sustentante para cada uno de los aspectos a evaluar que constituyen la rbrica,esto en una escala ordinal (por ejemplo: de 0 a 3, de 0 a 4, de 1 a 6, etc.), lo pueden hacer en un formatoimpreso o electrnico a fin de conservar dichas evidencias.6.Si existen discrepancias entre los jueces en cuanto a la asignacin de categoras en cada aspecto aevaluar se deben tomar decisiones al respecto, a continuacin se muestran sugerencias para esta toma dedecisiones:a. Cuando la calificacin que se asigna corresponde a categoras de ejecucin contiguas (por ejemplo:1-2) se puede asignar la categora superior. Esto permite"favorecer"al sustentante ante dicho desacuerdo entrelos jueces.b. Cuando son categoras no contiguas de la rbrica:-Si existe solamente una categora en medio de las decisiones de los jueces (por ejemplo: 1-3), sedebe asignar al sustentante la categora de en medio. No se deben promediar los valores asignadosa las categoras.-Si existe ms de una categora en medio de las decisiones de los jueces (por ejemplo: 1-4), se debesolicitar a los jueces que verifiquen si no hubo un error al momento de plasmar su decisin. En casode no haber ajustes por este motivo, se requiere la intervencin de un tercer juez y asignarle alsustentante las categoras en cada aspecto a evaluar considerando la decisin del tercer juez y la deljuez que haba plasmado la decisin ms cercana a l. Esto mismo aplica cuando hay reiteradasdiscrepancias amplias entre los jueces.7.Los jueces firman la evidencia con las asignaciones de categoras definitivas en cada aspecto a evaluar.8.La calificacin global del sustentante se determina de la siguiente forma:a.Se identifica la categora asignada al sustentante en cada aspecto a evaluar.b.Se identifica el valor asignado a cada categora de la rbrica.c.La suma de los valores es el resultado de la calificacin.9.Las asignaciones de categoras del sustentante en cada aspecto a evaluar para emitir su calificacinglobal definitiva son plasmadas en algn formato impreso o electrnico, con la debida firma, autgrafa oelectrnica de los jueces, a fin de que queden resguardadas como evidencia del acuerdo de la calificacindefinitiva del proceso de jueceo.Mtodos para establecer puntos de corte y niveles de desempeo

Mtodo de AngoffEl mtodo de Angoff est basado en los juicios de los expertos sobre los reactivos y contenidos que seevalan a travs de exmenes. De manera general, el mtodo considera que el punto de corte se define apartir de la ejecucin promedio de un sustentante hipottico que cuenta con los conocimientos, habilidades odestrezas que se consideran indispensables para la realizacin de una tarea en particular; los jueces estiman,para cada pregunta, cul es la probabilidad de que dicho sustentante acierte o responda correctamente.ProcedimientoPrimero se juzgan algunas preguntas, con tiempo suficiente para explicar las razones de las respuestas algrupo de expertos y que les permite homologar criterios y familiarizarse con la metodologa.Posteriormente, se le solicita a cada juez que estime la probabilidad mnima de que un sustentanteconteste correctamente un reactivo, el que le sigue y as hasta concluir con la totalidad de los reactivos,posteriormente se calcula el puntaje esperado (raw score: la suma de estas probabilidades multiplicada poruno para el caso de reactivostoda vez que cada reactivo vale un punto; o bien, la suma de estasprobabilidades multiplicada por el valor mximo posible de las categoras de la rbrica). Las decisiones de losjueces se promedian obteniendo el punto de corte. La decisin del conjunto de jueces pasa por una primeraronda para valorar sus puntos de vista en plenaria y puede modificarse la decisin hasta llegar a un acuerdoen comn.Mtodo de BeukEn 1981, Cess H. Beuk propuso un mtodo para establecer estndares de desempeo, el cual buscaequilibrar los juicios de expertos basados solamente en las caractersticas de los instrumentos de evaluacin,lo que mide y su nivel de complejidad, con los juicios que surgen del anlisis de resultados de los sustentantesuna vez que un instrumento de evaluacin es administrado.ProcedimientoEn el cuerpo del documento se sealaron tres fases para el establecimiento de puntos de corte de losniveles de desempeo. Para completar la tercera fase, es necesario recolectar con antelacin las respuestasa dos preguntas dirigidas a los integrantes de los distintos comits acadmicos especializados involucradosen el diseo de las evaluaciones y en otras fases del desarrollo del instrumento. Las dos preguntas son:a) Cul es el mnimo nivel de conocimientos o habilidades que un sustentante debe tener para aprobar elinstrumento de evaluacin? (expresado como porcentaje de aciertos de todo el instrumento,k).b) Cul es la tasa de aprobacin de sustentantes que los jueces estiman que aprueben el instrumento?(expresado como porcentaje,v).Para que los resultados de la metodologa a implementar sean estables e integren diferentes enfoquesque contribuyan a la diversidad cultural, se debern recolectar las respuestas de, al menos, 30 especialistasintegrantes de los diferentes comits acadmicos que hayan participado en el diseo de los instrumentos.Adicionalmente, se debe contar con la distribucin de los sustentantes para cada posible punto de corte,con la finalidad de hacer converger el juicio de los expertos con la evidencia emprica.Los pasos a seguir son los siguientes:

Escalamiento de las puntuacionesEl escalamiento (Wilson, 2005)se llevar a cabo a partir de las puntuaciones crudas (cantidad de aciertos)de los sustentantes, y se obtendr una mtrica comn para todos los instrumentos de evaluacin, que va de60 a 170 puntos aproximadamente, ubicando el primer punto de corte (nivel de desempeo II) para todos losinstrumentos en los100 puntos. El escalamiento consta de dos transformaciones:a)Transformacin doble arcoseno que estabiliza la magnitud de la precisin que se tiene para cadapunto de la escala.De no implementarla, para cada instrumento se tendra que estimar el errorestndar de medida para todas y cada una de las puntuaciones de la escala.b)Transformacin lineal que ubica el primer punto de corte en 100 unidades y define el nmero dedistintos puntos en la escala (el rango de las puntuaciones) con base en la confiabilidaddelinstrumento, por lo que a mayor confiabilidad, habr ms puntos en la escala (Shun-WenChang,2006).Para cuantificar el nivel de precisin de las puntuaciones del instrumento, se utilizar el Mtodo delta(Kendall y Stuart, 1977), que calcula los errores estndar de medicin condicionales, que se describeulteriormente en este anexo.Finalmente, es importante destacar que para que se lleve a cabo el escalamiento, el sustentante debialcanzar, al menos, un acierto en el instrumento de evaluacin en cuestin. De no ser as, se reportar comocero y el resultado ser N I.Procedimiento para la transformacin doble arcosenoEn los casos de los exmenes de opcin mltiple, deber calcularse el nmero de respuestas correctasque haya obtenido cada sustentante en el instrumento de evaluacin. Los reactivos se calificarn comocorrectos o incorrectos de acuerdo con la clave de respuesta correspondiente. Si un sustentante no contestaun reactivo o si selecciona ms de una alternativa de respuesta para un mismo reactivo, se calificar comoincorrecto. Cuando los instrumentos de evaluacin sean calificados por rbricas, deber utilizarse el mismoprocedimiento para asignar puntuaciones a los sustentantes considerando queKsea la mxima puntuacinque se pueda obtener en el instrumento de evaluacin.Como se observa en la grfica (Won-Chan, Brennan y Kolen, 2000), con excepcin de los valoresextremos, el error estndar de medicin se estabiliza a lo largo de la distribucin de las puntuacionesobservadas, a diferencia de la transformacin lineal de las puntuaciones crudas.

La ventaja de llevar a cabo la transformacin doble arcoseno es que se estabiliza la magnitud de laprecisin que se tiene para cada punto de la escala (Brennan, 2012; American College Testing, 2013; 2014a;2014b). Esto permite atender al estndar 2.14 de los Estndares para las Pruebas Educativas y Psicolgicasde laAmerican Educational Research Associationet. al., 2014, que establece que los errores estndar demedida condicionales deben reportarse en varios niveles de puntuacin,a menos que haya evidencia de queel error estndar es constante a lo largo de la escala, lo cual ocurre en este caso, al implementar latransformacin doble arcoseno.El dato obtenido del error estndar condicional deber reportarse en la misma escala en que se comunicanlas calificaciones de los sustentantes e incorporase en el informe o manual tcnico del instrumento (estndar2.13 de los Estndares para las Pruebas Educativas y Psicolgicas de laAmerican Educational ResearchAssociationet. al., 2014).Proceso para la equiparacin de instrumentos de evaluacinCuando el proceso de evaluacin implica la aplicacin de un instrumento en diversas ocasiones en undeterminado periodo, en especial si sus resultados tienen un alto impacto, es indispensable el desarrollo y usode formas o versiones del instrumento que sean equivalentes a fin de garantizar que, independientemente delmomento en que un sustentante participe en el proceso de evaluacin, no tenga ventajas o desventajas de laforma o versin que responda. Por esta razn, es necesario un procedimiento que permita hacer equivalenteslos resultados obtenidos en diferentes formas o versiones de un mismo instrumento.Para que dos formas de un instrumento de evaluacin puedan ser equiparadas, se deben cubrir lossiguientes requerimientos:Compartir las mismas caractersticas tcnicas: estructura, especificaciones de reactivos, nmero dereactivos (longitud del instrumento) y un subconjunto de reactivos comunes (reactivos ancla), que encantidad no deber ser menor a 30% ni mayor a 50% de la totalidad de reactivos efectivosparacalificar.Contar con una confiabilidad semejante.Los reactivos que constituyen el ancla debern ubicarse en la misma posicin relativa dentro de cadaforma, y debern quedar distribuidos a lo largo de todo el instrumento.La modalidad en la que se administren las formas deber ser la misma para todos los sustentantes(por ejemplo, en lpiz y papel o en computadora).Se debern considerar dos estrategias: a) si el nmero de sustentantes es de al menos 100 en ambasformas, se utilizar el mtodo de equiparacin lineal de Levine para puntajes observados; o bien, b) si elnmero de sustentantes es menor de 100 en alguna de las formas, se utilizar el mtodo de equiparacin deidentidad (identity equating). A continuacin se detallan los procedimientos.Mtodo de equiparacin lineal de LevineLa equiparacin de las formas de un instrumento deber realizarse utilizando el mtodo de equiparacinlineal de Levine (Kolen y Brennan, 2014), para puntajes observados bajo un diseo de grupos no equivalentescon reactivos comunes. Dicho diseo es uno de los ms utilizados en la prctica. En cada muestra de sujetosse administra solamente una forma de la prueba, con la peculiaridad de que en ambas muestras se administraun conjunto de reactivos en comn llamado ancla, que permite establecer la equivalencia entre las formasaequiparar.Cualquiera de los mtodos de equiparacin de puntajes que se construya involucra dos poblacionesdiferentes. Sin embargo, una funcin de equiparacin de puntajes se define sobre una poblacin nica. Por lotanto, las poblaciones 1 y 2 que corresponden a las poblaciones donde se aplic la forma nueva y antigua,deben ser combinadas para obtener una poblacin nica a fin de definir una relacin de equiparacin.

ReferenciasAmerican College Testing, (2013)ACT Plan Assessments Technical Manual, Iowa City, IA: Author.American College Testing, (2014a)ACT Assessments Technical Manual, Iowa City, IA: Author.American College Testing, (2014b)ACT QualityCore Assessments Technical Manual, Iowa City,IA:Author.American Educational Research Association (AERA), American Psychological Association (APA) yNational Council on Measurement in Education (NCM). (2014). Standards for educational and psychologicaltesting. Washington, D.C.: American Educational Research Association.Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike (Ed.), EducationalMeasurement (2nd ed.). Washington, DC: American Council on Education.Beuk C. H. (1984). A Method for Reaching a Compromise between Absolute and Relative Standards inExaminations.Journal of Educational Measurement, 21 (2) p. 147-152.Brennan, R. L. (2012). Scaling PARCC Assessments: Some considerations and a synthetic data exampleen:http://parcconline.org/about/leadership/12-technical-advisory-committeeCook D. A. y Beckman T. J. (2006).Current Concepts in Validity and Reliability for PsychometricInstruments: Theory and Application.The American Journal of Medicine 119, 166.e7-166.e16Downing, SM (2004). Reliability: On the reproducibility of assessment data. Med Educ; 38(9):1006-1012.21Holland, P. W., & Strawderman, W. E. (2011). How to average equating functions, if you must. In A. A. vonDavier (Ed.), Statistical models for test equating, scaling, and linking (pp. 89107). New York, NY: SpringerJonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educationalconsequences.Educational Research Review2: 13044.Kendall, M. & Stuart, A. (1977).The advanced theory of statistics, Vol. 1: Distribution theory. 4 Ed. NewYork, NY: MacMillan.Kolen, M. J., & Brennan, R. L. (2014).Test equating, scaling, and linking: Methods and practices(3rd ed.).New York, NY: Springer-Verlag.Muiz, Jos (2003): Teora clsica de los test. Ediciones pirmide, Madrid.OECD (2002), PISA 2000Technical Report, PISA, OECD Publishing.OECD (2005), PISA 2003Technical Report, PISA, OECD Publishing.OECD (2009), PISA 2006Technical Report, PISA, OECD Publishing.OECD (2014), PISA 2012Technical Report, PISA, OECD Publishing.Rezaei, A. R. & Lovorn, M. (2010) Reliability and validity of rubrics for assessment through writing.Assessing Writing15 (1.) 1839.Shun-Wen Chang (2006) Methods in Scaling the Basic Competence Test,Educational and PsychologicalMeasurement,66(6) 907-927Stellmack, M. A., Konheim-Kalkstein, Y. L., Manor, J. E., Massey, A. R., & Schmitz, J. A. P. (2009).Anassessment of reliability and validity of a rubric for APA-style introductions,Teaching of Psychology, 36,102-107.Stemler, E. & Tsai, J. (2008).3 Best Practices in Interrater Reliability Three Common Approachesin Bestpractices in quantitative methods. SAGE Publications, Inc.Thompson, Bruce ed. (2003): Score reliability. Contemporary thinking on reliability issues. SAGEPublications, Inc.Wilson, Mark (2005). Constructing measures. An tem response modeling approach. Lawrence ErlbaumAssociates, Publishers.Won-Chan, L., Brennan, R. L., & Kolen, M. J. (2000). Estimators of Conditional Scale-Score StandardErrors of Measurement: A Simulation Study.Journal of Educational Measurement, 37(1), 1-20.TRANSITORIOSPrimero.Los presentes Criterios entrarn en vigor al da siguiente de su publicacin en el Diario Oficial dela Federacin.Segundo.Los presentes Criterios, de conformidad con los artculos 40 y 48 de la Ley del Instituto Nacionalpara la Evaluacin de la Educacin, debern hacerse del conocimiento pblico a travs de la pgina deInternet del Instituto www.inee.edu.mxMxico, D.F., a cinco de noviembre de dos mil quince.- As lo aprob la Junta de Gobierno del InstitutoNacional para la Evaluacin de la Educacin en la Vigsima Sesin Extraordinaria de dos mil quince,celebrada el cinco de noviembre de dos mil quince. Acuerdo nmeroSEJG/20-15/06, R.-La ConsejeraPresidenta,Sylvia Irene Schmelkes del Valle.- Rbrica.- Los Consejeros:Eduardo Backhoff Escudero,Teresa Bracho Gonzlez, Margarita Mara Zorrilla Fierro.-Rbricas.ElDirector General de Asuntos Jurdicos,Agustn E. Carrillo Surez.-Rbrica.(R.- 422381)1En el caso en que el sustentante no presente alguno de los instrumentos de evaluacin que son consideradospara la calificacin global, su resultado en ese instrumento ser NP: no present y nicamente tendr la devolucin enaquellos instrumentos en los que haya participado y de los que se cuente con informacin. Para el caso en que elsustentante no presente NINGUNO de los instrumentos considerados para efectos de calificacin, su resultado global serNo se present a la evaluacin y en cada instrumento slo se le asignar NP: no present. Asimismo, debido a que no secuenta con informacin, tampoco tendr devolucin de los instrumentos que constituyen el proceso de evaluacin deldesempeo.2Pueden encontrarse ligeras variaciones en este rango debido a que la escala es aplicable a mltiplesinstrumentos con caractersticas muy diversas, tales como las longitudes, tipos de instrumentos y su nivel de precisin,diferencias entre los puntos de corte que atienden a las particularidades de los contenidos que se evalan, entre otras; porotra parte, para realizar el escalamiento, el sustentante debe, al menos, haber alcanzado un acierto en el examen; en casocontrario, se reportar como cero y obtendr N I. Para mayores detalles sobre los procesos que se llevan a cabo para elescalamiento de las puntuaciones, consultar el anexo.3Para mayores detalles sobre el proceso que se lleva a cabo para la transformacin de las puntuaciones a laescala global de 800 a 1 600 puntos, consultar el anexo.

En el documento que usted est visualizando puede haber texto, caracteres u objetos que no se muestren debido a la conversin a formato HTML, por lo que le recomendamos tomar siempre como referencia la imagen digitalizada del DOF o el archivo PDF de la edicin.