CAPÍTULO CUATRO
ANÁLISIS DE REACTIVOS Y ESTANDARIZACIÓN DE PRUEBAS
Este capítulo aborda dos temas en cierta medida técnicos, pero importantes: el análisis de reactivos y la estandarización de pruebas. Ambos temas tienen que ver con el cálculo de ciertos análisis estadísticos que deben revisarse con detalle para determinar si todos los reactivos de una prueba están funcionando como deberían, y cómo pueden interpretarse las calificaciones delas pruebas. El análisis de reactivos se centra en el funcionamiento de reactivos individuales,mientras que la estandarización de pruebas se ocupa de la interpretación normativa de los resultados de la prueba en su conjunto o de algunas de las partes o sub pruebas que la integran. Los te-mas de este capítulo y del siguiente se tratan, sobre todo, desde la perspectiva de la teoría clásica(tradicional) sobre pruebas, pero no se dejan de lado los enfoques más recientes de la teoría de respuesta al ítem. Tanto la teoría clásica sobre pruebas (CTT) como la teoría de la respuesta a los ítemes (IRT) son útiles para el desarrollo, el análisis y las aplicaciones de pruebas y, dependiendo de la tarea específica, ambas han recibido apoyo.
ANÁLISIS DE REACTIVOS
Incluso después de haber sido administrada y calificada una prueba, no siempre es seguro que haya funcionado bien. Cuando se pilotea una prueba en un principio, es posible que surjan varios problemas. Ésta es una de las razones de que las pruebas que se distribuyen comercialmente se administren primero a una muestra de personas representativas del grupo que las pruebas están destinadas a medir.
Entonces pueden analizarse las respuestas de esa muestra piloto para determinar si los reactivos están funcionando de manera adecuada.
Cualquiera que sea el tipo de prueba, estandarizada o elaborada por el maestro, de habilidad o de personalidad, un análisis post mortem o post hoc de los resultados es tan necesario como en medicina o en cualquier otra empresa humana. Entre las preguntas que es preciso contestar figuran las siguientes: ¿fueron adecuados los límites de tiempo? ¿Los examinados entendieron las instrucciones? ¿Fueron apropiadas las condiciones en que se administró la prueba?¿Se manejaron de manera adecuada las situaciones de emergencia? Es inusual que puedan anticiparse todos los problemas o contingencias que surgen durante un piloteo, pero un análisis posterior puede proporcionar información y motivación para prever y manejar situaciones similares al administrar pruebas en el futuro. El cuestionario de la forma 4.1, que responden los examinados inmediatamente después de haberse sometido a una prueba de aprovechamiento, puede ofrecer información cualitativa sobre las percepciones en cuanto a la imparcialidad de la prueba, si se sentían preparados para ella, si cumplió con sus expectativas o cómo respondieron a los reactivos individuales.
FORMA 4.1 Forma de evaluación de test
Instrucciones: Llene esta forma después de terminar la prueba. Encierre su respuesta en un círculo para cada reactivo y responda en los espacios en blanco de ser necesario.
Sí No 1.¿Fue satisfactorio el ambiente (asientos, temperatura, ventilación, nivel de ruido, etc.) en que se aplicó la prueba?____________________________
Sí No 2.¿Leyó usted cuidadosamente las instrucciones antes de empezar la prueba?
Sí No 3.¿Fueron claras las instrucciones?
Sí No 4.¿El formato de la prueba (tipo de reactivos, acomodamiento, hoja de res-puestas) fue satisfactorio?_____________________________________
Sí No 5.¿La prueba cubrió de manera adecuada el material asignado?__________
Sí No 6.¿Las preguntas de la prueba tenían dificultad adecuada?______________
Sí No 7.¿Estudió usted lo suficiente para la prueba?________________________
Sí No 8.¿Estudió el material correcto?___________________________________
Sí No 9.¿Piensa que respondió las preguntas de manera equivocada? ¿Cuáles?___
Sí No 10.¿Adivinó algunas de las respuestas? ¿Cuántas? ¿Cuáles?_____________
Sí No 11.¿Omitió usted algunos de los reactivos? ¿Cuáles?___________________
Sí No 12.¿Tuvo bastante tiempo para terminar la prueba?_____________________
Sí No 13.¿Al terminar la prueba, revisó sus respuestas?
Sí No 14.¿Estuvo nervioso o emocionalmente molesto durante la prueba?
Sí No 15.¿Fue justa la prueba?_________________________________________
Sí No 16.En general, ¿considera que la prueba fue buena?____________________
Sí No 17.¿Durante la prueba observó que se hiciera trampa?__________________
18.¿Qué calificación espera obtener en esta prueba?_____________________
El análisis de las respuestas que da un grupo determinado de personas a un reactivo individual en una prueba cumple varias funciones. El principal objetivo de dicho análisis de reactivos es contribuir a mejorar la prueba al revisar y descartar reactivos ineficaces. Otra función importante de dicho análisis, en especial en una prueba de aprovechamiento, es proporcionar in-formación diagnóstica sobre lo que saben o no los examinados.
Pruebas con referencias a criterios y de dominio
El procedimiento empleado en evaluar la eficacia de los reactivos de prueba depende, en cierta medida, del propósito de la misma. Por ejemplo, el examinador puede estar interesado sólo en determinar qué tanto sabe un examinado sobre el material de la prueba, no en comparar su desempeño con el de otras personas. En este caso, el desempeño se mide contra un criterio o están-dar establecido por el maestro del aula o por una política institucional. El objetivo de tal evaluación con referencias a criterio (o a un área) no es descubrir qué calificación obtiene una persona en relación con otras, sino en qué nivel se encuentra en cuanto a determinados objetivos de una lección, curso o programa. Un tipo particular de prueba con referencias a criterio, diseñada para medir el logro de un rango limitado de habilidades cognoscitivas, se conoce como prueba de dominio. La calificación de una persona en una prueba de dominio, o en cualquier otra prueba con referencias a criterio, se expresa como un porcentaje de la cantidad total de reactivos respondidos de manera correcta; una calificación perfecta indica el 100% de dominio del material.
Diferencias individuales y validez de los reactivos
Dado que suele ser difícil llegar a un acuerdo sobre cuánto debe saber una persona sobre una materia en particular o en qué consiste dominarla, tradicionalmente las calificaciones se han interpretado comparándolas con las obtenidas por otras personas. Las pruebas psicológicas se han diseñado, sobre todo, para evaluar diferencias entre individuos en cuanto a características. Las habilidades y la personalidad de la gente difieren, y los psicólogos intentan evaluar estas diferencias mediante diversos tipos de pruebas. Mientras mayor sea el cuidado con que se lleva a cabo dicha evaluación, mayor será la precisión con que podrá predecirse el comportamiento a partir de los resultados de las pruebas. En consecuencia, los encargados de elaborar pruebas intentan diseñar reactivos que permitan diferenciar a las personas en cuanto a lo que se quiera medir. De esta manera, aumenta la variabilidad de los resultados totales de las pruebas y entonces una calificación determinada se convierte en un índice más preciso de la posición de una persona en relación con la de otros individuos.
A fin de evaluar la utilidad de un reactivo como medida de las diferencias individuales en cuanto a las características de habilidad o de personalidad, se requiere un criterio externo de medida de dicho rasgo. Si la prueba se elabora para predecir el desempeño en un trabajo o en la escuela, entonces un criterio apropiado consiste en la medida del desempeño laboral (digamos, las escalas del jefe) o del aprovechamiento escolar (por ejemplo, notas asignadas por el maestro). La validez de un reactivo para predecir una posición con base en un criterio externo puede determinarse al correlacionar las calificaciones de un reactivo (0 para los errores y 1 para los aciertos) con las calificaciones de la medida de criterio. Se han usado distintos tipos de coeficientes de correlación para este propósito; el más común es el coeficiente biserial puntual, que puede calcularse con la siguiente fórmula:
Fórmula en la carpeta del libro. Capítulo 04. Coeficiente biserial puntual.
donde nt= la cantidad total de examinados, np= la cantidad de examinados que resuelven correctamente el reactivo, = la media de las calificaciones de criterio de quienes pasan el reactivo, = la media de todas las calificaciones de criterio, y st = la desviación estándar de todas las calificaciones de criterio. El criterio puede ser externo (productividad en el trabajo o grados de un curso) o incluso calificaciones totales de la propia prueba.
Para ilustrar el cálculo del coeficiente biserial puntual, supongamos que la media y la desviación estándar del total de las calificaciones de un grupo de 30 personas son 75 y 10, respectivamente. Ahora bien, si la calificación media de 17 examinados que aciertan en determinado reactivo es 80, la sustitución de estos valores en la fórmula 4.1 produce:
Fórmula con los valores sustituidos en la carpeta del libro.
Cuanto más elevada sea la correlación entre reactivo y criterio, más preciso será el reactivo como predictor del criterio. El que un reactivo se conserve o deseche depende del tamaño de es-te coeficiente. Aunque reactivos con coeficientes tan bajos como .20 pueden contribuir a predecir el criterio, se prefieren coeficientes más elevados. Un reactivo con una correlación cercana o menor que .00 con el criterio debe, sin duda, revisarse o descartarse. Sin embargo, la utilidad de un reactivo para predecir un criterio específico no sólo depende de la correlación entre reactivo y criterio, sino también de la correlación del reactivo con otros reactivos de la prueba. Son mejores los reactivos que tienen correlaciones elevadas con el criterio, pero bajas con otros reactivos, porque representan una contribución más independiente a la predicción de calificaciones de criterio.
Dificultad de los reactivos e índices de discriminación
Por lo general, no hay un criterio externo fácilmente disponible contra el cual validar los reactivos de las pruebas de aprovechamiento en el aula, de modo que a menudo se emplea un procedimiento distinto, el de consistencia interna. Al igual que con cualquier otra prueba, el análisis de reactivos de una prueba de aula conlleva determinar el porcentaje de examinados que pasan el reactivo y la correlación del reactivo con una medida de criterio. No obstante, en el caso de una clase de aprovechamiento de aula, el criterio consiste en calificaciones totales sobre la prueba misma. Suponiendo que la serie de reactivos en conjunto es una medida adecuada de aprovechamiento en el sujeto, la suma de las calificaciones se usa como el criterio para determinar la consistencia interna de la prueba.
Un procedimiento más breve consiste en dividir a los examinandos en tres grupos según sus calificaciones en la prueba como un todo: un grupo superior formado por el 27% que obtuvo las calificaciones más altas, un grupo inferior compuesto por el 27% que tuvo las calificaciones más bajas, y el restante 46% incluido en un grupo intermedio. Cuando el número total de examinados es pequeño, el 50% correspondiente a los grupos inferior y superior a menudo se utiliza para propósitos de análisis de reactivos. En cualquier caso, los siguientes índices estadísticos se calculan a partir de los resultados de los grupos inferior y superior:
Fórmula en la carpeta. Capítulo 04. Índices de discriminación
Up y Lp son la cantidad de individuos que hay en los grupos superior e inferior, respectivamente, y que aciertan en el reactivo; U y L son el número total de personas en los grupos superior e inferior (obsérvese que U = L ), respectivamente. Al valor de p se le conoce como índice de dificultad del reactivo y al de D como índice de discriminación del reactivo. Para ejemplificar el cálculo de estos índices, supongamos que 50 personas presentan una prueba. Entonces los grupos superior e inferior pueden formarse con los .27 × 50 = 14 superior y el 14 inferior de la suma total de calificaciones. Si 12 de las personas del grupo superior y 7 de las que forman el grupo inferior pasan el reactivo A, entonces p = (12 + 7)/28 = .68 y D = (12 - 7)/14 = .36.
El índice de dificultad del reactivo tiene un rango de .00 a 1.00. Un reactivo con p = .00 es uno que nadie contestó correctamente, y un reactivo de p = 1.00 es el que todos respondieron en forma acertada. El valor p óptimo para un reactivo depende de varios factores, incluyendo los objetivos de la prueba y la cantidad de opciones de respuesta. Si el propósito de una prueba es identificar o seleccionar sólo un pequeño porcentaje de los mejores candidatos, entonces la prueba debe ser bastante difícil, como se refleja en un valor promedio inferior de p. Si la prueba está diseñada para rechazar sólo a algunos candidatos muy deficientes, entonces es mejor un valor promedio de p elevado. Por ejemplo, el valor de p óptimo debe ser muy bajo para reactivos de una prueba diseñada para otorgar becas o hacer contrataciones en puestos superiores, pero muy alto en una prueba diseñada para identificar estudiantes candidatos a programas terapéuticos. En una prueba elaborada para medir un rango amplio de habilidad, el valor de p óptimo es más cercano a .50. Como se muestra en la tabla 4.1, para una prueba semejante el valor promedio de p óptimo también varía inversamente con el número de opciones de respuestas (k). Los valores de p para reactivos aceptables caen dentro de un rango bastante estrecho, aproximadamente de .20, alrededor de estos valores registrados. Aunque algunos reactivos muy fáciles y otros muy difíciles con frecuencia se incluyen en una prueba de rango amplio, de hecho agregan muy poco ala efectividad general para distinguir entre estudiantes que poseen distinta cantidad de conocimiento, habilidad o comprensión del material de prueba.
El índice de discriminación del reactivo (D) es una medida de la eficacia de un reactivo para discriminar entre quienes obtienen altas y bajas calificaciones en una prueba. Mientras más elevado sea el valor de D, resulta más eficaz para establecer dicha distinción. Cuando (D) es igual a 1.00, todos los examinados del grupo superior y ninguno del grupo inferior en las calificaciones totales de la prueba respondieron el reactivo en forma adecuada. Sin embargo, casi nunca resulta D igual a 1.00 y, por lo regular, se considera aceptable un reactivo si tiene un índice D de .30 o mayor. Pero D y p no son índices independientes, y el valor de D mínimo aceptable varía de acuerdo con el valor de p. Un valor de D en cierta medida inferior a .30 es acepta-ble mientras p cada vez aumenta o disminuye más que el valor óptimo, sobre todo cuando los grupos de comparación superior e inferior son numerosos. Asimismo, un reactivo con un índice D bajo no se descarta automáticamente: es posible salvarlo modificándolo. Elaborar reactivos de pruebas adecuados es un proceso minucioso, de modo que los defectuosos deben corregirse y conservarse siempre que sea posible.
Tabla en una imagen en la carpeta del libro. TABLA 4.1 Índices medios óptimos de la dificultad de los reactivos para pruebas con reactivos de opción múltiple
Factores que afectan el funcionamiento de los reactivos
Los resultados de un análisis de reactivos a menudo varían considerablemente dependiendo del grupo específico que se somete a la prueba, en particular cuando la cantidad de examinados es reducida. Algunos reactivos pueden responderse de manera diferente por hombres y por mujeres o por algún grupo étnico, de edad o socioeconómico en comparación con otro. Al elaborar una prueba estandarizada, en la actualidad es frecuente revisar cada reactivo y los análisis estadísticos correspondientes para buscar indicios de falta de discriminación o sesgo por grupo. Para facilitar este proceso, a menudo se calculan índices estadísticos del funcionamiento diferencial del reactivo (DIF). Se han propuesto muchos métodos para obtener información sobre el funcionamiento diferencial de los reactivos de pruebas, incluyendo el procedimiento de diagramas delta de reactivos del Servicio de Evaluación Pedagógica y varios procedimientos de chi cuadrada (vea Camilli y Shepard, 1994).
Sólo porque la forma como se responde un reactivo varía de grupo a grupo no quiere decir necesariamente que un reactivo esté sesgado en contra de alguno de los grupos. Técnicamente, un reactivo se considera sesgado sólo cuando mide algo distinto —una característica o rasgo diferente— en un grupo con respecto a otro. Si las calificaciones de un grupo reflejan diferencias verdaderas en cuanto a la capacidad o cualquier característica para cuya medición se diseñó el reactivo, éste se encuentra técnicamente libre de sesgo. Al realizar un análisis de reactivo individual para cada grupo puede revelarse la presencia de sesgo en el reactivo, es decir, si el reactivo discrimina bien entre calificaciones altas y bajas en ambos grupos.
También surgen problemas en el análisis de reactivos de las pruebas de velocidad, en las que los límites de tiempo son breves y no todos los examinados pueden terminar. En una prueba de velocidad, los reactivos cercanos al final de la prueba intentan resolverse por relativamente pocas personas. Si quienes alcanzan y por consiguiente tratan de resolver un reactivo final son los examinados más capaces, el índice de discriminación (D) probablemente será mayor del que resultaría si el límite de tiempo fuera más generoso. Por otra parte, si los más descuidados tienen más probabilidades de llegar a los reactivos del final de la prueba e intentar responderlos, los valores D de dichos reactivos tenderán a ser inferiores a los de aquellos que se encuentran cercanos al principio. Se han propuesto varios procedimientos para resolver los problemas que genera el análisis de reactivos hacia el final de las pruebas de velocidad, pero ninguno resulta del todo satisfactorio.
A pesar de sus desventajas, los índices de dificultad y de discriminación de reactivos proporcionan información útil sobre el funcionamiento de los reactivos individuales. En general, se ha descubierto que el análisis de reactivos produce mejoras considerables en la eficacia de las pruebas. En particular, el índice de discriminación de reactivos es una medida bastante adecuada de la calidad del reactivo. Junto con el índice de dificultad (p), D puede servir como una advertencia de que algo está fallando en un reactivo.
Los constructores de pruebas a menudo han recibido el consejo de registrar los resultados estadísticos del análisis de reactivos, junto con el reactivo mismo, en tarjetas de índices y archivar las tarjetas para su uso posterior. Con la llegada de las computadoras de alta velocidad, ahora los reactivos pueden codificarse por tema, niveles de dificultad y de discriminación, y tal vez hasta por los procesos cognoscitivos que implica responderlos, y después almacenarlos en un banco de reactivos. No sólo los profesionales que elaboran pruebas usan estos bancos de reactivos, también están disponibles como complementos de muchos libros de texto para usarse como pruebas prácticas o servir como banco de reactivos al elaborar pruebas de aula. Las computado-ras pueden utilizarse para seleccionar reactivos de un banco que maneje distintos contenidos e integrarlos como una unidad de prueba o exámenes. También hay programas de computación especializados para facilitar la elección de reactivos que abordan un tema específico y, además,con las características estadísticas deseadas.
Consistencia interna contra validez
El concepto de validez del reactivo, en general, se refiere a la relación entre un reactivo y un criterio externo. Pero D es una medida de la relación de los resultados de reactivos con un criterio interno (total de calificaciones de la prueba) más que con un criterio externo. Seleccionar reactivos con valores D altos dará como resultado una prueba internamente consistente en la que las correlaciones entre reactivos son muy positivas. Sin embargo, las calificaciones de una prueba internamente consistente no siempre están muy correlacionadas con las calificaciones de un criterio externo. Para construir una prueba con una elevada correlación con un criterio externo, deben seleccionarse reactivos que tengan correlaciones bajas entre sí, pero elevadas con la medida de criterio. Seleccionar reactivos con base en la estadística D origina un tipo de prueba distinto al de una prueba compuesta por reactivos elegidos por sus altas correlaciones con un criterio externo. Cuál de estas estrategias, interna o externa, es superior depende de los propósitos de la prueba. Si se desea una medida internamente consistente de una característica, debe usarse el índice de discriminación (D) para seleccionar reactivos. Si se requiere el predictor más válido de un criterio externo en particular, deberán emplearse las correlaciones de criterio de reactivos. En ocasiones es adecuada una combinación de ambas estrategias: se elabora una prueba compuesta a partir de subpruebas con bajas correlaciones entre sí y correlaciones considerables con uncriterio externo, pero los reactivos de cada subprueba están altamente intercorrelacionados.
Reactivos con referencias a criterios
Los índices de dificultad y de discriminación pueden calcularse también en reactivos de prueba con referencia a criterios, y se diseñan para determinar las posiciones de los examinados en objetivos pedagógicos específicos. En este caso, los examinados se dividen en dos grupos: un grupo superior consistente en los examinados U, cuyas calificaciones totales de prueba cumplen con el criterio establecido de desempeño aceptable, y un grupo inferior integrado por los examinados L, cuyas calificaciones totales no satisfacen los criterios. Para un reactivo particular, Upes el número en el grupo superior (encima del nivel de criterio) de quienes aciertan en el reactivo, y Lp es el número en el grupo inferior (debajo del nivel de criterio) de los que aciertan en el reactivo. Entonces el índice de dificultad del reactivo se define mediante la fórmula 4.2. Debido a que U y L no necesariamente son iguales, el índice de discriminación del reactivo se define como:
Fórmula en la imagen de Índice de discriminación del reactivo en la carpeta del libro.
Puede emplearse un criterio externo para formar los grupos superior e inferior. En el caso de una prueba de aprovechamiento con referencia a criterio, por ejemplo, los examinados pueden dividirse en dos grupos: los que recibieron instrucciones sobre el tema asociado con la prueba(U) y quienes no recibieron dichas instrucciones (L). Los grupos U y L también pueden consistir en los mismos individuos, tanto antes (L) como después (U) de la instrucción. En cualquier caso, puede usarse la fórmula 4.4 para determinar un índice de discriminación de reactivos.
Análisis de distractores
El análisis de los reactivos de opción múltiple suele empezar con el cálculo de índices de discriminación y dificultad para cada reactivo. Un análisis secundario se ocupa del funcionamiento delos distractores k - 1 para cada reactivo. El índice de discriminación de reactivos (D) proporciona cierta información sobre el funcionamiento de los distractor es en conjunto. Un D positivo indica que los examinados en el grupo superior (en la calificación total de la prueba) tendieron a seleccionar uno de los distractores; la magnitud de D indica la medida de esta tendencia. Por otra parte, un D negativo indica que los distractores se eligieron con mayor frecuencia por examinados del grupo superior que por los del grupo inferior y que el reactivo debe revisarse. Sin embargo, el signo y la magnitud de D no revelan si todos los distractores funcionaron de manera adecuada.
El método más sencillo para determinar si todos los distractores están funcionando como deberían es contar el número de veces que cada distractor se seleccionó como la respuesta adecuada por los examinados del grupo superior y por los del grupo inferior. Si, en el caso de un reactivo que por lo demás es satisfactorio, demasiados examinados del grupo superior o muy pocos del grupo inferior seleccionaron un distractor determinado, éste debería ser modificado o reemplazado. En términos ideales, todos los distractores k - 1 deberían ser igualmente acepta-bles para los examinados que no conocen la respuesta correcta de un reactivo; en consecuencia,todo distractor debe ser seleccionado por alrededor de la misma cantidad de personas.
Curvas características de los reactivos
Incluso los valores aceptables de p y D no garantizan que un reactivo esté funcionando de manera efectiva a lo largo de todos los niveles de desempeño de la prueba. Para ser más efectivo, la proporción de las personas que contestan un reactivo correctamente debería aumentar en forma continua con el incremento de las calificaciones totales en la prueba o subprueba. El que un reactivo de prueba funcione de esta manera puede determinarse mediante la curva característica del reactivo (ICC). Al construir una ICC, la proporción de examinados que dieron la respuesta enclave se contrasta contra sus calificaciones en un criterio interno (por ejemplo, las calificaciones totales de la prueba) o un criterio externo, como el aprovechamiento académico o el desempeño laboral. Una vez que se ha construido la curva característica de un reactivo en particular, es posible determinar el nivel de dificultad y el índice de discriminación de dicho reactivo. El nivel de dificultad (b) es la calificación de criterio en el que 50% de los examinados dio la respuesta acertada (predeterminada); el índice de discriminación (a) es la pendiente de la curva característica del reactivo en el punto del 50%. Por ejemplo, de las dos curvas características del reactivo trazadas en la figura 4.1, un valor de .50 en el eje vertical corresponde a una calificación total en la prueba de 68 en el caso del reactivo 1 y de 77 en el reactivo 2. Por consiguiente, el reactivo 2 es más difícil que el 1. Sin embargo, la ICC del reactivo 1 tiene una pendiente más pronunciada que la del reactivo 2, de modo que el reactivo 1 discrimina mejor que el 2 entre quienes obtienen las calificaciones superiores y los de las calificaciones inferiores en toda la prueba. Estas dos medidas (ubicación y pendiente de la ICC) son similares a los índices p y D del análisis de reactivos tradicional, pero una ICC proporciona de mejor modo una imagen detallada del funcionamiento de reactivos a lo largo de todo el rango de calificaciones de criterio interno o externo. Además de trazar la proporción de respuestas correctas que corresponden a las calificaciones totales de una medida de criterio externo o interno, la proporción de individuos que obtiene cada calificación y que seleccionaron un distractor en particular puede trazarse al analizar la eficacia de los distractores de reactivos.
FIGURA 4.1 Dos curvas características de reactivos.Vea la explicación en el texto. Imagen en la carpeta del libro.
Teoría de respuesta al Ítem
A diferencia de la atención más bien superficial que otorgan la teoría y los métodos tradicionales sobre pruebas a las respuestas a reactivos individuales, tales respuestas son el núcleo de la teoría y metodología de respuesta a los ítemes. La teoría de respuesta al Ítem (IRT) se basa en la relación funcional teórica entre un continuo de capacidad latente supuesto y las respuestas a reactivos individuales en una prueba. Los cálculos que conlleva son muy complicados y en general deben realizarse con la ayuda de un programa de cómputo como LOGIST, BILOG, AS-CAL o BIGSTEPS (vea Mislevy y Stocking, 1989; Vale, 1985; Wright y Linacre, 1991).
El modelo usual de la IRT es una función logística que tiene uno, dos o tres parámetros.La fórmula para generar cálculos de probabilidad en el modelo de tres parámetros es:
Fórmula modelo de tres parámetros en la carpeta del libro.
En esta fórmula, e es la base del logaritmo natural (2.718282), a es un parámetro de la pendiente de un reactivo, b es un parámetro de ubicación de un reactivo, c es un parámetro seudoadivinatorio, ¨ es el nivel de capacidad del examinado en una escala de calificación estándar, y P(¨) es la probabilidad de que una persona con nivel de capacidad ¨ conteste el reactivo correctamente. Su-poniendo que c = 0, la fórmula 4.5 se reduce a la ecuación para el modelo de dos parámetros:
Fórmula modelo de dos parámetros en la carpeta del libro
Otra suposición de que todos los reactivos son igualmente discriminantes produce la ecuación para el modelo de un parámetro o modelo de Rasch:
Fórmula el modelo de un parámetro o modelo de Rasch en la carpeta del libro.
Todas las fórmulas en la imagen. Capítulo 04. Teoría de respuesta al Ítem. Modelo de tres parámetros, modelo de dos parámetros y un parámetro (Modelo de Rasch).
Aunque el modelo de Rasch ha originado una gran cantidad de investigaciones psicométricas, el modelo de dos parámetros tiene por lo menos la misma popularidad.
Como se ilustra en la figura 4.2, la forma de una curva de respuesta a reactivos varía con los valores de los parámetros a y b. Ambas curvas de esta figura se construyeron con la función de dos parámetros de la fórmula 4.6. En la curva P, el parámetro de dificultad (b) es 1.00 y el parámetro de discriminación (a) es .5; en la curva Q, b = .25 y a = .75. Obsérvese que b es el valor de ¨ (el punto sobre el eje horizontal) que corresponde a P(¨) = .5, y a es la pendiente de la curva en P(¨) = .5. En el modelo de tres parámetros, b es el valor de P(¨) correspondiente a .5(c +1), donde c es el punto en que la curva de respuesta al reactivo cruza el eje vertical. Un ejercicio instructivo consiste en trazar varias curvas de respuesta a criterios de uno, dos y tres parámetros usando diversos valores de los parámetros adecuados. Las calificaciones del continuo de capacidad latente se expresan en unidades de calificación estándar (z), pero en la mayoría de las aplicaciones pedagógicas, las calificaciones z se transforman a una escala con una media de 300 y desviación estándar de 50.
En la práctica real, ni los parámetros de reactivos ni las calificaciones de capacidad latente (¨) de los examinados se conocen, y el problema es determinar la curva de respuesta a reactivos que mejor se ajuste a las respuestas a reactivos individuales. Esto incluye un procedimiento iterativo, de máxima aceptación, consistente en suponer ciertos valores iniciales para los parámetros de reactivos, calculando las P(¨) correspondientes a los diversos valores de, comparando las respuestas a reactivos pronosticadas con las reales y continuando con el proceso hasta alcanzar una solución más adecuada. El proceso de calcular parámetros de reactivo requiere delas respuestas de una gran cantidad de sujetos que son representativos de la población de examimandos potenciales, aproximadamente 2.000 para el modelo de tres parámetros y 500 para el de un parámetro (Rasch).
FIGURA 4.2 Dos curvas de respuesta a reactivos.Vea la explicación en el texto. En la carpeta del libro.
Un rasgo importante de los parámetros de reactivos calculados es que son relativamente independientes del nivel de capacidad de la muestra particular de personas en que se basan. A diferencia de la metodología tradicional de evaluación, que confunde la dificultad y la discriminación de pruebas con la muestra de los individuos sometidos a la prueba, en la IRT estos parámetros son, al menos en teoría, independientes de la muestra particular de las personas evaluadas.
Además de proporcionar cálculos de parámetros de reactivos, la IRT puede usarse para estimar las calificaciones de los examinados en el continuo de capacidad latente. De hecho, este es el principal propósito de aplicar una prueba construida mediante los principios de la IRT.
Igual que al estimar parámetros de reactivos a partir de niveles de capacidad, el cálculo de calificaciones individuales en el continuo de capacidad latente es un proceso iterativo que se inicia al sustituir ciertos valores experimentales por la capacidad del examinado y los parámetros de reactivos supuestos en la ecuación logística apropiada. Las P(¨) resultantes se comparan entonces con las P(¨) reales, y el proceso continúa hasta que se obtiene una ecuación más adecuada.Los errores estándar de los valores estimados de ¨, una medida de la variabilidad de las ¨ estimadas alrededor de las ¨ reales pero desconocidas, también pueden calcularse.
Otra propiedad interesante de la IRT, la invarianza de la capacidad del examinando con respuesta a los reactivos empleados para calcularla, se deriva del proceso de calcular las ¨. Esta característica de la IRT significa que puede aplicarse una prueba de cualquier nivel de dificultad para determinar la posición de una persona en el continuo de capacidad latente. Sin embargo, el cálculo más preciso se obtiene cuando los reactivos que constituyen la prueba, y por ende la prueba misma, son los más adecuados, es decir, que están en el mismo nivel de dificultad que la capacidad del examinando.
La IRT se ha empleado para diversos propósitos, incluyendo la elaboración de pruebas, la calibración de calificaciones de pruebas con el fin de proporcionar un marco de referencia para interpretarlas, la estandarización de pruebas, la determinación del funcionamiento diferencial dereactivos (DIF), y evaluaciones adaptativas. Con respecto a la construcción de pruebas, pueden elegirse las áreas de la IRT sobre el continuo de capacidad donde se requieren mediciones más precisas, para que no se desperdicien reactivos en áreas menos importantes. Así, usando la IRT es posible desarrollar pruebas de clasificación, de selección y con referencias a criterios sumamente precisas,así como pruebas más tradicionales con un espectro amplio a lo largo del continuo de capacidad. El enfoque de la IRT sobre el DIF es trazar las curvas de respuesta a reactivos en forma separada paralos dos o más grupos demográficos de personas (blancos contra negros, hombres contra mujeres,etc.). Las curvas de respuesta a reactivos con formas significativamente distintas para los grupos de comparación proporcionan pruebas del funcionamiento diferencial de los reactivos.
Una desventaja de la mayoría de los modelos de la IRT es la suposición de que un único rasgo latente subyace en la ejecución de las pruebas, pero los modelos multidimensionales han progresado. La mayoría de los modelos de la IRT se limita también a una calificación de 0-10,aunque también se han diseñado procedimientos más complejos que incluyen calificaciones de múltiples puntos, como en las escalas de calificación.
ESTANDARIZACIÓN Y NORMAS DE LAS PRUEBAS
Los datos sobre el desempeño de un grupo numeroso de individuos, como aquellos en quienes se basa el diseño de un instrumento, son útiles para propósitos de interpretación de calificaciones. Con el fin de cumplir esta tarea, deben estandarizarse la prueba, el inventario, la escala de clasificación y cualquier otro instrumento psicométrico.
Toda prueba estandarizada tiene instrucciones estándar de aplicación y calificación que de-ben seguirse estrictamente, sin dejar lugar a la interpretación personal o al sesgo. La estandarización también incluye aplicar la prueba a una muestra grande de personas (la muestra de estandarización) seleccionada como representante de la población meta a la que está destinada la prueba.
El principal propósito de estandarizar una prueba es determinar la distribución de puntuaciones crudas en la muestra de estandarización (grupo norma). Las calificaciones crudas obtenidas se transforman entonces en alguna forma de calificaciones derivadas o normas. Los principales tipos de normas son equivalentes de edad, de grado, rangos de percentilares y calificaciones estándar. La mayoría de los manuales de pruebas contiene tablas de normas con puntuaciones crudas y cierto tipo de calificaciones convertidas correspondientes. Así, la posición de una persona en una prueba puede evaluarse con referencia a la tabla adecuada de normas y buscando los equivalentes de calificaciones convertidas de sus propias puntuaciones crudas. En es-te método de interpretación con referencias a normas, las normas obtenidas no funcionan como estándares del desempeño deseado, sino simplemente como un marco de referencia para interpretar calificaciones. Las normas indican la posición de una persona en la prueba con respecto ala distribución de las calificaciones obtenidas por personas de la misma edad cronológica, grado, sexo u otras características demográficas.
Al evaluar niños discapacitados, en ocasiones es preciso aplicar una prueba fuera de nivel diseñada para una edad o nivel de grado inferior al de la persona evaluada. Se requieren entonces normas especiales fuera de nivel para interpretar las calificaciones. Hay varias pruebas estandarizadas, como la Batería de Kaufman de Evaluación para Niños, que proporcionan evaluaciones fuera de nivel y las normas correspondientes.
En términos de tamaño de muestra y representatividad, con frecuencia las pruebas colectivas, y las de aprovechamiento en particular, se estandarizan de manera más adecuada que las pruebas individuales. Las normas para pruebas colectivas pueden estar basadas hasta en cien mil personas, mientras que el tamaño del grupo de norma para una prueba individual cuidadosamente estandarizada es más probable que sea de entre dos mil y cuatro mil. Sin embargo, una muestra de estandarización grande no garantiza que sea representativa de la población de interés. La muestra debe seleccionarse con sumo cuidado a fin de que sea representativa de la población meta.
Selección de una muestra de estandarización
Para funcionar con eficacia en la interpretación de calificaciones de pruebas, las normas deben ser apropiadas para el grupo o los individuos por evaluar. Por ejemplo, una calificación particular de un alumno de cuarto grado puede sobrepasar la del 80% de los niños de cuarto grado y la del 60% de los de sexto. Aunque puede ser de interés comparar la calificación de un estudiante de cuarto con las calificaciones de niños de tercero y sexto, la posición del alumno en su propio grupo (cuarto) es prioritaria. Siempre que se transforma una calificación con referencia a una tabla de normas, es importante tomar nota de las características de la muestra (edad, sexo, grupo étnico, educación, nivel socioeconómico, región geográfica) del grupo de norma en particular, e incluir esta información en todos los comunicados sobre el desempeño de la persona en las evaluaciones. Otra consideración importante es cuándo (en qué fecha) se obtuvieron las normas. En ciertas pruebas las normas pueden perder su vigencia en épocas de cambios sociales y educativos rápidos. Las modificaciones en el currículo escolar, por ejemplo, pueden requerir de una nueva estandarización o tal vez de modificar o reconstruir una prueba de aprovechamiento cada determinado número de años.
La forma en que una muestra de estandarización se selecciona de una población varía desde un muestreo aleatorio sencillo hasta estrategias más complejas, tales como el muestreo alea-torio estratificado y el muestreo por grupos. En un muestreo aleatorio sencillo, cada uno de los miembros de la población meta tiene la misma oportunidad de ser seleccionado. Empero, la aleatoriedad no garantiza que haya representatividad. En consecuencia, una forma más adecuada de estandarizar una prueba es empezar por categorizar, o estratificar, la población de una serie de variables demográficas (sexo, edad, nivel socioeconómico, región geográfica y similares)que presumiblemente están relacionadas con las calificaciones de la prueba. Entonces la cantidad de individuos seleccionados al azar de cada categoría o estrato es proporcional al número total de personas de la población que caen en ese estrato. Cuando se emplea este procedimiento de muestreo aleatorio estratificado, se reduce la probabilidad de elegir una muestra atípica o sesgada.
Las normas obtenidas de este modo proporcionan una base mejor para interpretar calificaciones de la prueba que las normas determinadas en una muestra aleatoria sencilla.
El muestreo por grupos es más económico que el muestreo aleatorio estratificado, y tiene mayores probabilidades de originar una muestra representativa de la población meta. El proceso se inicia al dividir una región geográfica designada o alguna otra entidad relevante en bloques o grupos. Entonces se elige al azar un porcentaje especificado de los grupos y dentro de cada uno se selecciona aleatoriamente una cantidad determinada de subunidades (escuelas, residencias,etc.). El último paso es administrar la prueba a cada persona de la subunidad, o por lo menos a una muestra aleatoria de personas con las características establecidas.
Administrar todos los reactivos de una prueba a una muestra aleatoria estratificada o a una muestra por grupo resulta tedioso y prolongado, por lo que se han propuesto estrategias menos costosas para obtener normas. Una de tales estrategias es elegir una muestra tanto de individuos como de reactivos. En el muestreo de reactivos se aplican distintas muestras de reactivos amuestras diferentes de personas seleccionadas al azar. Un grupo responde una serie de reactivos y otros grupos contestan otras series. El proceso es eficiente, en cuanto a que pueden aplicarse más reactivos a una gran cantidad de personas en un lapso bastante breve. Pueden realizarse entonces análisis de reactivos y determinarse normas basadas en calificaciones de muestras representativas para un amplio rango de contenidos de pruebas. Las normas derivadas del muestreo de reactivos son muy similares a las logradas mediante el procedimiento tradicional, pero más laborioso, de aplicar toda la prueba a una muestra representativa grande.
Las normas publicadas en manuales de pruebas son útiles para comparar la calificación de un examinado con las calificaciones de una muestra de personas de varias localidades, a veces una selección de todo el país. Pero en general los maestros están más interesados en saber cómo se desempeñaron los alumnos en comparación con otros en una escuela, un sistema escolar, estado o región particular, más que con las de una muestra de toda la nación. Cuando el interés se restringe a las calificaciones particulares de una escuela específica, el examinador querrá transformar las calificaciones crudas en normas locales mediante los procedimientos discutidos en las secciones subsiguientes. A menudo las normas locales se usan para fines de selección y colocación en escuelas y universidades.
Normas de edad y grado
Entre los tipos de normas más populares, sobre todo debido a que son bastantes fáciles de comprender para los usuarios, figuran las normas de edad y grado. Una norma de edad (equivalente de edad, edad educativa) es la calificación media de una prueba obtenida por las personas en una edad cronológica determinada; una norma de grado (equivalente de grado) es la calificación media obtenida por los estudiantes en un nivel de grado específico. Las normas de edad se expresan en doce intervalos de un mes que van, por ejemplo, para el décimo año, de 10 años, 0 me-ses, a 10 años, 11 meses. Las normas de grado se expresan en diez intervalos de un mes, con base en la suposición de que el crecimiento en la característica de interés durantes los meses de verano no tiene importancia. Por ejemplo, el rango de las normas de grado para el quinto grado es de 5-0 a 5-9, en intervalos de un mes desde el principio hasta el final del año escolar.
A pesar de su popularidad, las normas de edad y de grado tienen desventajas serias. El principal problema es que el progreso en las características cognoscitivas, psicomotoras o afectivas no es uniforme en todo el rango de edades o grados. Debido a que las unidades de edad y de grado se reducen progresivamente al aumentar la edad o el nivel de grado, una diferencia de evolución dedos meses en el aprovechamiento en el cuarto grado (por ejemplo, de 4-2 a 4-4) no es pedagógicacomplementarse con normas de rangos percentilares o de calificaciones estándar para una edad o grado en particular.
Por lo común, los alumnos de un grado específico en el que se determinan normas de grado tienen un rango de edades bastante amplio: en las normas se incluyen las calificaciones de ciertos estudiantes que, de hecho, son mayores (o menores) que el alumno promedio en ese grado. Para proporcionar un índice más preciso de la calificación promedio de los alumnos en un nivel de grado establecido, en ocasiones se omiten las calificaciones de los estudiantes que son considerablemente mayores o menores que la edad modal, y la calificación media se calcula sólo en los estudiantes que tienen la edad apropiada para ese grado. Estas normas restringidas se conocen como normas de edad modales. Este tipo deco normas, que casi no se encuentran en los manuales de pruebas de aprovechamiento contemporáneos, se mencionan aquí principalmente por su interés histórico.
Como se recordará, el término edad mental se mencionó en el breve análisis del capítulo 1 sobre la historia de la evaluación mental. Este concepto, que ideó Alfred Binet, es un tipo de norma de edad empleado en diversas pruebas de inteligencia. La calificación de edad mental de un examinado en particular corresponde a la edad cronológica del subgrupo de niños (todos de la misma edad cronológica) del grupo de estandarización cuya calificación media es la misma que la del examinando. Con fines pedagógicos, la práctica en muchas escuelas para evaluar a los retrasados mentales ha sido agruparlos de acuerdo con su edad mental en lugar de su edad cronológica.Otra práctica de evaluación más antigua, que casi ha desaparecido, consiste en convertir las normas de edad en cocientes dividiendo las calificaciones de edad de cada examinando entre su edad cronológica (en meses) y multiplicando el cociente resultante por 100. El cociente intelectual (relación de CI) en la más antigua Escala de Inteligencia de Stanford-Binet, por ejemplo, se definió como:
CI = 100 (MA/CA)
donde MA y CA son la edad mental y la edad cronológica del examinado en meses. De manera similar, un cociente educativo sobre ciertas pruebas de aprovechamiento se calculó como la relación entre la edad educativa (la norma de edad en una prueba de aprovechamiento educativo) y la edad cronológica en meses. Al comparar los resultados de un test de inteligencia con los de una prueba de aprovechamiento educativo, puede calcularse un cociente de aprovechamiento como la relación de la edad educativa con la edad mental. Algunos de estos cocientes aún se calculan evaluando las puntuaciones de pruebas, pero los especialistas en mediciones psicológicas no recomiendan esta práctica.
Normas percentilares
Las normas percentilares consisten en una tabla de percentiles que corresponden a puntuaciones crudas particulares. Las puntuaciones crudas se transforman como percentiles, y el porcentaje del grupo de norma inferior a una calificación en particular es el rango percentilar de dicha calificación. Las columnas 2 y 5 de la distribución que aparece en la tabla 4.2 muestran que, para este grupo de calificaciones, el rango percentilar de una calificación de 625 es aproximadamente 82, y el rango percentilar de una calificación de 475 es aproximadamente 23. Alternativamente, puede decirse que el octagésimo segundo percentil es 625 y el vigésimo tercero es 475.
Las normas percentilares a menudo se usan para fines de selección y colocación en una escuela o grado en particular, de manera que el procedimiento para calcular percentiles se describirá con cierto detalle. Las columnas 1 y 3 de la tabla 4.2 son una frecuencia de distribución de 250 calificaciones obtenidas en una prueba de capacidad académica, y la columna 2 da los puntos medios de los intervalos de calificaciones. Al calcular el valor inicial de la columna 4 (frecuencia acumulativa inferior al punto medio) para un intervalo en particular, se suman las frecuencias de todos los intervalos hasta ese intervalo. A este total se añade la mitad de la frecuencia de ese intervalo. Por ejemplo, el valor 227.0 para el intervalo 650-699 se calcula como1 ? 13 ? 25 ? 38 ? 65 ? 49 ? 27 ? (18) = 227.0. Dado que el valor inicial para un interva-lo en particular de la columna 4 es la frecuencia acumulativa inferior al punto medio de ese in-tervalo, el rango percentilar de un punto medio de intervalo dado puede calcularse dividiendo lafrecuencia acumulativa correspondiente de la columna 4 entre la cantidad total de calificaciones(n) y multiplicando el cociente resultante por 100. Para los datos de la tabla 4.2, n = 250, de modo que cada rango percentilar de la columna 5 es igual a 100 veces la frecuencia acumulativa correspondiente de la columna 4 dividida entre 250. Por ejemplo, el rango percentilar del punto medio 674.5 es 100(227/250) = 90.8 =91.
Los rangos percentilares son bastante fáciles de calcular y comprender, por lo que son más populares que las normas estándar de calificación. Las tablas de normas de rangos percentilares dentro de grupos de grados, edades cronológicas, género, ocupaciones, y otros grupos demográficos se incluyen en los manuales adjuntos a muchos instrumentos psicométricos. Desafortunadamente, el problema de las unidades de calificación desiguales, al que nos referimos antes en el análisis de las normas de edad y grado, no se resuelve con las normas de rangos percentilares.
Imagen en la carpeta. TABLA 4.2 Rangos percentilares y calificaciones estándar correspondientes a los puntos medios de una distri-bución de frecuencia de puntuaciones de pruebas
Los rangos percentiles son medidas del nivel ordinal y no de intervalo (vea el apéndice A) y por lo tanto las unidades no son iguales en todas las partes de la escala. En relación con el atributo que se mide, la diferencia entre dos rangos percentilares ya sea en el extremos inferior o en el superior de la escala de Percentiles equivalentes (vea figura 4.3) es mayor que la existente entre dos rangos percentilares con una diferencia numérica igual pero más cercana al centro de la escala.
El hecho de que las unidades de rangos percentiles se acumulen en la mitad y se dispersen en los extremos de la escala dificulta la interpretación de los cambios y las diferencias en estas calificaciones transformadas. Así, la diferencia de capacidad entre una persona con un rango percentilar de 5 y otra con uno de 10 en una prueba de aprovechamiento no es igual a la diferencia de capacidad entre una persona con un rango percentilar de 40 y otra que tenga unos 45. En términos de atributo (habilidad) que se mide, la diferencia entre los rangos percentilares de 5 y 10, por ejemplo, es mayor que la existente entre los 45 y 50; esto se debe a que es mayor la unidad de medida para la primera diferencia. Para interpretar normas de rangos percentilares en forma precisa, debemos recordar asignar un peso mayor a las diferencias de rango percentilar en los extremos que a las mismas diferencias cerca de la mitad de la escala.
Imagen en la carpeta. FIGURA 4.3 Rangos percentilares y calificaciones estándar correspondientes a varios puntos de la línea base de una distribución normal de calificaciones.
Normas de calificación estándar
A diferencia de los rangos percentilares, las calificaciones estándar representan la medición en una escala de intervalos. Las normas de calificación estándar son puntuaciones convertidas que tienen cualesquier media y desviación estándar deseadas. Hay muchos tipos de calificaciones estándar,los cuales incluyen a las calificaciones z, Z, CEEB, de CI de desviación, estaninas, T y NCE.
Calificaciones z . Los equivalentes de calificaciones z de una distribución particular de puntuaciones crudas pueden determinarse como:
Fórmula. Normas de calificación estándar. Calificaciones z. Imagen en la carpeta del libro.
donde X es una puntuación cruda dada, X es la media aritmética, y s es la desviación estándar delas puntuaciones crudas. Transformar puntuaciones crudas en calificaciones z produce una distribución de calificaciones con la misma forma, pero con una media y desviación estándar distintas a la distribución de la puntuación cruda (X). La media de las calificaciones z es 0, y la desviación estándar es 1.Las calificaciones z correspondientes a los puntos medios del intervalo incluidos en la columna 2 aparecen en la columna 6 de la tabla 4.2. La media y la desviación estándar de la distribución de calificaciones en la tabla 4.2 son 541.5 y 90.3, respectivamente. Por lo tanto, la calificación z correspondiente al punto medio 774.5 es (774.5 - 541.5)/90.3 = 2.58. Las calificaciones z correspon-dientes a los puntos medios de los demás intervalos pueden encontrarse del mismo modo. Lascalificaciones z de varios puntos en la línea base de la curva normal se presentan en la figura 4.3.
Calificaciones Z. El hecho de que las calificaciones z pueden ser números decimales positivos o negativos origina cierta dificultad para manipularlas. El problema puede resolverse multiplicando las calificaciones z por una constante y añadiendo otra constante a los productos. Multiplicar z por 10, sumar 50 al producto, y redondear el resultado al número entero más cercano produce una calificación Z. La media de un conjunto de calificaciones Z es 50 y su desviación estándar es 10, pero la distribución de frecuencia de las calificaciones Z tiene la misma forma que la distribución original de las puntuaciones calificaciones crudas (vea la columna 7 de la tabla 4.2).
Calificaciones CEEB. En cierta época, las calificaciones estándar (calificaciones CEEB) sobre pruebas publicadas por el College Entrance Examination Board (Consejo de Evaluación de Ingreso a la Universidad) se determinaban multiplicando las calificaciones z correspondientes por 100 y sumando 500 a los productos. Por ejemplo, esto se hizo a las puntuaciones crudas dela Prueba de Aptitud Académica (SAT) aplicada en 1941, lo que produjo una nueva distribución con una media de 500 y desviación estándar de 100. Sin embargo, posteriormente las calificaciones obtenidas por estudiantes que se sometieron a la SAT no se transformaron de esta manera. Más bien, para garantizar una unidad de calificación constante por comparar los resultados de pruebas año con año, a partir de 1941 las calificaciones de la escala SAT se basaron en los resultados de la prueba aplicada ese año.
Calificaciones Wechsler. Las puntuaciones crudas en las subpruebas de las escalas de inteligencia de Wechsler se transformaron para tener una media de 10 y desviación estándar de 3. No obstante, las puntuaciones verbales, de ejecución y de escala total (CIs de desviación) en las pruebas de Wechsler se convirtieron a una distribución con una media de 100 y desviación estándar de 15 (vea las últimas dos líneas de la figura 4.3).
Calificaciones estándar normalizadas. Las normas de calificaciones estándar descritas arriba son simples transformaciones lineales de puntuaciones crudas. La media y las desviaciones estándar de las calificaciones transformadas son distintas de las de la distribución de la puntuación cruda, pero la forma de las dos distribuciones es idéntica. Si la distribución de la calificación es simétrica, también lo será la distribución de las calificaciones transformadas.
Para hacer las calificaciones de distintas pruebas más directamente comparables, se usa un procedimiento de transformación que no sólo afecte la media y la desviación estándar, sino que también cambie la forma de la distribución de las puntuaciones crudas a la de una distribución normal. Transformar un grupo de puntuaciones crudas en calificaciones estándar normalizadas empieza por calcular los rangos percentilares que corresponden a las puntuaciones crudas. Entonces, a partir de una tabla de áreas bajo la curva normal (apéndice B), se encuentra la calificación z que corresponde a cada rango percentilar. Por ejemplo, supóngase que los puntos medios(la columna 2) de la distribución de la tabla 4.2 deben convertirse en calificaciones estándar normalizadas. Debido a que los rangos percentilares de estos puntos medios ya se han encontrado(columna 5), empezamos por convertir los rangos percentilares en proporciones (por ejemplo,99.4 se convierte en .994). Entonces, a partir de la tabla del apéndice B, se determinan las calificaciones Z bajo las cuales se encuentran las proporciones dadas del área. Así, la calificación z(zn) bajo la cual se encuentra .994 del área bajo la curva es 2.51. Las otras calificaciones z normalizadas de la columna 8 de la tabla 4.2 se determinaron de manera similar. Para eliminar los puntos decimales y los números negativos, estas calificaciones zn se transformaron en calificaciones T mediante la fórmula T = 10zn? 50 (columna 9) y en calificaciones NCE (equivalentede curva normal) mediante la fórmula NCE = 21zn+ 50. Las calificaciones T van aproximadamente de 20 a 80 y las NCE de aproximadamente 0 a 100.
Las calificaciones zn pueden transformarse en calificaciones normalizadas con cualesquier media y desviación estándar deseadas. Otra escala de calificación es la calificación estanina (nueve estándar) ejemplificada por la tercera escala desde abajo en la figura 4.3. En esta escala están-dar normalizada, que tiene una media de 5 y desviación estándar de aproximadamente 2, hay nueve rangos distintos, o estaninas.3 Estos rangos se designan con los números 1 al 9, y, como se muestra en la figura, cierto porcentaje de una distribución normal de pruebas cae dentro del intervalo representado por una estanina dada. Sin embargo, la calificación estanina no es una verdadera escala de calificaciones estándar, porque la primera y la novena estanina están abiertas. Obsérvese en la figura 4.3 que la amplitud de las estaninas 2 a 8 es igual, indican unidades de calificación estándar iguales, pero las estaninas 1 y 9 abarcan una distancia mucho más amplia.
Una ventaja de las calificaciones estaninas es que representan rangos más que puntos específicos. Esto contribuye a equilibrar la tendencia a considerar las calificaciones de pruebas como medidas precisas, invariables, de las diferencias individuales. Otro procedimiento que tiene el mismo efecto es registrar no sólo el rango percentilar o la calificación estándar correspondiente a una puntuación cruda dada, sino también un rango percentilar o un intervalo de calificación estándar dentro de los cuales pueda esperarse razonablemente que caiga la verdadera posición del examinado en la prueba. Esta práctica reconoce el hecho de que las calificaciones de las evaluaciones psicológicas y educativas no son exactas, sino que están sujetas a errores de medición.
IGUALACIÓN DE PRUEBAS
En muchas situaciones que implican la aplicación y la investigación de pruebas psicológicas, se requiere más de una versión de prueba. Las formas paralelas de una prueba son equivalentes en el sentido de que pueden contener los mismos tipos de reactivos de igual dificultad y que están altamente correlacionadas. Por lo tanto, las calificaciones que se obtienen en una forma son muy similares a las obtenidas por los mismos examinados en una segunda forma en el mismo nivel de edad o de grado que la primera forma. Desafortunadamente, elaborar pruebas paralelas es un proceso bastante caro y laborioso. Empieza con la preparación de dos pruebas, con el mismo tipo y número de reactivos, que originan las mismas medias y desviaciones estándar cuando se estandarizan en el mismo grupo de personas. Las formas paralelas producidas se igualan convirtiendo las calificaciones de una forma a las mismas unidades que las de la otra forma. Esto puede lograrse, por ejemplo, mediante el método equipercentil de cambiar las puntuaciones encada forma a rangos percentilares. Entonces se prepara una tabla de calificaciones equivalentes sobre las dos formas equiparando el rango percentilar de p sobre la primera forma a la calificación del rango percentilar p sobre la segunda forma.
Al proceso de igualar, o más bien de hacer comparables, dos pruebas del mismo nivel de dificultad (por ejemplo, el mismo grado) se le conoce como igualación horizontal. Esto también puede realizarse verticalmente, como cuando se igualan las calificaciones de dos pruebas con distintos niveles de dificultad (grados diferentes). En general, el proceso de igualar incluye sujetar las pruebas a reactivos comunes o a un banco, como se realizó cada año con la Prueba de Aptitud Académica (SAT) estadounidense. Al usar un conjunto de reactivos en común que eran los mismos que un subconjunto de reactivos en por lo menos una forma anterior de la prueba, las calificaciones de cada forma nueva de la SAT que se aplicaba cada año se igualaban estadísticamente a formas previas en la prueba.
La teoría de respuesta al ítem (IRT), que prescribe métodos de calibración para un con-junto de reactivos de pruebas en un continuo de rasgos latente definidos de modo operativo (por lo común representados mediante calificaciones estándar en el eje horizontal de una curva de respuesta a ítemes), también se ha aplicado a la tarea de igualar pruebas. La propiedad de invarianza de la muestra en los parámetros de reactivos en la IRT, que se abordó en la explicación previa sobre análisis de reactivos, facilita el proceso de determinar calificaciones equivalentes o igualadas en distintas pruebas. El método de la IRT para igualar incluye buscar una ecuación lineal que transforme los parámetros del reactivo (índices de dificultad y de discriminación) de la versión de una prueba a los de una segunda versión. La metodología con que se establecen las constantes adecuadas para las ecuaciones lineales de transformación, de modo que los parámetros correspondientes en ambas pruebas se encuentren en la misma escala, se denomina vinculación. Los procedimientos de vinculación requieren que ambas pruebas compartan algunos reactivos en común (de soporte), o que un subconjunto de examinados resuelva ambas pruebas o un tercer examen que mida el mismo rasgo. Los procedimientos de igualación de la teoría de respuesta a los ítemes son económicos en cuanto a que también incluyen el muestreo de reactivos, en el que se aplican subconjuntos de reactivos seleccionados al azar a distintos grupos de personas seleccionadas también aleatoriamente.
Cualquiera que sea el método empleado para intentar igualar dos pruebas (equipercentil, de respuesta a ítemes, transformaciones de calificaciones lineales o no lineales), las pruebas que midan distintas características psicológicas o que tengan diferente confiabilidad no pueden, estrictamente hablando, igualarse. En casi todos los casos, lo mejor que puede hacerse es lograr que ambas pruebas o instrumentos psicométricos resulten “comparables”.
RESUMEN
El principal objetivo de un análisis de reactivos es mejorar una prueba modificando o descartando los reactivos ineficaces. El análisis de reactivos también proporciona información específica sobre lo que saben o no los examinados. Los reactivos de pruebas pueden analizarse comparando respuestas a reactivos con calificaciones de criterio externo, como las notas asignadas por el maestro o las clasificaciones de los jefes, o de criterio interno, como calificaciones de prueba totales. Si el propósito es elaborar una prueba que pueda predecir al máximo las calificaciones con un criterio externo, entonces los reactivos deberían validarse contra el criterio.
Se calculan diversos análisis estadísticos para validar los reactivos de pruebas contra criterios externos e internos. Dichas estadísticas, que son índices de la relación entre reactivos calificados dicotómicamente (correcta-incorrecta) y calificaciones con la medida de criterio,constituyen una base para aceptar o rechazar reactivos específicos.
Dos sencillos coeficientes que pueden calcularse al analizar los reactivos de una prueba elaborada por maestros son el índice de dificultad de reactivos (p) y el índice de discriminación de reactivos (D). Estos índices se aplican a reactivos tanto con referencias a normas como con referencias a criterios. El valor óptimo de p depende de los propósitos de la prueba y de la cantidad de opciones por reactivo. En la mayoría de los casos se requiere un valor D de .30 o mayor para que un reactivo sea aceptable.
Además de calcular los índices de dificultad y de discriminación de los reactivos de prueba, los reactivos deben examinarse en cuanto a sesgos, ambigüedad y los efectos de la velocidad. Las variaciones marcadas de la uniformidad en la distribución de frecuencia de las respuestas al os distractores son un signo de deficiencias en el funcionamiento del reactivo.
Al elaborar una curva característica de los reactivos, la proporción de examinados que dan la respuesta en clave a un reactivo se traza contra las calificaciones con un criterio interno (calificaciones de prueba totales) o externo. Una extensión del método de curva característica de los reactivos, conocida como teoría de respuesta a los ítemes, conlleva incluir parámetros de dificultad, discriminación y adivinanza en una ecuación logística, o bien derivar valores de estos parámetros para dicha ecuación. La ecuación logística relaciona la proporción de examinados que contestaron el reactivo de manera correcta con cálculos de sus calificaciones en un continuo específico de capacidad u otra característica unidimensional.
La estandarización consiste en aplicar una prueba a una muestra representativa de personas en condiciones estándar (uniformes) y mediante un procedimiento estándar. Las normas calculadas a partir de las puntuaciones de prueba obtenidas conforman un marco de referencia para interpretar puntuaciones alcanzadas por personas que después se someten a la prueba. Tradicionalmente, las normas se han establecido evaluando una muestra (aleatoria, aleatoria estratifica-da, por grupo) de la población para la que está destinada la prueba. De menor costo y más eficientes que los procedimientos convencionales de estandarización de pruebas son las técnicas de muestreo de reactivos, en las que se toman muestras no sólo de las personas sino también de los reactivos y distintos grupos de examinados responden diferentes conjuntos de reactivos.
Dependiendo de las necesidades y recursos de los usuarios de pruebas, las normas pueden calcularse en muestras locales, regionales o nacionales. Las normas de edad y grado, que se establecen con mayor frecuencia para pruebas de aprovechamiento, permiten comparar calificaciones de pruebas individuales con el promedio de calificaciones de niños de cierta edad o grado. La principal desventaja de las normas de edad y grado es que el progreso en el aprovechamiento o capacidad no es uniforme a través de la edad o los niveles de grado. Las normas de rangos percentilares, en las que las puntuaciones crudas de una prueba se convierten en porcentajes de personas en el grupo de estandarización que alcanzaron esas calificaciones o menos,también se ven afectadas por el problema de desigualdad en las unidades de calificación. Las normas de rango percentilar, de edad y de grado son bastante fáciles de comprender y su uso es conveniente; por ello, sin duda continuarán siendo populares.
Las normas de calificaciones estándar se convierten en calificaciones que tienen una media y una desviación estándar designadas. A diferencia de las medidas ordinales representadas por la edad, el grado y las normas de rango percentilar, las calificaciones estándar (z, T, CEEB y otras) son medidas de nivel de intervalo. No todas las calificaciones estándar se distribuyen normalmente, pero pueden convertirse con facilidad en calificaciones estándar normalizadas.
Las calificaciones de pruebas paralelas pueden escalarse para lograr igualdad, si no se igualan estrictamente, de varias maneras. Tradicionalmente, las pruebas se han igualado por el método equipercentil, pero los métodos más recientes acarrean modelos de respuesta a reactivos técnicamente más complejos.
PREGUNTAS Y ACTIVIDADES
1. ¿Cuáles son los índices de dificultad (p) y de discriminación (D) de una prueba administrada a 75 personas si 18 de las del grupo superior (27% superior en el total de calificaciones de la prueba) y 12 del grupo inferior (27% inferior del total de calificaciones de la prueba) aciertan en el reactivo? Obsérvese que el redondeo da como resultado 20 personas en el grupo superior y 20 en el grupo inferior.
2. Calcule los índices de dificultad (p) y de discriminación (D) de un reactivo de una prueba con referencia a criterio aplicada a 50 personas, 30 de las cuales obtuvieron calificaciones en el nivel del criterio o superior, y 20 consiguieron calificaciones por debajo del nivel de criterio. De quienes alcanzaron o superaron el nivel del criterio, 20 acertaron en el reactivo; entre las que quedaron bajo el nivel del criterio, 10 dieron la respuesta correcta al reactivo.
3. La siguiente tabla en dos direcciones indica si cada una de las 20 personas acertó (a) o falló (f) en cada uno de los 10 reactivos en una prueba de opción múltiple con cuatro opciones. Clasificando a los examinandos de la A a la J en el grupo superior y de la K a la T en el grupo inferior sobre la puntuación total de la prueba (vea la última línea de la tabla), calcule los índices de dificultad y de discriminación para cada reactivo. Escriba estos valores en las últimas dos columnas de la tabla. Al examinarlos índices p y D, decida qué reactivos son aceptables y cuáles necesitan modificarse o descartarse.
Tabla en la imagen de la carpeta del libro. Capítulo 04. Preguntas y Actividades. Tabla actividad 3
4. Suponga que Jorge obtiene una puntuación cruda de 65 en una prueba aritmética con una media de 50 y desviación estándar de 10, pero obtiene una puntuación cruda de 80 en una prueba de lectura con una media de 75 y desviación estándar de 15. ¿Cuáles son las calificaciones z y Z en las pruebas? ¿Jorge es mejor en aritmética o en lectura?
5. Con referencia a la tabla de áreas bajo la curva normal (apéndice B), busque las calificaciones z correspondientes a los rangos percentilares 10°, 20°, 30°, 40°, 50°, 60°, 70°, 80° y 90°. Luego convierta las calificaciones z en calificaciones T, CEEB, NCE y estaninas.
6. Construya una distribución de frecuencia a partir de las 30 calificaciones que aparecen enseguida,use un ancho de intervalo de 3. Luego calcule el rango percentilar y las calificaciones z, Z, zn y T correspondientes a los puntos medios del intervalo.
82 85 70 91 75 88 78 82 95 7986 90 87 77 87 73 80 96 86 8185 93 83 89 92 89 84 83 79 74
Tabla en la imagen de la carpeta del libro. Capítulo 04. Preguntas y Actividades. Tabla actividad 6 y 8.
7. ¿Por qué las normas de calificaciones estándar se consideran superiores a las normas de edad, degrado y de rango percentilares?
8. A continuación se presenta una lista de calificaciones de una prueba de semejanzas de ocho reactivos en la que las posibles calificaciones van de 0 a 16. Calcule el rango percentilar, la calificación z, y la calificación T correspondiente a cada una de las puntuaciones crudas. Consulte el apéndice A como ayuda.
CALIF. CRUDA FRECUENCIA RANGO PERCENTILAR zZT1
6 815 2614 7113 14012 17111 22310 2729 2508 2577 2096 1835 124489379251123025
Tabla en la imagen de la carpeta del libro. Capítulo 04. Preguntas y Actividades. Tabla actividad 6 y 8.
9. Describa los procedimientos para igualar (es decir, volver comparables) las calificaciones en dos pruebas diseñadas como formas paralelas.