CAPÍTULO TRES
ADMINISTRACIÓN, APLICACIÓNY CALIFICACIÓN DE LOS TESTS
Sin importar qué tan cuidadosamente se elabore una prueba, los resultados no tienen ningún valor si no se administra y califica ésta en forma adecuada. La necesidad de contar con procedimientos y guías establecidos para administrar y calificar pruebas psicológicas y educativas es reconocida por todas las organizaciones profesionales dedicadas a la evaluación de personas. Una fuente importante de estos recursos son los Standards for Educational and Psychological Testing (American Educational Research Association, American Psychological Association yNational Council on Measurement in Education, 1999), una serie de 264 normas para construir,evaluar, administrar y calificar pruebas y otros instrumentos psicométricos, y para interpretar y usar los resultados. Las 16 normas que conciernen específicamente a la administración, calificación y registro de pruebas ponen énfasis en la importancia de tener instrucciones claras para que la administración y calificación se sigan con todo cuidado. Las normas también hacen hincapié en que los materiales de las pruebas deben conservarse seguros, los fraudes han de detectarse y controlarse, y la interpretación de los resultados debe ser clara al leerla.
APLICACIÓN DE LOS TESTS
El procedimiento que debe seguirse para aplicar una prueba o cualquier otro instrumento psico-métrico depende del tipo de que se trate (individual o colectiva, con tiempo predeterminado o sin éste, cognoscitiva o afectiva), lo mismo que de la edad cronológica, la educación, los antecedentes culturales y el estado físico y mental de los examinados. Cualesquiera que sean el tipo de prueba y las características de quienes se someten a ella, el desempeño también puede alterarse por factores como disposición y motivación del examinado, cantidad de sueño durante la noche previa a la prueba, molestias físicas, angustia relativa a la prueba, otros problemas emocionales, y medicamentos que se estén consumiendo.
No sólo la disposición, la habilidad para resolver pruebas y la motivación de los examinados afectan el desempeño, sino también la apariencia y el comportamiento de quien aplica la evaluación, así como la situación. Sobre todo, en el caso de pruebas individuales, son importantes la habilidad y la personalidad del examinador. Quienes administran la mayoría de las pruebas individuales deben tener un título o certificado formal expedido por un organismo gubernamental apropiado o ser supervisados por otro examinador certificado. Estos requisitos contribuyen a garantizar que los examinadores cuenten con el conocimiento y la capacidad necesarios para administrar, calificar e interpretar diversos tipos de instrumentos psicométricos.
Las variables situacionales, incluyendo el tiempo para resolver la prueba y el lugar donde se aplique, y condiciones ambientales como iluminación, temperatura, nivel de ruido, ventilación u otras distracciones, también pueden contribuir a la motivación, concentración y desempeño delas personas que se examinan. Por consiguiente, antes de administrar una prueba, debemos estar seguros de que el ambiente físico sea el apropiado.
Deberes del examinador antes de la prueba
Programación. Al programar una prueba, el examinador debe tomar en cuenta las actividades que suelen realizar los examinados en esa hora del día. No es sensato administrar pruebas a niños durante las horas del almuerzo o del juego, cuando acostumbran realizar alguna otra actividad placentera, o cuando acaban de tener lugar acontecimientos divertidos o emocionantes (por ejemplo, inmediatamente después de días feriados). El tiempo de la prueba casi nunca debe excederse de una hora al tratarse de niños pequeños o de una hora y media cuando son niños de secundaria. Debido a que 30 minutos es el límite de tiempo en que un niño de nivel preescolar y de primaria puede permanecer atento a las tareas de una prueba, puede requerirse más de una sesión para administrarse pruebas extensas a niños pequeños.
Con respecto a las pruebas en el aula, debe informarse a los estudiantes con suficiente anticipación cuándo y dónde se administrará la prueba, qué contenido de materias incluirá, qué tipo de prueba (objetiva, de ensayo, oral) se administrará y cuánto tiempo se concederá para resolverla. Los estudiantes merecen la oportunidad de prepararse intelectual, emocional y físicamente para una prueba. Por ello, regularmente no es aconsejable imponer exámenes sorpresa. Si el maestro piensa que ocasionalmente las pruebas sin previo aviso ayudan a garantizar que los alumnos se mantengan al corriente con el material del curso, dichos exámenes no deben tener el mismo peso que las evaluaciones habituales.
Consentimiento informado. En muchos lugares, la aplicación de una prueba de inteligencia o de otro instrumento de psicodiagnóstico a un niño requiere del consentimiento in-formado de uno de los padres, un tutor o de otra persona legalmente responsable del niño.El consentimiento informado consiste en un acuerdo entre una institución o individuo y una persona en particular o su representante legal. Con los términos del acuerdo se otorga permiso para aplicar tests psicológicos a una persona y/o conseguir otra información con propósitos de evaluación o de diagnóstico.
Debe obtenerse el consentimiento informado de quienes se someterán a una prueba, o de sus representantes legales cuando sea adecuado, antes de iniciarla excepto (a) cuando la evaluación sin consentimiento sea ordenada por ley o por reglamentación gubernamental; (b) cuando la evaluación se aparte de las actividades habituales de la escuela, o (c) cuando el consentimiento esté claramente implícito (American Educational Research Association et al., 1999, p. 87).
El requisito de consentimiento informado suele cumplirse al obtener la firma de una persona legalmente responsable en una forma estándar proporcionada por el distrito escolar u otra institución pertinente. La forma especifica el(los) objetivo(s) de la evaluación, el uso que se hará de los resultados, los derechos del padre o tutor y el procedimiento a seguir para obtener una copia del informe final o de la interpretación.
Familiarizarse con la prueba. No debe haber duda en cuanto a la familiaridad con el material de la prueba y el procedimiento de aplicación cuando el examinador es la misma persona.
Debido a que la persona que administra una prueba estandarizada rara vez es la misma que la elaboró, debe estudiarse con cuidado el manual adjunto antes de iniciar el proceso de evaluación. Es de particular importancia familiarizarse con las instrucciones de administración y con el contenido de la prueba. Para lograr esta familiaridad, es recomendable que el examinador mismo se someta a la prueba antes de administrarla a otra persona. Por último, es aconsejable revisar las instrucciones y otros materiales del procedimiento justo antes de la aplicación.Asimismo, los folletos, las hojas de respuestas y otros materiales de la prueba deben revisarse y contarse con anterioridad. Las pruebas seguras que incluyen un número de serie, como la Prueba de Evaluación Académica y los Exámenes de Registro de Graduados, deben inspeccionarse en forma minuciosa y ordenarse por número.
Cuando un niño o un adulto sea remitido para un examen psicológico por una institución externa o por un médico o juez, las pruebas y otros procedimientos de psicodiagnóstico a administrarle dependerán de los tipos de información que requiera la fuente que remite y de los fines para los que se empleará la prueba. En consecuencia, es importante que la persona que remite especifique con precisión la información requerida y lo que se hará con ella. En todo caso, el examinador debe estar familiarizado a fondo con las pruebas o los demás instrumentos psicométricos y los tipos de individuos y condiciones para los que son adecuados.
Garantizar condiciones de evaluación satisfactorias. Los examinadores deben asegurarse de que los asientos, la ventilación, la temperatura, el nivel de ruido y otras condiciones físicas del ambiente de evaluación sean satisfactorios. Es preferible utilizar una habitación que sea familiar para los examinados y esté relativamente libre de distracciones. Colocar un letrero de “Prueba No molestar” en la puerta cerrada puede contribuir a evitar interrupciones y otros distractores. También deberá contarse con acceso fácil a las salidas y a las instalaciones sanitarias.
Es mejor administrar una prueba individual en una habitación privada, sólo con el examinador, el examinado y, de ser necesario, uno de sus padres, el tutor u otra persona responsable.Ya sea en una prueba individual o en una colectiva, es preciso tomar previsiones especiales para examinados físicamente discapacitados o diferentes (por ejemplo zurdos).
Reducir los fraudes. Los examinadores bien capacitados están muy conscientes de la importancia de la seguridad de la prueba, tanto antes como después de administrarla, y de aceptar la responsabilidad de que se conserve dicha seguridad.
Debe advertirse a quienes se someten a una prueba que hacer que otra persona responda el examen en su lugar, revelar material confidencial o cualquier otra forma de fraude es un comportamiento inadecuado que puede generar sanciones (American Educational Research Association et al., 1999, p. 88).
Antes de la prueba, debe procurarse que haya asientos confortables que además contribuyan a eliminar la posibilidad de fraude. Aunque es preferible, no siempre puede lograrse que los examinados dejen un asiento libre entre cada uno para que resulten difíciles las oportunidades de hacer trampa. Preparar formas múltiples (con reactivos distintos o con una distribución diferente) de la prueba y repartir formas distintas a los examinados adyacentes puede reducir las trampas en una prueba aplicada colectivamente. Otra posibilidad es usar diversas hojas de respuestas, es decir, con distinta disposición. También deben emplearse varios vigilantes cuando se trate de pruebas para un grupo grande. Ellos pueden ayudar a distribuir y recoger los materiales dela prueba y a responder dudas sobre el procedimiento; además, su presencia tiende a desalentar las conductas tramposas y la indisciplina. La vigilancia y otros procedimientos diseñados para prevenir las trampas se consideran con suma seriedad al administrar pruebas estandarizadas seguras, tales como la Prueba de Evaluación Académica y los Exámenes de Registro de Graduados. Estas pruebas, los folletos y las hojas de respuestas, que se cuentan con todo cuidado antes y después de los exámenes, se supervisan minuciosamente. Se solicita de las personas que se someten a estas pruebas mostrar una identificación oficial antes de ser admitidos en el aula de exámenes.
Deberes del examinador durante la prueba
Seguir las instrucciones de la prueba. Mediante instrucciones meticulosamente preparadas,que se leen en forma lenta y clara al presentarse oralmente, se informa a los examinados sobre los objetivos de la prueba y cómo anotar sus respuestas. Se pide a los examinadores de pruebas estandarizadas que sigan cuidadosamente las instrucciones de administración, aun cuando una explicación adicional podría esclarecer la tarea para los examinados. El no apegarse a las instrucciones estándar puede dar como resultado una tarea distinta de la que tenían en mente los diseñadores de la prueba. Si las instrucciones no son idénticas a las presentadas a la muestra de personas con las que se estandarizó la prueba, los resultados no tendrán el mismo significado que los del grupo de estandarización. Por ende, se habrá perdido un útil marco de referencia para interpretar los resultados.
Los examinadores de contextos clínicos y educativos en ocasiones van más allá de las instrucciones de la prueba e intentan probar los límites de las habilidades o las características personales de los examinados. Esto puede lograrse mediante procedimientos de evaluación dinámicos o auténticos para obtener claves adicionales con fines de interpretación o diagnóstico.Una ilustración de la evaluación dinámica se encuentra en el concepto de Feuerstein acerca dela evaluación del potencial de aprendizaje (Feuerstein, Feuerstein y Gross, 1997). La evaluación del potencial de aprendizaje implica un formato de prueba-enseñanza-prueba donde se examina a una persona, se le somete a una práctica sobre los materiales de la prueba y luego vuelve a aplicársele el examen. Se calcula entonces el cambio en el nivel de desempeño de la primera a la segunda ocasión en que se resuelve la prueba como una medida del potencial de aprendizaje del examinado (vea también Tombari y Borich, 1999).
Permanecer alerta. Al administrar una prueba colectivamente, ya sea estandarizada o no, el examinador debe mantenerse alerta para evitar las trampas, así como que se hable o haya ruido innecesario. También es sensato tomar la precaución de tener un mensajero disponible para casos de emergencias médicas o algún otro problema. En pruebas elaboradas por el maestro, o incluso en pruebas estandarizadas si las instrucciones lo permiten, es posible informar periódicamente a los estudiantes cuánto tiempo les resta anotando la hora en el pizarrón o en otra superficievisible.
Establecer una relación interpersonal. Tanto en pruebas individuales como colectivas, el comportamiento del examinador puede tener un efecto considerable en la motivación y el comportamiento de los examinados. En ocasiones, hasta una sonrisa puede brindar ánimo a los examinados nerviosos o poco preparados a fin de que conserven la calma y logren un desempeño óptimo. Debido a que las pruebas individuales proporcionan una mejor oportunidad de observara los examinados que las pruebas de aplicación colectiva, es más probable detectar falta de motivación, distracción y tensión en un contexto de evaluación individual. Así, pueden realizarse esfuerzos para manejar estos problemas o por lo menos tomarlos en cuenta al interpretar los resultados. En una situación de evaluación colectiva, donde suele ser imposible mantener una interacción personal con cada uno de los examinados, el examinador tiene más dificultades para advertir cómo se está sintiendo y desempeñando una persona. Tanto en pruebas individuales como colectivas, una buena regla a seguir es mostrarse amigable pero objetivo, con autoridad mas no autoritario, con modales y vestuario apropiados y a cargo de la situación de evaluación. Tal comportamiento por parte del examinador tiende a crear una situación de rapport, es decir, una relación interpersonal cordial de aceptación que anima a los examinados a responder en forma honesta y precisa.
Prepararse para manejar problemas especiales. En determinadas circunstancias, los examinadores deben ser especialmente activos y alentadores. Una situación de evaluación produce cierta cantidad de tensión casi en cualquier persona, y en ocasiones un examinado se pone muy nervioso. Las pruebas en personas muy jóvenes, muy viejas, perturbadas mentalmente, con retraso mental, discapacidad física o desventajas culturales presentan problemas especiales. En algunas situaciones, tal vez tengan que darse las preguntas y las respuestas en forma oral y no escrita, o en una lengua en particular. El examinador no sólo debe estar familiarizado con el material de la prueba, sino también conducirse de manera alerta, flexible, cálida y objetiva. Estas cualidades no se enseñan con facilidad, pero la experiencia en diversas situaciones de evaluación desempeña un papel importante para adquirirlas.
Flexibilidad. También se permite cierta flexibilidad al administrar pruebas no estandarizadas e incluso en algunos instrumentos estandarizados, pero el exceso de flexibilidad puede volver inútiles las normas establecidas con propósitos de interpretación. Al evaluar con estas medidas, la sensibilidad y la paciencia por parte del examinador pueden proporcionar una mejor oportunidad para que los discapacitados y otros individuos con problemas especiales demuestren sus aptitudes. Otros procedimientos recomendados, que se han adaptado de técnicas de instrucción reconocidas, son los siguientes:
1. Proporcionar tiempo suficiente para que los examinados respondan el material de la prueba.
2. Permitir la práctica necesaria con reactivos de ejemplo.
3. Usar periodos de evaluación relativamente cortos.
4. Observar si hay signos de fatiga o angustia y tomarlos en cuenta.
5. Ser consciente y tomar las medidas pertinentes en caso de defectos visuales, de audición y otros sensoriales o perceptuales-motrices.
6. Brindar estímulo y refuerzo positivo con generosidad.
7. No intentar obligar a los examinados a responder cuando se han resistido a hacerlo en varias ocasiones.
Pruebas orales. Los exámenes orales a menudo provocan en los estudiantes sentimientos encontrados y mucha aprehensión. Como resultado, los esfuerzos por calmar esos temores y ofrecer otros métodos de evaluación a quienes les afectan emocionalmente las situaciones de evaluación oral puede mejorar la efectividad de este tipo de pruebas. Los examinadores que realizan esfuerzos especiales por establecer una relación interpersonal con los examinados descubren que es posible que éstos lleguen a disfrutar de las pruebas orales.
Aplicar una prueba
En general, no se consideran justos los exámenes sorpresa. Los alumnos merecen la oportunidad de prepararse para una prueba. Debe informárseles con anticipación no sólo cuándo y dónde se realizará la prueba, sino también lo que abarcará y qué tipo de prueba será. Con respecto al formato, tanto los estudios en aulas como de laboratorio han revelado que las personas tienden a obtener mejores resultados en pruebas de recordatorio (ensayo, de respuestas breves) cuando se les informa que se administrará una prueba de ensayo (por ejemplo, May y Thompson, 1989). Esperar una prueba de reconocimiento (opción múltiple, de falso-verdadero) estimula un estudio delos detalles más concentrado, mientras que esperar una prueba de recordatorio origina mayores esfuerzos por recordar unidades de un nivel superior y temas del material (Schmidt, 1983).
Hay estudios de aula donde se ha descubierto que comunicar con anticipación que se administrará una prueba objetiva está relacionado con calificaciones más elevadas en pruebas de opción múltiple, de falso-verdadero y otras de reconocimiento. Sin embargo, los resultados de estudios de laboratorio son más complejos (Lundeberg y Fox, 1991). Además, otros factores como la habilidad mental, la habilidad para resolver pruebas, adivinar y una cuidadosa lectura y consideración de los reactivos parecen tener tanto efecto en las calificaciones de las pruebas como saber qué tipo de prueba se aplicará. En cualquier caso, al aplicar una prueba de aprovechamiento, es justo proporcionar información previa sobre su forma y cobertura.
Ingenio para resolver pruebas. Al responder reactivos de prueba objetivos, la gente suele emplear métodos muy diferentes de los que previó el autor de los reactivos. No todos los examinados leen con cuidado los reactivos y con frecuencia no utilizan la información proporcionada. Esto puede no ser esencial en todos los casos, ya que en ocasiones es posible reconocer las res-puestas correctas en reactivos de opción múltiple sin haber leído el material en que se basan las preguntas. Por ejemplo, las opciones erróneas pueden descartarse al advertir que algunas están expresadas en forma incorrecta o son demasiado extensas o breves. Otras claves que pueden re-velar las respuestas correctas en reactivos de opción múltiple son asociaciones aliteradas, opciones no relacionadas, lenguaje incluyente, opciones en clave que son más precisas que las demás,claves gramaticales y opciones que se revelan al aparecer resueltas en otros reactivos.
Las observaciones de estudiantes que responden pruebas de opción múltiple y luego son entrevistados revelan que, si bien los reactivos a menudo se responden simplemente eliminando las opciones que parecen incorrectas, una práctica más común es realizar juicios comparativos entre las opciones. Los resultados de la investigación de Rogers y Yang (1997) indican que los alumnos primero deben tener cierto conocimiento del contenido de las opciones raíz y/o de los reactivos a fin de eliminar las opciones incorrectas y aprovechar las claves del reactivo.
Otro aspecto del ingenio para resolver pruebas es el conocimiento de la idiosincracia del maestro. El ingenio para resolver pruebas parece ser una capacidad específica, no general, para identificar claves que se desarrolla en los estudiantes al madurar y compartir información sobre la forma de resolver pruebas (Evans, 1984). Por ejemplo, la extensión, el tecnicismo y cierto exotismo de las opciones proporcionan claves para encontrar las respuestas correctas (Strang, 1980; Tid-well, 1980). También es de interés el hecho de que la influencia del ingenio para resolver pruebas en general es mayor para los reactivos de cuatro opciones que para los de tres (Rogers y Harley,1999). Los niños parecen tener más esta habilidad que las niñas (Preston, 1964), y los reactivos verbales son más susceptibles de resolverse mediante esta capacidad que los numéricos (Rowley,1974). Algunos aspectos de dicha habilidad pueden enseñarse (American College, 1978; Millmany Pauk, 1969). El cuadro 3.1 contiene una lista de 15 sugerencias que, al practicarse antes y duran-te una prueba, pueden incrementar el ingenio para responder pruebas y mejorar los resultados.
CUADRO 3.1
SUGERENCIAS PARA MEJORAR LOS RESULTADOS DE SU PRUEBA
Antes de la prueba
1. Pida al instructor una copia de viejas pruebas que pueda usted revisar legítimamente.
2. Pregunte a otros estudiantes qué tipo de pruebas suele administrar el instructor.
3. No espere a que llegue el día anterior para empezar a estudiar cuando la prueba ha sido anuncia-da con anticipación.
4. Estudie para el tipo de prueba (de elección múltiple, de falso-verdadero, de ensayo) que se ha anunciado.
5. Si no se ha especificado el tipo de prueba que se administrará, tal vez sea mejor estudiar para una prueba de recordatorio (ensayo).
6. No convierta el estudiar para una prueba en un acontecimiento social; en general es mejor aislarse para preparar una prueba.
7. No se ponga demasiado cómodo para estudiar. Su cuerpo supone que desea dormir cuando se recuesta o su posición resulta demasiado confortable.
8. Intente estructurar el material que estudia como reactivos de prueba, por ejemplo, en reactivos de opción múltiple si éste es el tipo de examen que tendrá, o en reactivos de ensayo si está programada una prueba de ensayo.
9. Aplique el Estudio Q3R (inspección, preguntas, lectura, recitación, revisión) al estudiar para una prueba. Revise el material, formúlese preguntas acerca de él, lea con atención intentando recordar, recite el material para usted mismo después de leerlo y revíselo justo antes de la prueba.
Durante la prueba
1. Lea cuidadosamente las instrucciones de la prueba antes de empezar con las preguntas. Si cierta información, como los límites de tiempo, la corrección por adivinar, el peso de los reactivos o cuestiones similares se han omitido, no dude en preguntar al examinador.
2. En pruebas de ensayo, piense en las preguntas y formule respuestas en su mente y/o en un papel aparte antes de empezar a escribir las respuestas definitivas.
3. Tómese su tiempo al resolver una prueba. Por ejemplo, en una prueba de opción múltiple debe haber respondido una n fracción de la prueba para cuando haya transcurrido la n fracción del tiempo reglamentario.
4. Ya sea que se emplee o no la corrección por adivinar al calificar una prueba, no deje reactivos sin responder si puede descartar por lo menos una opción.
5. Pase por alto los reactivos más difíciles y regrese a ellos posteriormente. No entre en pánico si no puede responder un reactivo; enciérrelo en un círculo y regrese a él después de haber resuelto otros. Entonces, si aún no está seguro de la respuesta, reflexione y adivine la mejor opción..
6. No se apresure a entregar la prueba antes de que termine el tiempo; cuando le sea posible, revise sus respuestas.
Cambiar las respuestas. A menudo los examinados se enfrentan a la duda de cambiar o no sus respuestas iniciales a los reactivos. En ocasiones se afirma que, como las primeras respuestas suelen ser las correctas, revisar la prueba y cambiar las respuestas sobre las que ya se ha reflexionado es contraproducente (Benjamin, Cavell y Shallenberger, 1984). Sin embargo, los resultados de varias investigaciones indican que los examinados tienden a obtener calificaciones más altas cuando reconsideran sus respuestas y cambian aquellas sobre las que dudan (vea, por ejemplo, Geiger, 1990, 1991a, 1991b). Es más probable que las respuestas erróneas se conviertan en acertadas que viceversa, aunque la cantidad de preguntas que de hecho se cambian tiende a ser pequeña.
Adivinar.
Las instrucciones para pruebas objetivas suelen incluir consejos sobre omitir un reactivo o adivinar cuando se duda sobre la respuesta correcta. Adivinar, lo que es más probable cuando los reactivos son difíciles o muy elaborados, origina más inflación de la calificación en reactivos de falso-verdadero que en pruebas de opción múltiple. En general, es aconsejable adivinar sólo cuando pueden eliminarse una o más opciones, o cuando se tiene cierta idea sobre la opción correcta. Debido a que en general es posible eliminar por lo menos una opción en un reactivo, adivinar antes que omitir reactivos suele producir calificaciones más altas. Esto es cierto ya sea que se “corrijan” o no los resultados por adivinar.
Como es comprensible, los examinados adivinarán menos si se les informa que su calificación será reducida como castigo por adivinar, al contrario de lo que sucede cuando no se dan instrucciones al respecto o se les pide que adivinen cuando tengan dudas. Desafortunadamente, los estudiantes no siempre leen ni siguen con atención las instrucciones. Incluso quienes las leen palabra por palabra no siempre las interpretan del mismo modo. Sin importar lo que aconsejen o no las instrucciones, a algunas personas no les gusta tomar riesgos y se muestran renuentes a adivinar cuando no están seguros de la respuesta correcta.
Deberes del examinador después de la prueba
Después de administrar una prueba individual, el examinador debe recoger y guardar en lugar seguro todos los materiales de la prueba. Es preciso animar a los examinados sobre su desempeño, tal vez darles alguna pequeña recompensa si se trata de niños y conducirlos al lugar adecuado. En evaluaciones clínicas, en general es importante consultar con el padre o acompañantes del examinado, quizás antes y después de la prueba. Al terminar la prueba, también se dará información sobre lo que se hará con los resultados a los examinados y/o a sus acompañantes. El examinador tranquiliza a los interesados al prometer comunicarles los resultados e interpretaciones a los propios individuos o a la institución y recomendar medidas subsiguientes.
Tras la administración de una prueba colectiva de grupo, el examinador tiene que recogerlos materiales pertinentes (folletos, hojas de respuestas, papel para usar como borrador, lápices,etcétera). En caso de una prueba estandarizada, es necesario contar y cotejar los folletos y las hojas de respuestas, así como verificar todos los demás materiales para asegurarse de que nada falte. Sólo entonces se despide a los examinados o se les prepara para la siguiente actividad, y se ordenan las hojas de respuestas para calificarlas.
Pruebas adaptativas
Históricamente, no se ha seguido con precisión en todas las pruebas un procedimiento de aplicación de pruebas en el que se presenten los mismos reactivos a todos los examinados. No obstante, en general se ha permitido poca flexibilidad al determinar los reactivos. Este método tradicional de aplicación de pruebas es particularmente ineficaz en pruebas de aprovechamiento, porque se les presentan a los examinados muchos reactivos que resultan demasiado fáciles o difíciles para ellos. Adaptar el contenido de una prueba al nivel de capacidad del examinado elimina la necesidad de aplicar muchos reactivos muy fáciles o muy difíciles, lo que ahorra tiempo y esfuerzo.
En pruebas adaptativas o a la medida, los reactivos específicos aplicados a una persona en particular dependen de su capacidad calculada a partir de sus respuestas a reactivos previos. Debido a que las pruebas son más precisas para medir la habilidad de las personas si la dificultad de los reactivos corresponde a su propio nivel de habilidad, evaluar ésta mientras el examinado avanza en la prueba permite seleccionar los reactivos más cercanos a su habilidad real (veaMeijer y Nering, 1999; Wainer, 2000).
Los bancos de reactivos para pruebas adaptativas pueden ser recopilados por computadoras programadas para seguir alguna de las metodologías de respuesta de reactivos (vea los capítulos 4 y 5). En las pruebas adaptativas, deben cumplirse algunos supuestos de la teoría de respuesta alÍtem (IRT) incluyendo los siguientes: (1) todos los reactivos de una reserva miden una sola habilidad o dimensión de aprovechamiento, y (2) los reactivos son independientes, es decir, la respuesta de una persona a un reactivo no depende de su respuesta a ningún otro reactivo. El cumplimiento de la primera suposición, de unidimensionalidad, es más probable en el caso de bancos de reactivos o de pruebas derivadas del análisis factorial (vea el apéndice A). La segunda suposición se cumple si los reactivos no están interconectados o interrelacionados de alguna manera.
El procedimiento adaptativo para aplicar una prueba de aprovechamiento o de capacidad funciona de la siguiente manera. Aplicando un modelo estadístico apropiado y una metodología de respuesta de reactivos, se recopila por computadora un banco de reactivos de prueba variando la dificultad y quizás otras características. Una estimación del nivel de habilidad del examinado determina los reactivos que se administrarán primero. Como alternativa, al principio pueden administrarse reactivos de mediana dificultad. La selección de los reactivos que se administrarán subsecuentemente depende de las respuestas del examinado a los reactivos previos. La evaluación continúa mientras el cálculo de error o el nivel de precisión de las respuestas no llegue a un nivel especificado.
A diferencia del procedimiento de evaluación tradicional, en las pruebas adaptativas no se permite a los examinados saltarse reactivos ni revisar o cambiar sus respuestas. Pero debido a que no todos los reactivos de un banco se administran a cada examinado, las pruebas adaptativas son más eficientes que las convencionales. Se aplica al examinado sólo alrededor de la mitad de los reactivos usados en las evaluaciones tradicionales, sin que se pierda información y manteniendo confiabilidad y validez equivalentes.
La calificación de una persona en la mayoría de las pruebas adaptativas está determinada no sólo por el procedimiento tradicional de contar la cantidad de reactivos contestados correctamente, sino tomando en cuenta las características estadísticas de los reactivos. En todo caso, la investigación ha demostrado que las calificaciones de las pruebas adaptativas computarizadas son sumamente comparables a las calificaciones de las pruebas de lápiz y papel equivalentes(Kapes y Vansickle, 1992; Mead y Drasgow, 1992). Asimismo, al administrar reactivos que son más apropiados para el nivel de habilidad del examinado, una prueba adaptativa puede resultar más confiable que otra más extensa diseñada para evaluar la misma habilidad.
La seguridad de una prueba es más fácil de mantener en el caso de pruebas adaptativas asistidas por computadora. El requisito de seguridad es de particular importancia en el caso de sistemas de evaluación proporcionados a través de Internet, como el desarrollado por Northwest Evaluation Association (Olson, 2000). Otras ventajas de las pruebas adaptativas asistidas por computadora incluyen calificaciones y registros más precisos e inmediatos, menos errores generados por adivinación, así como la posibilidad de grabar las respuestas y los tiempos en que se resuelven los reactivos(Bunderson, Inouye y Olsen, 1989). Una desventaja, al menos cuando se evalúan individuos o grupos pequeños, es el costo de la inversión inicial y el gasto por el mantenimiento del equipo y de la actualización de los programas de cómputo.
Los usos de las pruebas adaptativas para evaluar la inteligencia general y las habilidades eran más bien limitados hasta hace relativamente poco. Algunos organismos ofrecen versiones adaptativas computarizadas de la Prueba de Evaluación Académica (SAT), la Batería de Aptitu-des Vocacionales de las Fuerzas Armadas (ASVAB), los Exámenes de Registro de Graduados(GRE) y algunas otras pruebas de habilidades cognoscitivas (vea Bergstrom y Lunz, 1999;Mills, 1999; Segall y Moreno, 1999) y de personalidad (vea, por ejemplo, Forbey, Handel yBen-Porath, 2000; Reise y Henson, 2000).
CALIFICACIÓN DE LOS TESTS
Los diseñadores profesionales de tests no esperan a que se elabore y administre una prueba antes de decidir qué procedimiento de calificación usarán. En una prueba realizada por maestros consistente en varias partes que incluyen distintos contenidos o tipos de reactivos, es posible que el maestro quiera obtener calificaciones separadas de las diversas partes, así como un resultado general de la prueba en su conjunto. También debe decidirse si se restará una corrección por adivinar, si se asignarán distintos pesos a la calificación de los diversos reactivos o secciones y si se entregarán los resultados en forma directa o convertidos a otras escalas numéricas. Para pruebas estandarizadas, el maestro de aula no necesita tomar todas estas decisiones. Las hojas de respuestas pueden calificarse a máquina, y aun cuando se califiquen a mano, pueden usarse plantillas de calificación, proporcionadas por el editor de las pruebas, de acuerdo con las instrucciones incluidas en el manual.
Calificación de pruebas de ensayo
Las pruebas de ensayo pueden hacerse más efectivas al estructurar la tarea con claridad, de modo que la interpretación de una pregunta no varíe mucho de una persona a otra. La calificación puede basarse entonces en la calidad de la respuesta. De manera similar, el procedimiento de calificación para los reactivos de ensayo deberá estar tan estructurado y ser tan objetivo como sea posible, de forma tal que las calificaciones dependan menos de factores ajenos al contenido o de impresiones y más del nivel de conocimiento y comprensión demostrado. Calificar con base en la destreza caligráfica más que en la calidad de las respuestas, generalizar demasiado (error de indulgencia) y asignar una calificación alta a una respuesta simplemente porque el examinado obtuvo una buena calificación en otros reactivos (efecto de halo), se encuentran entre los errores que pueden alterar las calificaciones en reactivos de ensayo.
Pueden tomarse varias medidas para que las calificaciones de las pruebas de ensayo sean más objetivas y confiables. Para empezar, el examinador debe decidir ya sea calificar la pregunta en conjunto o asignar pesos distintos a cada componente. La calificación completa (global u holística) es común, pero tal vez sea más significativo emplear un procedimiento analítico en el que se asignen puntos para cada reactivo de información o habilidad incluido en la respuesta. En el primer reactivo de ensayo de la tabla 2.4, por ejemplo, puede otorgarse un punto por cada ventaja o desventaja correcta registrada y un máximo de cinco puntos para la forma en que se organiza la respuesta. La cantidad máxima de puntos asignados a un reactivo debe determinarse no sólo por el juicio del examinador sobre la importancia del reactivo, sino también por la extensión asignada a la respuesta. Cuando las instrucciones especifican una respuesta de media página, el reactivo debe tener menor peso que cuando se requiere una respuesta de página completa.
Cualesquiera que sean los pesos de calificación asignados a preguntas y respuestas específicas, es aconsejable que el diseñador de la prueba prepare de antemano respuestas ideales para las preguntas. También se recomienda que se bloqueen los nombres de los examinados antes de revisar las pruebas, de modo que puedan evaluarse en forma anónima. A continuación se presentan otras recomendaciones:
1. Califique todas las respuestas a una pregunta antes de pasar a la siguiente pregunta.
2. Califique todas las respuestas a una pregunta específica durante el mismo periodo de calificación.
3. Cuando se califiquen tanto el estilo (mecánica, calidad de la redacción) como el contenido, es preciso evaluar las pruebas en forma separada.
4. Pida a otra persona que califique nuevamente cada prueba y como resultado final elija el promedio de puntos asignados por ella y por usted.
5. Escriba comentarios al lado de las respuestas de los examinados y marque las correcciones en las pruebas.
Las correcciones y los comentarios escritos en las pruebas de aula son un complemento valioso de la cantidad de puntos o del grado asignado. Es más probable que el alumno aprenda algo extra si sus respuestas se corrigen y comentan que cuando sólo se les asigna un número o letra.
Los programas de cómputo para calificar ciertos tipos de reactivos de ensayo ya están disponibles para usarse vía red en un formato de escribir-evaluar-reescribir. Dos ejemplos son Intelligent Essay Assessor, basado en el análisis semántico latente (Landauer, 1998, 1999) y el programa“e-rater”. Los procedimientos de calificación y asignación de grados basados en la computadora para los ensayos empiezan por “enseñar” al programa sobre el tema asignado mediante la lectura de cientos de miles de vocablos de textos en línea. Los ensayos escritos por expertos sobre el tema y los ensayos de estudiantes ya calificados por instructores son digeridos por el programa para establecer sus procedimientos de evaluación. Los programas van más allá de verificar simplemente la extensión y mecánica de las palabras y de evaluar el aprendizaje específico de temas y preguntas. Se determinan y evalúan la inclusión de conceptos clave, la estructura semántica y la orientación de los argumentos del alumno. Los programas disponibles en la actualidad para asignar grados a ensayos no determinan la medida en que la escritura resulta creativa o compleja, sino más bien están orientados hacia ensayos que exponen temas objetivos (Murray, 1998).
Calificación de pruebas objetivas
Una ventaja exclusiva de las pruebas objetivas es la eficiencia y precisión con que pueden calificarse. Mientras quienes evalúan pruebas de ensayo dedican en general horas para leer las respuestas y revisar su corrección, un empleado puede calificar una prueba objetiva de manera rápida y precisa mediante una plantilla o una máquina. De modo que es posible regresar las pruebas a los estudiantes cuando aún tienen en mente el material visto en ellas.
Es posible preparar con gran facilidad tiras de claves o plantillas para calificar a mano los cuadernillos de prueba o las hojas de respuestas. Puede elaborarse una tira de claves funcional usando una tira de cartón donde las respuestas correctas se ubiquen en los sitios que corresponden a los espacios de la prueba donde se escriben las respuestas. Para preparar una plantilla de calificación a usar en hojas de respuestas especiales, en una hoja en blanco o cartoncillo se perfora en los espacios correspondientes a las respuestas correctas.
Calificaciones a máquina. Aunque la mayoría de las hojas de respuestas para pruebas distribuidas comercialmente pueden calificarse a mano o a máquina, las que distribuyen ciertas organizaciones sólo se califican a máquina. Después de que se aplica una prueba, las hojas de respuestas se envían por correo a un servicio especial o se regresan al distribuidor para que las califiquen a máquina.
Las máquinas para calificar han estado disponibles desde la primera mitad del siglo XX. Las máquinas de antaño eran sensibles sólo a marcas magnéticas colocadas en el papel, por lo que se requerían lápices magnéticos especiales para marcar las hojas de respuestas. Las máquinas contemporáneas para calificar lotes grandes de hojas de respuestas son lectores ópticos sensibles a las marcas realizadas con lápices comunes.
No se requiere de una computadora para la calificación rápida y eficiente de pruebas, pero utilizarla provee de cierta flexibilidad de uso que posteriormente permite realizar análisis estadísticos, y la interpretación y almacenamiento de las calificaciones y otros datos personales. Además de la calificación realizada localmente con un lector óptico, las hojas de respuestas pueden enviarse por correo o módem a un servicio de calificación central.
La programación requerida para usar un lector óptico de escritorio es bastante sencilla e incluye un rango amplio de funciones, tales como ponderar reactivos, calificar parcialmente,analizar reactivos, marcar aciertos y errores e imprimir diversos tipos de información, estadísticas y gráficas. Adicionalmente a las calificaciones sin depurar y a las convertidas, se registran distribuciones de frecuencia e histogramas, estadísticas de pruebas (medias aritméticas, desviaciones estándar, coeficientes de consistencia interna) y estadísticas de reactivos (índices de dificultad y de discriminación, distribución de las respuestas a opciones y conceptos similares).
Pueden efectuarse calificaciones, análisis y registros de calificaciones usando un lector óptico conectado a una micro computadora que tenga los programas de evaluación apropiados. Sin embargo, los paquetes de cómputo que elaboran pruebas de acuerdo con ciertas especificaciones, las califican, analizan y presentan los resultados, son complejos y costosos. Un ejemplo de dichos programas para fines generales es MicroCAT (de Assessment Systems Corporation), el cual hace posible la construcción, aplicación, calificación y análisis de pruebas diseñadas a partir de la perspectiva de respuesta al ítem o de la evaluación clásica y administradas mediante procedimientos adaptativos o convencionales. MicroCAT crea y mantiene bancos de reactivos que consisten en texto, gráficas e imágenes digitalizadas; desarrolla y elabora formas de pruebas impresas; produce y aplica tests computarizados que van desde simples pruebas convencionales hasta complejas pruebas adaptativas, y realiza análisis de reactivos convencionales, análisis de respuesta a ítemes y calibraciones de reactivos. Algunas funciones de elaboración y administración de pruebas de MicroCAT están disponibles en línea y es posible acceder a ellas mediante programas de cómputo como los sistemasC-Quest y FastTEST proporcionados por Assessment Systems Corporation.
Errores humanos de calificación. La calificación de pruebas por computadora no es un proceso totalmente exento de errores, por ello se recomienda que los servicios de calificación de pruebas revisen la frecuencia de errores y emitan informes con las correcciones adecuadas cuan-do se encuentren tales fallas (American Educational Research Association et al., 1999). No obstante, en comparación con la calificación a mano, las tasas de errores de la calificación por computadora son reducidas.
Considerando el hecho de que las instrucciones para calificar muchas pruebas individua-les de inteligencia y personalidad no siempre son claras y objetivas, no es sorprendente que lleguen a asignarse distintas puntuaciones a la misma respuesta. Aunque la variabilidad en las calificaciones tal vez sea mayor en el caso de evaluadores con poca experiencia (Slate y Jones,1990), incluso los más experimentados cometen errores. Por ejemplo, se ha descubierto que los errores tanto en administración como en calificación ocurren cuando los estudiantes de psicología e incluso psicólogos profesionales administran pruebas de inteligencia individual (Frankliny Stillman, 1982; Ryan, Prefitera y Powers, 1983). En varios casos, los errores son de tal magnitud que se asignan a las personas niveles de inteligencia equivocados. También el personal clínico capacitado comete errores al calificar a mano inventarios de personalidad, en ocasiones tan graves que llegan a alterar los diagnósticos clínicos (Allard, Butler, Faust y Shea, 1995; Allardy Faust, 2000). Otros estudios han revelado que los resultados de las calificaciones se modifican por el agrado de quien administra o califica el examen hacia el examinado. También percibir al examinado como una persona cálida (Donahue y Sattler, 1971), brillante o aburrida (Sattler, Hi-llix y Neher, 1970; Sattler y Winget, 1970) puede afectar el resultado. Pueden ocurrir errores al convertir calificaciones brutas en calificaciones estándar o escaladas cuando se desconoce o se calcula mal la edad cronológica exacta del examinado.
Ponderación de calificaciones para reactivos de opción múltiple y de falso-verdadero.Parece razonable esperar que en pruebas objetivas, como en reactivos de ensayo, la cantidad de puntos asignada a una respuesta varíe de acuerdo con el tipo de reactivo y la calidad de la res-puesta. Se han llevado a cabo muchos estudios sobre los efectos de la ponderación previa de las respuestas a reactivos de pruebas objetivas convencionales, es decir, asignar distinta cantidad de puntos a tipos de reactivos diferentes y a diversas respuestas. Algunas investigaciones han concluido que la ponderación previa es más definida y confiable que la calificación convencional (Hsu, Moss y Khampalikit, 1984; Serlin y Kaiser, 1978; Willson, 1982). Sin embargo, las ven-tajas de la ponderación diferencial de las respuestas a reactivos no parecen justificarse por el aumento en el costo y el tiempo de calificar (Kansup y Hakstian, 1975). En pruebas de 20 o más reactivos, asignar simplemente una calificación de 1 a cada respuesta correcta y 0 a las incorrectas resulta tan satisfactorio como usar pesos diferenciales. Así, las calificaciones posibles en una prueba de 50 reactivos de opción múltiple que haya sido calificada en forma convencional o de otra de falso-verdadero calificada mediante este procedimiento varían de 0 a 50.Asignar pesos diferenciales a distintas respuestas puede ser más efectivo si el tipo de res-puesta requerida fuese cambiado. Una variante interesante del formato de falso-verdadero es pedir a los examinados que indiquen qué tan seguros se sienten de sus respuestas. La tabla 3.1 ilustra dicho procedimiento de ponderación de la confianza para reactivos de falso-verdadero. Aunque este procedimiento represente una mejora sobre la calificación convencional de 0-1 para reactivos de falso-verdadero, tal vez dicha calificación es satisfactoria para la mayoría de las pruebas de aula formadas por 30 o más reactivos.
TABLA 3.1 Procedimiento de ponderación de confianza para reactivos de falso-verdadero. Imagen en la carpeta del libro.
Calificación de reactivos de clasificación. Así como con los reactivos de falso-verdadero y de opción múltiple, los reactivos de respuesta breve y de aparejamiento pueden calificarse asignando 1 punto a las respuestas correctas y 0 puntos a las erróneas y las omisiones. Debido a la gran cantidad de órdenes distintos en que puede colocarse un grupo de reactivos, la calificación de reactivos de clasificación presenta un problema especial. Por ejemplo, el error de asignar el segundo lugar a un reactivo al que de hecho corresponde el primero, no es tan grave como colocar dicho reactivo en cuarto lugar.
Las dos fórmulas que pueden usarse para calificar reactivos de clasificación son:
Formula en imagen en la carpeta del libro. Capítulo 03. Fórmula para calificar reactivos.
En estas fórmulas, c representa la cantidad de cosas clasificadas, las d son valores absolutos delas diferencias entre las posiciones asignadas por el examinado y las posiciones predetermina-das, y j = 0 cuando c es par y 1 si c es non. Para ejemplificar el uso de estas fórmulas, supongamos que deben ordenarse cinco ciudades de acuerdo con su población asignando una posición de 1 a la ciudad con la mayor población, 2 a la segunda más grande, y así sucesivamente. Los nombres de las cinco ciudades se incluyen en la primera columna de la tabla 3.2, las posiciones predeterminadas aparecen en la segunda columna y las asignadas por un examinado hipotético en la tercera columna. La cuarta columna contiene los valores absolutos de las diferencias entre la posición correcta para cada ciudad y las posiciones predeterminadas, y la quinta columna presenta el cuadrado de dichas diferencias. El total de los valores absolutos de las diferencias entre las posiciones del examinado y las posiciones predeterminadas es 10, y el total del cuadrado de las diferencias es 28. Sustituir c ? 5, ??d??10, y j ? 1 en la fórmula 3.1a produce 5[1 –2(10)/(52? 1)] ? .83 ? 1. Sustituir c ? 5 y ?d2= 28 en la fórmula 3.1b da 5{1 – 3(28)/[5(52– 1)]}? 1.5 ? 2. Los resultados de aplicar estas dos fórmulas no coinciden porque, comparada con la fórmula 3.1a, la fórmula 3.1b otorga más peso a las diferencias de posición mayores que a las menores. Cualquiera de las dos fórmulas es satisfactoria, dependiendo de si se opta por asignar un castigo extra a las respuestas que varían mucho de las predeterminadas. En cualquier caso, no hay un método único para calificar reactivos de pruebas que sea el mejor en todos los aspectos:eso depende de la filosofía y los objetivos del evaluador.
Tabla 3.2 Calificación de un ejemplo de reactivo de reacomodo. En la carpeta del libro
Corrección por adivinación. Después que la calificación total bruta se ha establecido, surge la pregunta de si es un indicador preciso de la verdadera situación del examinado en la prueba o si está inflada por los aciertos generados al adivinar. Es frecuente que las personas adivinen en pruebas objetivas, y las probabilidades de mejorar sus calificaciones de esa manera, en especial tratándose de reactivos con pocas opciones, pueden ser elevadas. Si la persona no conoce la res-puesta correcta y todas las opciones son igualmente atractivas, la probabilidad de seleccionar la opción correcta adivinando es de 100/k, donde k es el número de opciones por reactivo. Así, la posibilidad de adivinar la respuesta correcta es de 50 sobre 100 en un reactivo de falso-verdadero, pero sólo de 25 sobre 100 en un reactivo de cuatro opciones. Obviamente, adivinar las respuestas de una gran cantidad de reactivos puede tener un efecto mucho más grave en una prueba de falso-verdadero que en una de opción múltiple.
Corregir los efectos de adivinación en ciertas pruebas estandarizadas (por ejemplo, la SAT y la GRE) conlleva restar una porción de la cantidad de respuestas erróneas a la cantidad de respuestas acertadas. El razonamiento en que se basan las fórmulas llamadas de corrección por adivinar no es de nuestro interés aquí, salvo en lo concerniente a la suposición cuestionable deque los examinados adivinan a ciegas cuando tienen dudas. La fórmula de corrección por adivinar más común es:
S= R-(W/ (K-1))
donde R es la cantidad de reactivos que el examinado acierta, W la cantidad de reactivos en que el examinado se equivoca, k la cantidad de opciones por reactivo y S la calificación corregida.Esta fórmula se ha criticado por producir resultados que son demasiado bajos cuando los examinados están menos familiarizados con el material de la prueba y muy elevados cuando están más familiarizados con dicho material (Little, 1962, 1966). Una fórmula alternativa propuesta por Little (1962) es:
S= R-(W/ 2(K-1))
Los profesionales que administran pruebas están de acuerdo, por lo general, en que las fórmulas de corrección por adivinación en realidad no corrigen los efectos de adivinar y suelen tener poca influencia en el orden de las calificaciones. Hay excepciones cuando la cantidad de reactivos sin contestar varían mucho entre las personas y cuando algunos reactivos tienen más probabilidades de ser contestados que otros. Por lo regular, estas fórmulas, que suponen procedimientos similares a asignar pesos diferenciales a distintos reactivos, no se recomiendan para calificar pruebas de aula. Probablemente son más útiles para revisar pruebas de falso-verdadero y de velocidad, en las cuales el factor de adivinación interviene mucho más que en otro tipo de exámenes. Las calificaciones negativas, que en general se originan cuando se aplica la fórmula 3.2 en pruebas de falso-verdadero (S = R - W), usualmente se cambian por cero. De cualquier modo, los examinados tienen derecho a saber si sus resultados se modificarán por adivinación.En las instrucciones de las pruebas debe añadirse información sobre cómo habrá de calificarse, incluyendo si se empleará corrección por adivinar.
Las fórmulas se guardaron en una imagen en la carpeta del libro para su mejor comprensión.
Calificaciones modificadas. Usualmente no vale la pena alterar las calificaciones sin depurar delas pruebas objetivas mediante la ponderación diferencial de reactivos o con fórmulas de corrección por adivinar, pero a menudo se modifican de otras maneras para que resulten más significativas. Como se describe en la sección sobre normas del capítulo 4, el proceso de interpretar resultados de pruebas se facilita al transformarlos en calificaciones de percentiles o en calificaciones estándar.
Calificación de pruebas orales
Aunque es más probable que ocurran errores al calificar respuestas orales que escritas, hay formas especiales de evaluar el desempeño que mejoran la objetividad de la calificación en pruebas orales (vea la forma 3.1). Otras maneras de reducir los errores en este tipo de pruebas consisten en prestar atención al diseño de las preguntas, elaborar modelos de respuestas a las preguntas antes de administrar la prueba, recurrir a varios evaluadores y capacitar a los examinadores para evitar favoritismos y otros sesgos. Si el tiempo asignado a la calificación no es crítico, puede mejorarse su precisión si se graban las respuestas y vuelven a evaluarse más tarde (vea Aiken, 1983a).
FORMA 3.1 Forma para evaluar informes orales
Instrucciones: Para cada una de las preguntas de la lista, califique el desempeño del estudian-te en una escala de 1 a 10: 1 corresponde a muy deficiente y 10 a excelente. Escriba el número adecuado (1 a 10) en la raya.
1.¿Qué tan bien conoce el estudiante el tema del informe?
2.¿Qué tan bien organizado estaba el informe?
3.¿Qué tan eficaz fue la introducción para captar su atención?
4.¿Con cuánta claridad y precisión habló el alumno?
5.¿Qué tan interesante fue el tema?
6.¿Qué tan eficaces fueron los materiales audiovisuales (películas, carteles, notas del pizarrón) en caso de haberse usado?
7.¿Qué tanto se abstuvo el alumno de ver sus notas casi todo el tiempo y en cambio miró a la clase durante el informe?
8.¿Con cuánta eficiencia usó el alumno gestos, posturas corporales y otros mensajes no verbales para comunicarse?
9.¿En qué medida el estudiante se refirió a investigaciones u otras fuentes para pre-sentar el informe?
10.¿Cómo calificaría la conclusión (resumen de los puntos principales, preguntas para reflexionar, etc.) del informe?
Comentarios:
Imagen de la forma en la carpeta del libro. Capítulo 03. Forma 3.1 Forma para evaluar informes orales.
Calificación y notas
Después de haber administrado y calificado las pruebas, es preciso calificar los resultados. En el caso de pruebas realizadas por el maestro, la evaluación de los resultados en general implica asignar letras o notas. La asignación de notas es un proceso bastante subjetivo, dependiente no sólo de la prueba misma, sino de las expectativas del evaluador y de las calificaciones obtenidas por otros estudiantes. Algunos maestros califican estrictamente sobre la curva, mientras que otros evalúan en términos de un estándar o criterio de desempeño fijo. Sin embargo, la mayoría tal vez emplea una combinación de notas de curva y de estándar fijo. En un procedimiento decurva, el método Cajori, se asignan letras como sigue: A para el mejor 7% de las pruebas, B alsiguiente 24%, C al 38% que sigue, D al 24% siguiente y F al 7% más bajo. La desventaja de es-te método es que no considera que la dificultad de las pruebas varía y que el nivel de capacidad promedio no es el mismo para estudiantes de distintas clases. Otro procedimiento de curva establece límites de notas con letra para pruebas de aula cuando el nivel de capacidad de la clase, el desempeño de la clase en la prueba con respecto a otras clases, y los propios resultados de la prueba se toman en cuenta (Aiken, 1983b, 2000).
El sistema de asignación de notas, en que A se considera excelente o superior, B superioral promedio o bueno, C es el promedio, D es inferior al promedio o deficiente, y F es insuficiente o reprobado, es una forma de interpretación de resultados o de evaluación del desempeño. Todas las instituciones públicas y privadas tienen estándares que se espera cumplan sus alumnos,empleados o miembros. Los estándares pueden ser flexibles, pero en algún momento se evalúa el desempeño de los miembros de la organización. El castigo por obtener una evaluación negativa puede consistir en trabajo extra, degradación, suspensión o incluso expulsión. Las recompensas por una evaluación favorable incluyen premios, privilegios y ascensos.
Las notas en letra implican la evaluación del desempeño académico mediante la aplicación de diversas pruebas de aprovechamiento a los estudiantes. Las calificaciones en otras pruebas de habilidad y personalidad también requieren de interpretación si se pretende usarlas para ciertos fines como ubicación en puestos o clases especiales, psicodiagnóstico o tratamientos psicológicos, u otro tipo de intervenciones. Interpretar las calificaciones en dichas pruebas puede ser un proceso muy complejo, dependiendo del tipo de prueba y los propósitos para los que se aplique. La interpretación involucra factores tanto objetivos como subjetivos, incluyendo el uso de normas como se analiza en el siguiente capítulo.
RESUMEN
Los procedimientos para administrar y calificar pruebas varían en cierta medida según el tipo de prueba y las personas a las que está dirigida. Los examinados deben estar preparados, motivados para desempeñarse bien y relativamente exentos de tensión y de otras condiciones distractoras.
Quienes administran las pruebas deben estar capacitados, familiarizados con la prueba en particular y tener la seguridad de que todo está en orden antes de iniciar una prueba. En general, las circunstancias de prueba deben ser física y psicológicamente cómodas, de modo que los examinados se sientan dispuestos a realizar su mejor esfuerzo.
Como regla general, debe informarse a los examinados sobre el o los objetivos de la prueba, cuándo y dónde se administrará,cuál será el formato y el material que aborda. Los examinadores deben seguir las instrucciones cuidadosamente, tomar precauciones para reducir al mínimo las trampas y prepararse para manejar emergencias y otros problemas especiales. Suele permitirse cierta flexibilidad al aplicar pruebas elaboradas por maestros y estandarizadas, pero en caso de alejarse radicalmente de las instrucciones de administración se invalida el uso de las normas en las pruebas estandarizadas. Los examinadores también deben intentar entablar un buen rapport con los examinados, en particular en el caso de pruebas aplicadas de manera individual.
El ingenio para resolver pruebas, los aciertos al adivinar, cambiar las respuestas y hacer trampas son algunos de los factores que pueden inflar los resultados en una prueba objetiva;alardear, usar una redacción rebuscada o buena caligrafía tienen el mismo efecto en las pruebas de ensayo. La influencia del ingenio lpara resolver pruebas se minimiza al elaborar los reactivos con cuidado y evitando las claves como la extensión de los reactivos, determinantes específicos,errores gramaticales, indicios estilísticos y opciones heterogéneas (no paralelas). Con frecuencia se aplican fórmulas de corrección por adivinación para reducir los efectos de adivinación. No obstante, con la posible excepción de los reactivos de falso-verdadero, al calificar pruebas de aula, las pruebas convencionales de corrección por adivinación no suelen compensar el tiempo y los esfuerzos invertidos.
Las pruebas de ensayo pueden calificarse holística o analíticamente, pero en ambos casos debe informarse a los examinados cómo se revisarán las pruebas. Se recomienda calificar las respuestas de todos los examinados a una pregunta específica antes de continuar con la siguiente, lo mismo que evaluar el contenido y el estilo de las respuestas en forma separada. Además de una calificación numérica, a menudo es útil incluir comentarios, correcciones y explicaciones como retroalimentación sobre el desempeño en las pruebas de ensayo.
Muchas pruebas objetivas se califican con ayuda de computadoras u otras máquinas especiales. En general, la calificación a máquina es superior en términos de velocidad y precisión, pero menos flexible que la realizada a mano. La evaluación de muchos tests de inteligencia y personalidad individuales no es del todo objetiva, y pueden cometer errores graves tanto los profesionales como el personal capacitado.
En las pruebas adaptativas, donde la secuencia de las preguntas presentadas al examinado varía de acuerdo con su posición estimada en la variable especificada y con sus respuestas a reactivos anteriores, el tiempo de administración se reduce considerablemente. El uso de computadoras para presentar reactivos y evaluar respuestas hace de las pruebas adaptativas una opción eficiente, aunque más costosa, que el método tradicional de presentar dichos reactivos a todos los examinados.
Se han investigado a fondo los efectos de asignar distinto peso en la calificación para diferentes tipos de reactivos objetivos o para distintas respuestas a un reactivo. En general, no se recomiendan ponderaciones previas para calificar pruebas que consistan en 20 o más reactivos.
Las calificaciones brutas con frecuencia se convierten en percentiles o calificaciones estándar con el fin de calcular porcentajes, realizar comparaciones e interpretar calificaciones. Las calificaciones en pruebas de aula también pueden convertirse en notas, ya sea usando un conjunto establecido de porcentajes como los especificados en el método Cajori o de una manera más subjetiva.
PREGUNTAS Y ACTIVIDADES
1. Defina lo que es el ingenio para resolver pruebas y describa los comportamientos que revelan di-cha conducta. ¿Qué puede hacer un diseñador de pruebas para reducir lo más posible los efectos de tal habilidad en las calificaciones?
2. Pregunte a un grupo de sus compañeros de clase sobre las técnicas que usan para elegir respuestas en pruebas con reactivos de opción múltiple cuando no han estudiado el material en forma adecuada. ¿Qué técnicas son más comunes y qué tan efectivas son?
3. Sin duda ha observado que la velocidad para resolver una prueba de aula puede variar en gran medida de estudiante a estudiante. Algunos terminan un examen de dos horas en menos de una hora,mientras que otros continúan trabajando después de terminado el tiempo permitido. A juzgar por sus observaciones y conversaciones, ¿cuáles considera que son los principales factores que determinan la velocidad para concluir una prueba?
4. ¿Qué es una prueba adaptativa? ¿De qué manera las pruebas adaptativas son mejores que los procedimientos de evaluación objetivos convencionales? ¿En qué aspectos son inferiores?
5. ¿Cuáles son algunas de las ventajas y desventajas de elaborar, administrar y calificar pruebas por computadora, en comparación con las mismas actividades realizadas mediante procedimientos convencionales?
6. Juan resuelve una prueba de 50 reactivos de opción múltiple, con cuatro opciones. Acierta en 30 reactivos, se equivoca en 16 y deja 4 sin contestar. ¿Cuál es su calificación total, con corrección por adivinación y sin ésta? Si todos los reactivos son de falso-verdadero y obtiene el mismo número de aciertos y errores ya mencionados, ¿cuál será su calificación total, con y sin corrección por adivinación?
7. Un examen sobre historia británica contiene un reactivo de re acomodo consistente en una lista de siete batallas. Se pide a los alumnos que ordenen las siete batallas de acuerdo con la fecha en que ocurrieron. El orden correcto es: Batalla de Hastings, Batalla de Bunker Hill, Batalla de Yorktown,Batalla de Trafalgar, Batalla de Waterloo, Batalla del Marne, Battalla de Bretaña. Juan ordena lasbatallas de la siguiente manera: Waterloo, Hastings, Yorktown, Trafalgar, Marne, Bretaña y BunkerHill. ¿Cuál sería su calificación en este reactivo? María elige el siguiente orden: Hastings, Water-loo, Yorktown, Bunker Hill, Trafalgar, Marne, Bretaña. ¿Cuál es su calificación?
8. Usando los porcentajes diseñados mediante el método Cajori, asigne letras de grado a las calificaciones de la distribución X en el ejercicio 3 del apéndice A (página 446). Después asigne letras degrado a la distribución Y del mismo ejercicio. Suponga que la calificación máxima es 50, la mínima 0, y la habilidad mediana de la clase es 50.
9. Observe la administración de una prueba en una de sus clases. ¿El examinador siguió los lineamientos descritos en este capítulo? Si no fue así, ¿qué errores cometió y cuáles fueron las consecuencias reales o posibles de sus equivocaciones?