CAPÍTULO ONCE

APLICACIONES Y PROBLEMAS EN LAS PRUEBAS DE HABILIDAD
La principal razón de que se apliquen pruebas de habilidades en escuelas, universidades y otras instituciones educativas es determinar la medida en que los estudiantes han acumulado conocimientos y habilidades específicos, ya sea dentro o fuera de ambientes académicos formales. El conocimiento debe incluir no sólo la simple repetición de hechos memorizados, sino también cierto grado de comprensión y capacidad para aplicar lo que se ha aprendido en varias situaciones y circunstancias. Del mismo modo, las habilidades aprendidas —cognoscitiva, psicomotriz y social— deben poder generalizarse o transferirse a otras áreas de la vida. La medición de estas habilidades involucra tanto a individuos (estudiantes, maestros, personal administrativo, etc.) como a grupos de personas (clases, escuelas, distritos escolares, muestras representativas de los residentes de estados y países) y los programas o procedimientos de intervención mediante los cuales se llevan a cabo cambios en conocimientos y habilidades.

Este último capítulo sobre la evaluación de habilidades empieza por considerar tres áreas en las cuales se ha concentrado la evaluación educativa en años recientes: la competencia de los estudiantes, la competencia de los maestros y programas de intervención. Un análisis de los esfuerzos concentrados en estas tres áreas debe proporcionar un panorama útil para conocer la manera en que se han administrado los instrumentos de evaluación psicológica con propósitos de evaluación y selección en escuelas, universidades y otras organizaciones. Desde luego, la administración de pruebas de habilidad tanto en ambientes educativos como en diversas instituciones no ha estado libre de críticas y controversias. Más que enterrar la cabeza en la arena y suponer arrogantemente que los críticos de las evaluaciones psicológicas y educativas sólo intentan lleva ragua a su molino, es sabio científica, humanística y políticamente que los diseñadores y usuarios de pruebas presten atención, evalúen y escuchen bien estas críticas. Sólo así pueden esperar mejorar sus productos y servicios, y que resulten de mayor valor para la sociedad en su conjunto.

LA EVALUACIÓN EN EL CONTEXTO EDUCATIVO
Evaluación de la aptitud escolar
Apenas es de sorprender que los críticos de las escuelas públicas estadounidenses proclamen que las escuelas y los estudiantes de Estados Unidos están en problemas. Aunque más de tres cuartos de los adultos de ese país son graduados de bachillerato, los resultados de un cuarto de siglo de evaluaciones de la Evaluación Nacional del Progreso Educativo (NAEP) del conocimiento y las habilidades de los jóvenes revelan deficiencias persistentes en lectura, escritura,ciencia, matemáticas, historia, civismo y otras materias. Como se discutió en el capítulo 6, la medición periódica en los estudiantes de los niveles de habilidad en lectura, matemáticas, ciencia, escritura, historia, geografía y otras áreas académicas ha sido designada como La Tarjeta de Informe de la Nación. Los resultados de 20 años que se resumen en la tabla 11.1 indican que el aprovechamiento académico es bajo entre los alumnos blancos, negros y latinos por igual, en particular en los últimos dos grupos. Desde la década de 1970, los estudiantes negros y latinos de Estados Unidos han mejorado en lectura, matemáticas y ciencia, pero su desempeño sigue siendo considerablemente inferior al de los blancos.

TABLA 11.1 Resultados más destacados en 20 años de NAEP
-Los estudiantes pueden leer a nivel superficial, obteniendo la esencia del material, pero no leen en forma analítica ni se desempeñan bien al realizar tareas de lectura con metas.
-Pequeñas proporciones de alumnos escriben lo bastante bien como para cumplir los propósitos de distintas tareas de escritura, pero la mayoría no se comunica en forma eficaz.
-Sólo reducidas proporciones de estudiantes desarrollan un conocimiento especializado necesario para abordar problemas basados en la ciencia, y el patrón de quedar rezagados se inicia en la escuela elemental.
-La adquisición de las cuatro operaciones aritméticas y del inicio de la resolución de problemas está lejos de ser universal entre los alumnos de la escuela elemental; para cuando se acercan a la graduación de bachillerato, la mitad no puede manejar material matemático de moderada dificultad, incluyendo cálculos con decimales, fracciones y porcentajes.
-Los alumnos tienen una comprensión básica de los acontecimientos históricos de Estados Unidos, pero parecen no entender su importancia y conexiones.
-De manera similar, los estudiantes demuestran una comprensión desigual de la Constitución del gobierno y la política estadounidenses; su conocimiento sobre el Acta de Derechos es limitado.

Evaluación de la competencia académica de los estudiantes. La preocupación nacional sobre las bajas calificaciones en las pruebas de los graduados de bachillerato en Estados Unidos ha llevado a que en muchos estados se solicite que los estudiantes se sometan a una prueba de alfabetismo funcional, o de competencia mínima, antes de recibir un diploma de bachillerato. A pesar de los acuerdos y esfuerzos por volverla más aceptable, la evaluación de aptitud mínima o alfabetismo funcional ha sido objeto de continuos debates. Debido a que porcentajes considerablemente más altos de estudiantes negros que de blancos han fracasado en los exámenes estatal es para estudiantes de bachillerato, a menudo se ha acusado a varias de estas pruebas de discriminara las minorías (por ejemplo, Debra P. contra Turlington, 1984). También hay críticos que consideran el aprobar una prueba de octavo grado como un estándar inadecuado para la graduación de bachillerato, y que se corre el riesgo de convertir el desempeño mínimo en la norma. Dos peligros más de la evaluación de mínimo desempeño son que los maestros pueden terminar enseñando para la prueba y que quienes imponen la disposición seguirán siendo acosados por los indignados padres cuyos hijos fracasen en la prueba.

A pesar de estos problemas, en Estados Unidos el uso de pruebas para evaluar la competencia en habilidades básicas y la exigencia de calificaciones mínimas específicas para la graduación de bachillerato parece haber llegado para quedarse. En muchos estados, la representatividad mediante la evaluación del desempeño de los estudiantes es un acontecimiento anual que da como resultado una lista publicada en los periódicos locales de los porcentajes de calificaciones de la prueba por escuela y grado. Los esfuerzos (estadounidenses) por volver más útiles tales evaluaciones para la toma de decisiones escolares y la distribución de ingresos se manifiestan en las convocatorias para registrar calificaciones en las pruebas de NAEP por estado y localidad, más que por simples promedios de todo el país.

Evaluación de valor agregado. En Estados Unidos, el concepto de educación de valor agregado y el proceso asociado de la evaluación de valor agregado están relacionados con la representatividad y la evaluación de la competencia. En la evaluación de valor agregado, el aprovechamiento de los estudiantes en materias académicas y habilidades de la vida, tales como analizar una columna de periódico, una tabla matemática o un aviso publicitario televisivo se evalúan antes y después de cierto periodo de educación y estudio formal. La diferencia entre calificaciones de pruebas antes y después de cursos es una medida del valor agregado por la experiencia educativa. Por ejemplo, es posible pedir a los estudiantes de nuevo ingreso a la universidad que analicen publicidad, artículos y disertaciones de un periódico para demostrar su do-minio de habilidades de la vida. Volver a aplicar la prueba al final del segundo año, cuando a los estudiantes aún les queda suficiente tiempo para compensar las deficiencias, revela cuánto han aprendido en el programa educativo general. La evaluación de valor agregado se exige por ley y la controlan consejos coordinadores de ciertos estados, e instituciones individuales en varios estados más han incorporado la evaluación de valor agregado en sus procedimientos académicos.

Maestros y evaluación
La evaluación en las escuelas se lleva a cabo por psicólogos, asesores y directores de educación especial, pero con mayor frecuencia por los propios maestros de aula. Desde su primer día en el salón de clases, los maestros se involucran en la evaluación formal e informal de los estudiantes. Tales evaluaciones implican no sólo observaciones, trabajo en clase, tareas en casa y pruebas elaboradas por maestros, sino también pruebas estandarizadas. Sin embargo, el amplio uso de las pruebas estandarizadas en las escuelas conduce, con frecuencia, a errores de administración,calificación e interpretación. Muchos de estos errores pueden atribuirse a falta de capacitación, de interés, o de ambos aspectos por parte de los usuarios de las pruebas. En consecuencia, es un asunto de cierta importancia que los maestros, los asesores y quienes tengan responsabilidades de evaluación en las escuelas estén adecuadamente capacitados e informados.

Capacitación de los maestros en evaluación. La mayoría de los prospectos de maestro tiene cierto contacto con evaluaciones psicológicas y educativas durante los cursos universitarios, pero en gran parte de los casos es bastante superficial. Muchos maestros no comprenden lo que miden las pruebas que están administrando; tampoco saben el significado de las calificaciones estándar que se inscriben en el registro permanente de los estudiantes. A menudo extraen conclusiones apresuradas con base en una única calificación de una prueba y no toman en cuenta la historia del desarrollo del niño, la competencia social o el ambiente familiar. Por lo tanto, es esencial que se preste más atención a este aspecto de la capacitación de los maestros. Por ejemplo, deben darse cuenta de que las calificaciones de las pruebas de inteligencia y habilidades especiales deberían interpretarse en términos de las probabilidades de que el examinando tendrá éxito en una vocación o programa de estudios en particular. Con demasiada frecuencia las calificaciones de pruebas se consideran medidas fijas de la situación mental, por una parte, o carentes de todo sentido, por la otra.

Evaluación de los maestros. El aumento del interés público sobre la calidad de la educación en Estados Unidos ha llevado a otra forma de involucramiento de los maestros en la evaluación. Casi todos los 50 estados han implantado algún tipo de sistema de evaluación de maestros. La prueba más usada para observar a los candidatos a maestros de nivel universitario y principiantes, y para certificar a los graduados en cuanto a conocimientos generales, habilidades profesionales y conocimiento de materias, es la Serie de Praxis descrita en el capítulo 6. De particular interés en el contexto actual es el desempeño de un candidato en Praxis III: Evaluaciones de Desempeño en el Aula, que consiste en un marco de capacitación y evaluación para las pruebas de aula.

La mayoría de los estados requiere una calificación aprobatoria en una prueba específica,como Praxis I, para que los alumnos ingresen a programas de capacitación para maestros, y casi todos los estados usan pruebas para la certificación de maestros. También se aplican pruebas confines de recertificación y de asignación del pago justo. Además de la Serie Praxis y de otras pruebas, varios estados han instituido sistemas de observación formales para los maestros principiantes. En estos estados, los maestros inexpertos reciben colaboración en la enseñanza durante un periodo de prueba, al término del cual una recomendación propuesta a los funcionarios estatales determina si el candidato habrá de recibir la certificación formal.

Por desgracia, un gran porcentaje de posibles maestros no se desempeña bien en estas pruebas. Por ejemplo, en muchos estados un tercio o más de los individuos que se someten a la Praxis I no alcanzan la calificación eliminatoria establecida para maestros principiantes. Asimismo, como grupo, los estudiantes que afirman se graduarán en pedagogía obtienen calificaciones menores que el promedio en pruebas de admisión a la universidad como la SAT y la ACT. Las bajas calificaciones en candidatos y maestros practicantes se atribuyen, al menos en parte, al hecho de que la enseñanza se ha vuelto menos atractiva para mujeres competentes y minorías en comparación con otras vocaciones más lucrativas y prestigiosas.

Los resultados de encuestas de opinión nacionales indican que la mayoría del público general está en favor de usar pruebas de competencia para la certificación y autorización de maestros (Gallup, 1991). Además, las dos mayores organizaciones de maestros del país, la Asociación de Educación Nacional y la Federación Americana de Maestros, apoyan la evaluación de maestros principiantes para garantizar que cumplan con un estándar de aptitud razonable. Los partidarios de una prueba nacional para candidatos a maestros sostienen que sería un indicador de la calidad de los maestros y volvería profesional al gremio. Al mejorar la calidad delos maestros, dicha prueba también apoyaría los aumentos salariales para ellos, así como mejoras generales en la calidad de las escuelas.

Las pruebas de aptitud para maestros no han carecido de retos y en varios estados se han librado batallas legales concernientes a dichas pruebas. Un problema constante se refiere al estándar aprobatorio: si se establece en un nivel razonablemente alto, entonces una gran cantidad de candidatos minoritarios probablemente fracasarán; si el nivel determinado es muy bajo, individuos con baja habilidad ingresarán a la profesión de maestros. Asimismo, ciertos educadores profesionales han expresado su desacuerdo con el carácter de los exámenes. Algunas autoridades consideran que una mezcla de pruebas con el uso de tecnología de computación, observaciones directas del desempeño en el aula, un portafolio con documentación sobre desempeño pedagógico y otros requisitos, así como pruebas estandarizadas de lápiz y papel, deberían emplearse para evaluar tanto a los futuros maestros para su contratación, como a los maestros con experiencia para recertificación, promoción, cargos y pago justo.

Evaluación de programas
Además de evaluar la aptitud de alumnos y maestros, suelen usarse pruebas, escalas de evaluación y cuestionarios para medir la eficacia de los programas educativos y otras intervenciones.

La evaluación psicológica y educativa desempeña un papel importante al juzgar la instrucción y determinar la efectividad de los tratamientos psicológicos y otros procedimientos diseñados para modificar comportamientos, cognición y actitudes. Tales programas no deberían diseñarse unilateralmente por especialistas en psicometría e investigación, sino en colaboración con educadores, personal de servicios humanos, personal de salud, funcionarios públicos y otros profesionales del área de intervención. Sin embargo, las contribuciones de especialistas en medición resultan ser las más importantes para recomendar y/o diseñar instrumentos con qué evaluar los resultados de programas.

Las dificultades para medir el cambio y otros problemas técnicos de evaluar la efectividad de las intervenciones sobre el comportamiento han conducido a la creación de un nuevo tipo de especialidad: la evaluación de programas. Según la definen Posavec y Carey (1997), la evaluación de programas es una colección de métodos, habilidades y sensibilidades para determinar si un servicio humano es necesario y si es factible usarlo, si es lo bastante intenso como para cumplir con la necesidad identificada no resuelta, si el servicio se ofrece como se planeó y si efectivamente ayuda a las personas que lo necesitan sin efectos secundarios indeseables (p. 1).

El objetivo de la evaluación de programas es emitir juicios relativos a la utilidad o el valor de programas educativos, psicosociales y otros programas de intervención social. Se han propuesto diversas guías o modelos de evaluación de programas, incluyendo el modelo CIPP (contexto,entrada, proceso, producto), la evaluación de discrepancia y la evaluación adversaria. Se han escrito muchos libros y artículos sobre el tema de la evaluación de programas, pero aquí sólo se presentará una breve descripción de los métodos.

Posavec y Carey (1997) describen la filosofía y los objetivos de la evaluación de programasen términos de necesidades, proceso, resultado y eficiencia. Primero se evalúan las necesidades delas personas para quienes una organización podría proporcionar un servicio. A continuación, se establece un programa diseñado para cubrir dichas necesidades, y se vigila el proceso mediante el cual se aplicará para determinar si se requieren ajustes. Después que el programa ha estado funcionando por un tiempo, se revisan los resultados (el grado en que el programa ha sido efectivo para cumplir sus metas). Además de estimar la eficacia del programa, se evalúa su eficiencia, es decir,el costo monetario en relación con los resultados. En este punto se toma la decisión de continuar,descontinuar o modificar el programa y/o sus objetivos de alguna manera.

Rossi y Freeman (1993) propusieron un modelo inclusivo similar para la evaluación de programas. Este modelo caracteriza el proceso general de evaluación de programas en términos de cuatro etapas sucesivas: planeación, monitoreo, evaluación de efectos y evaluación de la eficiencia económica. Durante la primera etapa, o de planeación del programa, se identifican el alcance del problema (por ejemplo, tráfico y uso de drogas en las escuelas), los objetivos y la población meta del programa. Después de haber especificado los objetivos y la población meta,se toma una decisión en cuanto a si el programa puede aplicarse de manera apropiada. Una vez que se ha decidido continuar, comienza la etapa de monitoreo del programa. Entonces, la aplicación o el funcionamiento del programa se vigilan en forma continua en cuanto a si proporciona los recursos y servicios designados a la población meta.

En la tercera etapa, o de evaluación de efectos, los resultados reales se evalúan para comprobar que se hayan satisfecho los objetivos del programa. Se emplean diversos procedimientos estadísticos y no estadísticos para determinar si los resultados son significativos y si se encuentran en la dirección pronosticada. Por ejemplo, los criterios de efectividad de un programa de tratamiento psicológico pueden incluir evaluaciones de la importancia de los cambios, la proporción de individuos que mejoran, el alcance de los cambios y la durabilidad de la mejoría (Kazdin, 1998).

En la etapa de evaluación de efectos se miden también otros resultados no planeados o inesperados, pero incluso cuando sean estadísticamente significativos, pueden no tener la suficiente importancia práctica como para garantizar la aplicación del programa. Por consiguiente, el propósito de la cuarta etapa, evaluación de la eficiencia económica, es determinar si los resultados de un programa valen los costos generados. Al evaluar la eficiencia de un programa de tratamiento, por ejemplo, deben considerarse factores tales como la duración del tratamiento, su difusión y sus costos monetarios (Kazdin, 1998). La evaluación de la eficiencia económica es un asunto de análisis de costo-beneficio, en el cual los gastos del programa se comparan con sus beneficios potenciales para el individuo y la sociedad. Incluso si el programa funciona, es posible que los recursos monetarios y de otro tipo necesarios para ponerlo en práctica se usen de manera más efectiva en otros fines. Cuando los resultados de un análisis de costo-beneficio favorecen el programa, es una señal para seguir adelante y ponerlo en funcionamiento. Pero antes de tomarla decisión final de extender el programa por más tiempo y a otros contextos, es sensato definir su aceptabilidad para quienes, directa o indirectamente, resultan afectados por él. Un programa educativo y social puede tener ramificaciones tanto políticas como personales y sociales con respecto a su aceptabilidad para una porción más amplia de la sociedad, y no sólo para quienes es-tuvo explícitamente diseñado. Incluso después de iniciado el programa, su eficacia debería evaluarse y revisarse periódicamente.

Aunque varios modelos de la evaluación de programas difieren en los detalles, todos intentan determinar los objetivos, recursos, procedimientos y administración del programa con el fin de juzgar su mérito. Como indicio del nivel de interés en estos esfuerzos, y del apoyo público hacia ellos, están los centros de investigación y desarrollo en evaluación educativa y otros tipos de evaluaciones de programas en destacadas universidades estadounidenses. Los hallazgos de los estudios realizados en estos centros contribuyen a proporcionar una base más racional para responder las preguntas sobre los procesos y resultados de diversos tipos de programas sociales.

CRÍTICAS Y PROBLEMAS EN LAS PRUEBAS DE HABILIDAD
Como lo muestran la cantidad y diversidad de instrumentos descritos en los cinco capítulos precedentes, la evaluación de capacidades cognoscitivas, perceptuales y psicomotrices se expandió rápidamente durante el siglo XX. La extensa aplicación de pruebas colectivas de aprovechamiento, inteligencia y habilidades especiales en educación, los negocios y el gobierno ha contribuido al desarrollo de la evaluación psicológica de empleados. No obstante, la mano de obra organizada, sosteniendo que la selección y la promoción laboral deberían basarse en la experiencia y la antigüedad antes que en calificaciones de pruebas, en general no ha apoyado las evaluaciones psicológicas. También se ha declarado una abierta oposición a las pruebas estandarizadas en contextos educativos, en particular al uso de exámenes de admisión a la universidad y a las pruebas de inteligencia aplicadas en las escuelas.

Encuesta Phi Delta Kappa
Los estudios anuales sobre las actitudes de los estadounidenses frente a la evaluación en las escuelas han revelado una controversia cada vez mayor con respecto al uso de pruebas estandarizadas en decisiones arriesgadas que conciernen a los alumnos. Por ejemplo, en la XXXIII Encuesta Anual Phi Delta Kappa/Gallup (Rose y Gallup, 2001), 31% de los encuestados respondieron que había demasiado énfasis en la evaluación del aprovechamiento en las escuelas. Porcentajes todavía más elevados se opusieron al uso de una sola prueba estandarizada para determinar si un estudiante debía ser promovido de un grado a otro (45%) y para decidir si un alumno debería recibir un diploma de bachillerato (42%). Se opusieron a estos usos de pruebas estandarizadas porcentajes más altos de encuestados de 18 a 29 años de edad que mayores de 65 años, porcentajes más elevados de negros que de blancos, y mayores porcentajes de demócratas que de republicanos. Aproximadamente dos tercios de todos los encuestados consideraron que las pruebas deberían usarse principalmente para establecer el tipo de instrucción requerida más que para determinar cuánto habían aprendido los alumnos, y que el trabajo en el aula y en casa eran mejores parámetros del aprovechamiento académico que las calificaciones de pruebas.

Carácter y consecuencias de las críticas
La mayoría de las críticas a la evaluación psicológica y educativa durante las últimas décadas se ha ocupado ya sea del contenido y los usos de las pruebas o bien de las consecuencias sociales de confiar en calificaciones de pruebas para tomar decisiones sobre la gente. Se ha atacado a las evaluaciones en general, por una parte, por invadir el derecho del individuo a la intimidad y, por otra parte, por su secreto o confidencialidad. Las pruebas de habilidad, en particular, se han visto acusadas de tener limitaciones y sesgos en lo que intentan medir.

Con respecto a sus usos, se ha argumentado que, más que propiciar la igualdad de oportunidades, las pruebas han provocado la conservación del estado de cosas y la legitimación de prácticas antidemocráticas por parte de instituciones educativas, organizaciones empresariales y el propio gobierno. De manera más específica, se ha sostenido que las pruebas a menudo resultan inútiles para predecir el comportamiento, son injustas con los grupos minoritarios, suelen malinterpretarse y sus resultados se utilizan de modo inadecuado, promueven una clasificación de las personas estrecha y rígida de acuerdo con características supuestamente estáticas.

Las críticas a la evaluación psicológica y educativa con frecuencia sólo han provocado ruido y poco esclarecimiento, pero algunas de las preocupaciones han propiciado que se reconsideren las prácticas de evaluación. Ciertas críticas han originado cambios de carácter técnico,mientras que otras han impulsado un nuevo examen de la ética de las evaluaciones, así como el esbozo de propuestas de un código de ética que sería válido para editores, distribuidores y usuarios de las pruebas.

Los problemas legales y éticos relacionados con la aplicación de pruebas psicológicas y el uso de resultados de pruebas se discutieron brevemente en el capítulo 1. Como se señaló ahí, de acuerdo con el Acta Familiar de los Derechos Educativos y de Privacía (1974), las calificaciones de pruebas y sus interpretaciones que conservan las instituciones educativas pueden estar disponibles para otras personas sólo con el consentimiento informado del alumno o de un adulto legalmente responsable del mismo. Pero, incluso cuando se ha otorgado consentimiento informado, los datos de pruebas pueden ser privilegiados en cuanto a que sólo ciertas personas (padres, abogado personal, médico, psicólogo y otros especialistas) tienen derecho de acceso a ellos.

El concepto de comunicación privilegiada también se aplica a la información de pruebas y de otro tipo. Sin embargo, la información privilegiada es un asunto de todo o nada: un psicólogo que esté autorizado por el cliente para revelar información específica relativa a un caso, debe revelar toda la información disponible que sea relevante para el caso cuando así se lo ordene una corte. Asimismo, siempre que un psicólogo piense que un cliente representa un peligro claro y real para sí mismo o para otros, puede entregar la información privilegiada a personas responsables sin el consentimiento del cliente. De hecho, debido a que el bienestar de la sociedad en su conjunto se antepone al derecho de un individuo a la intimidad y a la comunicación privilegiada, los psicólogos pueden estar legalmente obligados a revelar la información (Tarasoff versus Regents of University of California, 1983).

Se ha discutido ampliamente si la aplicación de pruebas psicológicas representa una invasión grave a la intimidad. Puede argumentarse que si las respuestas a las preguntas de la prueba tienen suficiente valor social, entonces el individuo tendrá que soportar cierta invasión a su intimidad. Por importante que pueda ser el respeto a los derechos individuales con respecto a la confidencialidad de las calificaciones de pruebas y la invasión a la intimidad, estos derechos deben ponerse en equilibrio frente a la necesidad de la sociedad de contar con información de evaluación de alta calidad.

De manera ideal, los resultados de las evaluaciones psicológicas se manejan conscientemente y tomando en cuenta las limitaciones del instrumento y las necesidades y derechos de los examinados. Desafortunadamente, los estándares éticos de los examinadores no son siempre tan elevados como deberían. La conciencia de este problema condujo a la Asociación Psicológica Estadounidense y a otras organizaciones profesionales a adoptar códigos de ética relativos a las evaluaciones, ya imponer sanciones en contra de la violación de estos códigos (American Psychological Associa-tion, 1981, 1992; American Educational Research Association et al., 1999). Esto representa un paso adelante en la evaluación psicológica y la práctica de la psicología en general.

Exámenes de admisión a la universidad
Los programas de evaluación a gran escala, en donde se aplican pruebas a miles de estudiantes cada año, han sido objeto especial de crítica durante las últimas décadas. Por ejemplo, se ha sostenido que se dedica demasiado tiempo escolar a administrar pruebas que sólo miden algunas variables pertinentes para el aprovechamiento académico y otros logros. De todos los programas de evaluación a gran escala, los de mayor influencia y que se atacan más a menudo son los que incluyen exámenes de admisión universitarios. La Prueba de Evaluación Académica (SAT), las Pruebas Universitarias Estadounidenses (ACT), y varios otros instrumentos caen en esta categoría, pero la SAT ha sido objeto de las críticas más implacables.

Es probable que la mayoría de los funcionarios de la admisión universitaria asignen más peso a los grados de bachillerato y las calificaciones de la SAT que a indicadores del desempeño tales como entrevistas orales, cartas de recomendación, actividades extracurriculares y revisión de trabajos. Esto es comprensible cuando consideramos la baja objetividad y escasa confiabilidad de muchas de estas medidas de “cualidades personales” y desempeño. Por ejemplo, debido a la falta de confiabilidad o a la preocupación al respecto y un intenso interés por par-te de quien escribe la carta de que se acepte al candidato, las cartas de recomendación casi siempre son laudatorias. Por esta razón, se ha afirmado que “una llamada telefónica vale una docena de cartas de recomendación”. El mismo error de indulgencia, además de la variabilidad en cuanto a los estándares de los grados de una escuela a otra, afectan la precisión de los grados de bachillerato para pronosticar el desempeño en la universidad. Las entrevistas personales siguen teniendo cierto valor para las admisiones, pero también están limitadas por los prejuicios del entrevistador y la habilidad de los solicitantes para presentarse a sí mismos en forma efectiva.

A pesar de que pocas universidades requieren se anexen calificaciones de la SAT a las so-licitudes, la gran mayoría de estas instituciones ha conservado ya sea la SAT o las ACT con propósitos de admisión y colocación. Las calificaciones de estas pruebas también pueden funcionar como un sistema de advertencia primario y como guías de diagnóstico para el trabajo de actualización. La SAT es una de las pruebas más cuidadosamente diseñadas de todas las que se encuentran disponibles, y tiene una elevada confiabilidad y considerable validez para predecir grados universitarios. Sin embargo, estos rasgos no la han protegido de la ola de críticas a que ha estado sometida desde la década de 1950. La SAT, así como otras medidas psicométricas dela esperanza académica y el progreso, a menudo han funcionado como chivo expiatorio para ocultar las desventajas del sistema educativo en su conjunto.

Pruebas de opción múltiple
Durante la década de 1960, los críticos de los exámenes de admisión a la universidad y de otras pruebas educativas administradas en todo Estados Unidos (por ejemplo, Black, 1962; Hoffman,1962) estuvieron especialmente activos. De estos críticos, el más estridente y de mayor influencia fue Banesh Hoffman, quien argumentó que las pruebas de opción múltiple (1) propician lectores astutos, ingeniosos y rápidos; (2) penalizan a las personas sutiles, creativas y más profundas; (3) se interesan sólo por la respuesta y no por la calidad de la reflexión en que se basa o la habilidad con que se expresa, y (4) en general tienen un mal efecto en la educación y el reconocimiento del mérito. Sin embargo, estas acusaciones sólo se basaban en ejemplos hipotéticos y argumentos cargados emocionalmente más que en pruebas sólidas.

Las críticas de Hoffman y de los demás autores no quedaron sin respuesta. Tras examinar los supuestos básicos de varios críticos de la evaluación educativa, Dunnette (1963) concluyó que la mayoría de dichos supuestos eran erróneos y falaces debido a una falta de información o al rechazo a reconocer que las pruebas son las medias disponibles más precisas para identificar el mérito. Otras autoridades (por ejemplo, Chauncey y Dobbin, 1963) admitieron que las pruebas tienen limitaciones pero que, cuando se usan en forma apropiada, pueden ayudar a mejorar la enseñanza.
Los ataques a las pruebas estandarizadas no desaparecieron con la década de 1960, ni tampoco se limitaron a no psicólogos. Por ejemplo, el prominente investigador en psicología DavidMcCleland (1973) argumentaba en favor de que se descontinuara el uso de todas las pruebas de opción múltiple. Sostenía que era preferible desarrollar otras mediciones, tales como las que evalúan la habilidad de aprender rápidamente, más que continuar usando medidas de lo que una persona ya sabe como forma de demostrar sus habilidades.

Una crítica de las pruebas de opción múltiple que es difícil de probar o refutar, pero que tiene amplias implicaciones educativas y sociales, sostiene que tales pruebas no sólo son medidas deficientes de la habilidad y el aprovechamiento, sino que también fomentan una enseñanza inferior y hábitos de estudio inadecuados. Ya sea que esta crítica esté o no justificada, se recomienda a los maestros cuidarse de no confiar demasiado en las pruebas objetivas, y que no pasen por alto los exámenes tradicionales de ensayo donde se exige a los alumnos que expliquen y apoyen sus respuestas (vea Courts y McInerney, 1993; Gifford y O’Connor, 1992). El uso efectivo de reactivos de ensayo requiere que quienes califican evalúen no sólo el contenido de las respuestas, sino también el estilo o la habilidad con que se expresan. Escribir la respuesta a una pregunta no mejora la habilidad para expresarse por medio de la escritura a menos que se proporcione una retroalimentación constructiva sobre la forma y el contenido de la respuesta.

La crítica de que las pruebas de opción múltiple brindan tan sólo un vistazo del conocimiento del estudiante a un nivel superficial y no logran revelar lo que puede hacer el alumno con ese conocimiento ha impulsado un movimiento hacia la evaluación basada en el desempeño, o evaluación auténtica, en las escuelas públicas. Consistentes en preguntas abiertas y resolución de problemas prácticos en ciencia matemática y en algunas otras materias, las pruebas basadas en el desempeños o meten a esfuerzo al razonamiento, el análisis y la escritura. En dichas pruebas, los estudiante obtienen créditos no sólo por dar la respuesta correcta sino por demostrar cómo llegaron a ella. También puede solicitarse a los estudiantes que trabajen en grupos pequeños, realicen experimentos y compartan sus interpretaciones de los resultados, o que produzcan algo mediante el esfuerzo colectivo. También puede evaluarse un conjunto de habilidades o productos de los estudiantes durante un periodo determinado, un proceso conocido como evaluación de portafolio. A pesar del entusiasmo de contar con nuevas pruebas, quedan por resolverse los problemas de validez, justicia, relación costo-beneficio y confiabilidad de las calificaciones con respecto a las evaluaciones basadas en el desempeño (Baker, O’Neil y Linn, 1993; Educational Testing Service, 1992).

Nuevos ataques contra el Servicio de Evaluación Educativa
Durante la década de 1980, la campaña más publicitada contra las pruebas estandarizadas y los exámenes de admisión a la universidad en particular, fue dirigida por el defensor de consumidores Ralph Nader y sus “soldados”. En discursos e informes escritos, Nader criticaba las pruebas SAT,GRE y LSAT y otras pruebas de habilidad estandarizadas por no medir la imaginación, el idealismo, la determinación y otros atributos humanos que consideraba importantes para el progreso de la civilización. Nader sostenía que el uso de estas pruebas había provocado la restricción de las opciones de carrera de los estudiantes y el desperdicio de una gran cantidad de talento profesional.

Allan Nairn (Nairn y Asociados, 1980), un socio de Nader, sostenía que las calificaciones de la SAT y otras pruebas del Servicio de Evaluación Educativa (ETS) clasifican a las personas por clase social más que por habilidad, un hecho del que Nairn acusó a ETS de tratar de suprimir. El resultado, alegaba Nairn, es la negación de oportunidades educativas a estudiantes de nivel socioeconómico inferior y, por lo tanto, la conservación del estado de cosas en la educación superior. Nairn también concluyó que la prueba SAT resulta deficiente para predecir los grados universitarios y que debería abandonarse en favor de varias medidas diagnósticas de habilidad y competencia. Solicitó que se revelaran totalmente las preguntas y respuestas de la SAT y se admitiera que la prueba no mide ningún concepto tan general como la “habilidad académica”.
El ETS respondió extensamente al ataque de Nader y Nairn (Educational Testing Service, 1980a, 1980b) concluyendo que las pruebas no niegan oportunidades a niños de familias pobres o de clase trabajadora, y que la SAT en particular no es deficiente para predecir el desempeño académico. Los funcionarios del ETS admitieron que ninguna prueba es capaz de pronosticar en forma perfecta el éxito ni académico ni en la vida, y que tampoco es una medida del valor o mérito de una persona. La SAT y otras pruebas de habilidad académica nunca tuvieron la intención de medir la habilidad innata, buscaron más bien evaluar las habilidades aprendidas en una amplia gama de actividades de tipo escolar.

El ataque de Nader y Nairn contra el ETS fue ampliado por el Centro Nacional para la Evaluación Justa y Abierta (FairTest). FairTest mantuvo el argumento de que los reactivos de la prueba SAT a menudo están sesgados y son injustos para grupos minoritarios y mujeres y que,consecuentemente, las pruebas privan a estos grupos de oportunidades educacionales equitativas. Otra preocupación que expresaba FairTest era que no resultaba ético pedir a los alumnos resolver secciones experimentales de la SAT, la GRE y otras pruebas del ETS consistentes en reactivos que no se califican pero se usan con propósitos de ensayo. FairTest demandó al ETS obtener el consentimiento de los examinados antes de hacerlos resolver secciones experimentales de la SAT. El Acta de Derechos de FairTest también destaca que los examinados tienen derecho a recibir información segura sobre la resolución de las pruebas y consejos acerca de estrategias; pruebas cronometradas con precisión y aplicadas en condiciones tranquilas; confidencialidad de las calificaciones y otros datos personales; el proceso debido para cualquier reto de la prueba, y acceso a los datos sobre la precisión de ésta (Weiss, Beckwith y Schaeffer, 1989).

Los estudiantes y sus padres tienen el derecho legal a la información concerniente al desempeño del estudiante en pruebas educativas o psicológicas, pero esto no necesariamente significa que las calificaciones reales deban revelarse. Más bien, los resultados de las pruebas deben comunicarse de tal modo que no se malinterpreten o se les dé un mal uso y que ayuden antes que poner obstáculos a los estudiantes. Esta advertencia se aplica sobre todo a las pruebas aplicadas a niños con propósitos diagnósticos en contextos clínicos o educativos. Por otra parte, las calificaciones de exámenes de admisión a la universidad se comunican de rutina a los examinados así como a las instituciones que los estudiantes indican previamente. Además, la ley de Nueva Yorksobre veracidad en las evaluaciones, puesta en práctica en 1979, exige que a los estudiantes que se someten a la SAT o a otras pruebas de admisión a la universidad se les entreguen copias de las preguntas reales y las respuestas correctas, así como copias de sus propias hojas de respuestas, en un periodo razonable posterior a la prueba. Dos disposiciones más de la ley del estado de Nueva York son que (1) en el momento de la aplicación se comunique a quienes se sometan a la prueba cómo se calcularán sus calificaciones, cuál es la obligación contractual que el examinador tiene hacia ellos, y cómo las calificaciones de la prueba pueden ser afectadas por la asesoría y diversos factores demográficos, y (2) el concesionario de la prueba debe archivar la información y los estudios sobre su validez ante la comisión de educación estatal. La ley también exige que se publiquen ediciones completas de las pruebas para que los estudiantes puedan practicar con ellas.

Algunos críticos de la evaluación educativa desean ampliar las disposiciones de la ley de Nueva York, acerca de la revelación total, hacia otros estados, e incluir otros exámenes a fin de pro-mover el uso de pruebas nuevas para disminuir el sesgo cultural y que la industria de la evaluación resulte más confiable para los consumidores. Aunque más de 24 legislaturas estatales, así como el gobierno federal, han considerado leyes similares a la del estado de Nueva York, el único otro estado que aplica un estatuto especial de regulación de exámenes de admisión a la universidad es California. Esta ley, conocida como Acta Dunlop, requiere sólo que se proporcionen muestras representativas de las pruebas al Departamento de Educación del Estado de California. Las legislaturas estatales de Nueva York y California han considerado una legislación adicional para volver más estrictas las reglamentaciones relativas a la evaluación, pero dichos esfuerzos sólo han tenido éxito en Nueva York.
El estatuto del estado de Nueva York y otras legislaciones sobre la veracidad en las evaluaciones en trámite no afectan únicamente a las pruebas SAT, ACT y a otras pruebas de admisión a la universidad, sino también a pruebas de admisión a escuelas de posgrado y profesionales. Aunque el Consejo de Admisión de la Escuela de Leyes y el Consejo de Admisión de Administración de Graduados aprobaron la revelación de los resultados de sus pruebas (LSAT y GMAT), la Asociación Estadounidense de Escuelas Médicas y la Asociación Dental Estadounidense expresaron una enérgica oposición a la legislación sobre la veracidad en la evaluación. La primera organización, argumentando que la ley de Nueva York viola los derechos deautor sobre la MCAT, obtuvo un interdicto en 1979 contra la aplicación de la ley. En 1990, una corte federal estableció que el estatuto del estado de Nueva York, que exige la publicación de los materiales de la Prueba de Admisión a la Escuela Médica, viola la ley federal de derechos de autor. A pesar de esta reglamentación, la revelación de materiales de prueba sigue siendo una práctica común en las organizaciones de evaluación. Los procedimientos actuales diseñados para garantizar evaluaciones justas y abiertas son una parte aceptada de la elaboración, administración y calificación de pruebas en el Servicio de Evaluación Educativa, el Programa de Evaluación Universitaria Estadounidense y otras organizaciones que diseñan y distribuyen pruebas.

Las preocupaciones en torno a la legislación sobre la veracidad en la evaluación han propiciado mejoras en la revisión en cuanto a que las preguntas de las pruebas no contengan sesgos culturales o socioeconómicos. La cuidadosa revisión interna llevada a cabo por el personal profesional del ETS ha eliminado los sesgos (de grupo étnico, género, etc.) de casi todos los miles de reactivos que incluyen las pruebas del ETS cada año. Además, el Consejo de Exámenes de Admisión a la Universidad ha adoptado la política de permitir que los estudiantes verifiquen sus calificaciones de la SAT y que se presenten públicamente los reactivos de esta prueba un año después de haberse aplicado. Los examinados pueden también confrontar los reactivos de la SAT yde otras pruebas del ETS y la forma en que se aplican estos exámenes.

Efectos de la asesoría en las calificaciones de prueba
Es comprensible que los candidatos a ingresar a universidades de licenciatura y posgrado y a otras escuelas profesionales estén interesados en mejorar sus calificaciones en los exámenes de admisión. Como consecuencia de la creciente importancia de la evaluación nacional a gran escala, se han publicado folletos de asesoría de pruebas y establecido escuelas que aseguran poder aumentar la calificación de una persona en una prueba en particular o de pruebas estandarizadas en general. Tres de estas organizaciones de asesoría de pruebas son College PowerPrep, KaplanInc., y The Princeton Review.

El que la asesoría tenga o no un efecto significativo en las calificaciones de la SAT y en otros exámenes de admisión ha sido un tema discutido durante muchos años. Es un problema importante, pues si se demostrara que la asesoría puede mejorar las calificaciones de las pruebas, entonces los jóvenes que no pudieran pagar dicha asesoría carecerían de las mismas oportunidades que sus compañeros más pudientes.
Los resultados de los primeros estudios sobre asesoría indicaron que sus efectos varían ampliamente, dependiendo de la semejanza del material estudiado con el de la prueba, del nivel de motivación y educación del examinando y de otros factores. Hace algunos años el Consejo de Exámenes de Admisión a la Universidad (1971) presentó pruebas relativas a los efectos de la asesoría para la SAT. Los resultados indicaron que el estudio intensivo de corto plazo sobre reactivos similares a los de la SAT no produjo aumentos significativos de las calificaciones, especialmente en la sección verbal de la prueba. Sin embargo, esta conclusión fue puesta en entredicho por varias personas, en particular por Stanley H. Kaplan, director de la mayor organización de asesoría de pruebas en el mundo. En 1979, la Comisión Federal de Comercio (FTC) presentó el informe de un estudio sobre los efectos de un programa de asesoría de diez semanas llevado a cabo en tres de los centros educativos Kaplan. Admitiendo que el estudio adolecía deciertas fallas metodológicas, la FTC concluyó no obstante que el desempeño en las secciones verbal y matemática de la SAT mejoró gracias a los cursos de asesoría.

El estudio de la FTC y una revisión de los resultados efectuada por Slack y Porter (1980)se evaluaron posteriormente por el Servicio de Evaluación Educativa. Al analizar de nuevo los datos de la investigación de la FTC, el ETS obtuvo resultados similares: efectos inconsistentes e insignificantes de la asesoría para estudiantes en dos de las escuelas Kaplan, e incrementos de 20 a 35 puntos para calificaciones en las secciones verbal y matemática en una tercera escuela.A pesar de reconocer que puede haber aumentos considerables en las calificaciones cuando los programas de asesoría incluyen muchas horas de trabajo en los cursos y tareas, el ETS afirmó que por lo menos parte de los aumentos descubiertos en la tercera escuela podrían atribuirse a diferencias en la motivación y a otras características personales.

Los resúmenes de los estudios realizados durante las últimas dos décadas sobre los efectos de la asesoría en las calificaciones de la SAT revelan que el estudio intensivo de reactivos similares a los de la prueba puede producir aumentos de 15 a 25 puntos en las secciones tanto verbal como matemática. Sin embargo, estos aumentos no son mayores que los observados en estudiantes que repiten la prueba después de otro año de bachillerato (Donlon, 1984). Las mejoras ocurren sobre todo en reactivos con formatos complejos o confusos y con individuos de contextos educativos deficientes (Powers, 1986). Acertar sólo en dos o tres reactivos más podría aumentar las calificaciones verbales y matemáticas hasta en 20 o 35 puntos. Sin embargo, en general, la afirmación de The Princeton Review (Biemiller, 1986) y otras organizaciones de que las calificaciones de la SAT pueden aumentar en 100 o más puntos no tiene fundamento (Powers,1993). La defectuosa metodología de investigación de muchos estudios sobre la asesoría produce resultados confusos y no concluyentes (Bond, 1989).

Se dice que la última versión de la SAT, SAT I, es menos susceptible de admitir asesoría que sus antecesoras debido al mayor énfasis puesto en la interpretación de largos pasajes. La omisión de la subprueba de antónimos, cuyas calificaciones pueden mejorarse por la simple memorización de palabras y cierto conocimiento de asociaciones de palabras, también ha disminuido los efectos de la asesoría. Se han conservado las analogías, el trabajo de completar frases y la interpretación de párrafos largos, tareas que no sólo requieren de conocimiento de palabras (vocabulario), sino también de habilidades de razonamiento que son más difíciles de mejorar mediante una asesoría rápida. Un análisis de los resultados de un estudio de más de cuatro mil examinandos que presentaron la prueba SAT en 1995-1996 indicó que los efectos de la asesoría en las calificaciones de la Prueba de Razonamiento son mucho menores de lo que afirman las principales compañías comerciales de preparación de pruebas (Powers y Rock, 1999).

Las calificaciones de los exámenes de admisión a la universidad suelen mejorar un poco con el desarrollo de los estudiantes y la familiaridad con las pruebas. En particular, tomar cursos académicos rigurosos y estudiar álgebra, geometría y significados de palabras justo antes de la prueba puede mejorar los resultados. Con respecto a los procedimientos para resolver la prueba,pasar por alto los reactivos difíciles y regresar a ellos después de terminar el resto de los reactivos de la sección, buscar respuestas “razonables” para los reactivos con extensos párrafos de lectura, adivinar respuestas en forma razonada y estrategias por el estilo no provocarán milagros, pero sí pueden mejorar en cierta medida las calificaciones (vea las recomendaciones para resolver pruebas en la página 49). De cualquier modo, además de comprobar que los reactivos nuevos no estén sesgados, el ETS los examina para investigar su susceptibilidad a la asesoría y descarta o modifica aquellos en los que puede mejorarse el desempeño mediante una instrucción o ejercicios de corto plazo (Swinton y Powers, 1985).

Diferencias en las calificaciones de la SAT
Las calificaciones de las pruebas no son números fijos, invariables; están sujetas a errores de medición y a diferencias genuinas en cuanto a habilidades y otras características personales. Los funcionarios escolares suelen estar alertas ante diferencias temporales y demográficas en las calificaciones de las pruebas, y con base en sus observaciones se decide intervenir en lo que respecta a la instrucción individual, las modificaciones de los programas y la distribución de los fondos públicos para la enseñanza. La reducción en las calificaciones de pruebas de habilidad y aprovechamiento despierta preocupación especial.

Cambios anuales en las calificaciones de la SAT. Durante la década de 1970, en todo Estados Unidos, fue cada vez más obvio que estaba disminuyendo la media en las calificaciones dela SAT y otras pruebas estandarizadas de habilidades cognoscitivas que se aplicaban a estudian-tes de bachillerato. Aunque la media en las calificaciones de la SAT aumentó en la década de 1950 y principios de la de 1960, hacia finales de ésta y en la de 1970 ocurrieron reducciones considerables. La media en las calificaciones de matemáticas de la SAT no disminuyó tanto como en las pruebas verbales durante este periodo, pero la caída también fue significativa. Ocurrieron disminuciones para ambos sexos, para todos los grupos étnicos y para los estudiantes de mayor y menor capacidad. Se percibieron similares tendencias al declive en las calificaciones promedio de la prueba ACT, la Prueba Minnesota de Aptitud Académica, las Pruebas Iowa de Desarrollo Educativo y la Prueba Comprensiva de Habilidades Básicas.

Se han planteado varias explicaciones para entender la disminución en las calificaciones hacia finales de la década de 1960 y en la de 1970: menor atención, preocupación y supervisión de los padres hacia los hijos; falta de motivación de los alumnos por desempeñarse bien: demasiada televisión; una sociedad más permisiva; maestros que prestan menos atención a los estudiantes (Elam, 1978), y la simplificación de los libros escolares (Hayes, Wolfer y Wolfe, 1996). Otras explicaciones incluían a las drogas, el sexo, la falta de incentivos económicos para obtener una buena educación, y el espaciamiento de los hijos en las familias (vea Zajonc, 1986).

En una extensa revisión sobre la baja en las calificaciones de las pruebas de habilidad, un equipo de asesoría especial no logró encontrar ninguna evidencia de que la causa fuera una mayor dificultad de las pruebas (Austin y Garber, 1982). Aproximadamente la mitad de la reducción general entre 1963 y 1970 se consideró como un resultado de los cambios efectuados en la composición de la muestra de estudiantes que realizaron la prueba. Pero los cambios en la composición de género, raza-etnia, y posición socioeconómica de la muestra que se sometió a la SAT ya habían manifestado sus efectos para 1970. De acuerdo con el equipo asesor, las demás reducciones detectadas durante la década de 1970 se debieron a fuerzas sociales más constantes. No estaba claro exactamente cuáles fueron estas fuerzas y cuánta influencia tuvieron cada una, pero se mencionaron factores como programas de bachillerato menos exigentes intelectualmente, menores estándares educativos, maestros con habilidades inferiores, cambios en la estructura social y en los roles de las familias en Estados Unidos, la televisión, el desajuste nacional hacia principios de la década de 1970, y una menor motivación estudiantil. Más recientemente, Williams y Ceci (1997) observaron que el conjunto de estudiantes del último año de bachillerato que sustentó la prueba SAT fue menos selectivo en las citadas décadas de 1960 y 1970, y que aumentó la cantidad de instituciones demandantes de la prueba. Estos autores especularon sobre que si la SAT se hubiese aplicado a todos los estudiantes del último año de bachillerato y no a una muestra auto-seleccionada en la década de 1950 y principios de la de 1960, la disminución en las calificaciones observadas hacia finales de la década de 1960 y principios de la de 1970 habría sido considerablemente menor (vea Berliner y Biddle, 1995).

Diferencias de género en las calificaciones de la SAT. A lo largo de los años, consistentemente, los hombres han superado a las mujeres en las calificaciones de la sección matemática dela SAT, pero hasta 1972 las mujeres tuvieron mejores calificaciones que los hombres en la parte verbal de esta prueba. En 1998, la media de la calificación era 37 puntos más elevada para los hombres que para las mujeres en la sección matemática y 7 puntos más elevada para los hombres en la parte verbal. En promedio, los hombres tuvieron calificaciones ligeramente más elevadas que las mujeres en la SAT. Sin embargo, estas fueron diferencias generales y no se presentaron las mismas para todos los grupos étnicos.
Durante mucho tiempo los críticos han argumentado que la SAT subestima los grados universitarios de las mujeres y, por lo tanto, que está sesgada en su contra (Shea, 1994). De acuer-do con Bob Schaeffer de FairTest (Chavez, 1993, p. A23):

La misma naturaleza del SAT, que es una prueba de ritmo rápido, intensa presión y de opción múltiple con altas ventajas por adivinar, es un juego en el cual los chicos destacan. Quién sabe cuál es la razón cultural o biológica, pero las mujeres se inclinan más por intentar reflexionar sobre un problema, evalúan todas las opciones. Y eso las pone en desventaja estratégica.Se afirmó que, como resultado de la brecha generacional en las pruebas SAT, las jóvenes tienen menos probabilidades que los hombres de obtener becas escolares. Los funcionarios del ETS contestaron que las diferencias entre las calificaciones SAT promedio entre hombres y mujeres reflejaban auténticas diferencias educativas y que la validez de predicción de la prueba es tan elevada para un sexo como para el otro. En cualquier caso, en la mayoría de los estados de la Unión Americana no se otorgan becas universitarias con base en las calificaciones de la SAT únicamente, sino que se toman en cuenta otros criterios como el promedio de puntuación por grado y el desempeño en actividades extracurriculares.

Las causas de las diferencias de género en las pruebas SAT, que son las inversas a las diferencias en los promedios de la puntuación por grado en bachillerato y el primer año universitario,no están del todo claras. Las autoridades no están seguras de culpar a las pruebas, las escuelas, los factores biológicos o a otras variables ambientales. Otro factor posible es que, en promedio, la condición socioeconómica de las mujeres que presentaron la SAT en la década de 1980 era inferior ala de los hombres; y una hipótesis más establece que durante esta década las adolescentes estaban más preocupadas por sus citas románticas y el riesgo de embarazarse y se dedicaban menos al trabajo escolar que en la década de 1970 (Cordes, 1986). Cualesquiera que puedan ser las causas delas diferencias sexuales en las calificaciones de la SAT, al parecer están declinando: las mujereshan ido alcanzando a los hombres en ambas secciones de la SAT en años recientes (Shea, 1994).

Diferencias étnicas en las calificaciones de la SAT. Durante los años de 1990, las posiciones relativas de la población asiático-americana, afroamericana, mexicano-estadounidense, puertorriqueña y blanca en la SAT permanecían bastante constantes. A excepción de las calificaciones de los asiático-americanos en la sección matemática de la SAT, en 1998 las calificaciones pro-medio de los grupos minoritarios eran inferiores a las de los blancos en las secciones verbal y matemática de la prueba. En ese año, la media de las calificaciones verbal y de matemáticas delos negros era inferior en aproximadamente 100 puntos a la de los blancos. Los críticos sostenían que esta diferencia se debía al hecho de que la SAT estaba sesgada en contra de los negros.Pero ocurría algo similar con diferentes grupos étnicos en las pruebas de lectura, matemáticas y ciencia de la Evaluación Nacional del Progreso Educativo. Las calificaciones SAT inferiores para las minorías sin duda se deben, al menos en parte, a los más bajos ingresos familiares y niveles educativos de los padres. Sin importar las causas, las calificaciones de las pruebas de afroamericanos y latinos se han incrementado ligeramente en años recientes.

Estudiantes atletas y la SAT. Relacionado con, pero obviamente no exclusivo de, el problema de las diferencias de grupo étnico en las calificaciones de los exámenes de admisión está el requisito de la NCAA de que los estudiantes atletas tengan al menos un promedio de C y una calificación aprobatoria en la SAT para ser candidatos elegibles como estudiantes de primer grado en la escuela de la División I. Más precisamente, un estudiante que desee participar en competencias intercolegiales debe tener un promedio de puntuación de 2.5 o mayor y una calificación total en la SAT de 820 o más, un requisito que elimina a muchos estudiantes. Los adversarios de esos requisitos establecidos por la NCAA los han calificado de discriminatorios contra las minorías y sostienen que deberían reducirse. Pero aparentemente la mayoría de los representantes de las universidades de la División I de la NCAA consideran que los estudiantes atletas deberían ser capaces de cumplir con dichos requerimientos (Robbins y Almond, 1992).

OTROS TEMAS EN LAS PRUEBAS EDUCATIVAS
Aunque los asuntos relativos al SAT y a otros programas de evaluación nacionales han recibido más atención por parte de los medios de comunicación, otros aspectos relacionados con la evaluación en y por las escuelas también merecen tenerse en cuenta.

Trampas en las pruebas
Hacer trampa en las pruebas es un asunto preocupante en todos los niveles del sistema educativo. Al adquirir mayor importancia las calificaciones de las pruebas para determinar el futuro educativo y las carreras profesionales de los individuos, pero además en la arena política para evaluar a las escuelas y otras instituciones, la tentación de hacer trampa parece haber aumentado. La administración de una prueba segura implica procedimientos estandarizados tales como verificar la identificación personal, sentar a los alumnos en determinada ubicación, una vigilancia cuidadosa y hojas de respuestas para disminuir las trampas, pero ninguno de estos procedimientos las elimina del todo. Las presiones de los padres, los maestros, los compañeros y los propios alumnos por tener buenos resultados pueden orillar a los estudiantes a robar pruebas, copiar respuestas de sus compañeros y hacer otro tipo de trampas.

Además de las observaciones directas de las trampas en las pruebas o los informes de otras personas acerca de las trampas que han realizado estudiantes específicos, pueden obtenerse pruebas de estas anomalías a partir de (1) patrones similares de respuestas erróneas idénticas de estudiantes que se sentaron juntos durante la prueba (Belleza y Belleza, 1989, 1995) y (2) gran cantidad de borraduras en la hoja de respuesta, sobre todo al cambiar respuestas erróneas por correctas. Esta última técnica se usó en California a mediados de la década de 1980 para confirmar las sospechas deque los aumentos drásticos en las calificaciones en algunas escuelas se debían a que los propios maestros cambiaban las respuestas de los alumnos en las pruebas del Programa de Evaluación de California (CAP). Las hojas de respuesta de las pruebas CAP, que medían habilidades básicas de lectura, escritura y matemáticas, se aplicaban anualmente en los grados tercero, sexto, octavo y doceavo de las escuelas públicas de California y se calificaban mediante escaneo electrónico de los datos. Las máquinas no sólo calificaban las hojas de respuesta, sino que también contaban las borraduras. Usando este procedimiento en combinación con trabajo de oficina para confirmar, se descubrió que en varias docenas de escuelas de Los Ángeles el porcentaje de borraduras era considerablemente mayor al esperado 3%. Aunque el furor resultante y la cobertura de la prensa al respecto precipitó fuertes protestas por parte del sindicato de maestros y el rechazo de algunos maestros a manejar las pruebas CAP, estos acontecimientos llevaron a investigaciones sobre trampas y alteraciones directas e indirectas en las pruebas CAP y CTBS (Banks, 1990).

Las alteraciones por parte de los maestros en las hojas de respuesta de los alumnos no pu-dieron refutarse en forma convincente, pero ¿por qué lo hicieron? La respuesta general parece ser que las calificaciones de las pruebas han llegado a ser tan usadas en la sociedad estadounidense—no sólo para evaluar a los individuos sino también a las escuelas, los distritos escolares, las etapas, e incluso los vecindarios—, que es enorme la presión sobre los maestros y las escuelas para que los alumnos se desempeñen bien. No sólo las presiones sociales sobre todas las personas relacionadas con las escuelas provocaron que los estudiantes hicieran trampa y los maestros alteraran las pruebas, sino que además éstos a menudo enseñan para las pruebas. Esta práctica y la alteración de pruebas es comprensible cuando consideramos la amplia publicidad que las escuelas dan a las calificaciones de prueba, la necesidad de justificar los aumentos en los gastos de educación y los incentivos por los cuales se asignan fondos adicionales a las escuelas cuando sus estudiantes obtienen calificaciones elevadas en las pruebas estandarizadas.
El círculo vicioso en que el superintendente estatal es presionado por los políticos, los superintendentes de distrito por el superintendente estatal, los directores de escuela por el superintendente de distrito, los maestros por los directores, los estudiantes por los maestros y los padres,y los políticos, directores y maestros por los padres, lleva a una situación en donde “siempre tienes a alguien encima de ti”. Los directores y otros directivos escolares, que no tienen un puesto asegurado y pueden ser depuestos o transferidos si las calificaciones de los estudiantes resultan demasiado bajas en las pruebas estandarizadas, son particularmente susceptibles a la presión. Dado que sólo son humanos, es posible que dirijan esta presión a los maestros con el propósito de que sus escuelas den una buena impresión en el registro anual de promedios de calificaciones de pruebas de las escuelas, el cual se publica en los periódicos locales.

Los estudiantes, maestros y el personal administrativo de las escuelas requieren de alguna fuente de motivación para mejorar los bajos niveles en que la educación pública ha caído en muchas secciones escolares de Estados Unidos, así como algunas formas de evaluar la eficacia de sus esfuerzos. Sin embargo, la atmósfera de paranoia que según se informa permeó las posiciones de maestros y personal administrativo en el Distrito Escolar de Los Ángeles durante el escándalo de la alteración de pruebas de 1986 a 1988 no fue benéfica para la educación en general ni para la evaluación educativa en particular.

El efecto del lago Wobegon
En 1988 se informó que en Estados Unidos 70% de los estudiantes, 90% de los 15,000 distritos escolares, y los 50 estados tenían calificaciones superiores a las normas nacionales sobre las pruebas de aprovechamiento con referencia a normas aplicadas en escuelas elementales (Cannell, 1988). Este informe condujo a acuñar el término “efecto del Lago Wobegon”, según la comunidad de ficción de Minnesota ideada por Garrison Keilor “donde todos los niños son superiores al promedio”. Los hallazgos de Cannell se apoyaron en los resultados de un estudio realizado por el Departamento de Educación de Estados Unidos: 57% de los estudiantes de la es-cuela elemental tuvieron calificaciones superiores a la media nacional en lectura y 62% superiores a la media nacional en matemáticas. En otro estudio, llevado a cabo por los Amigos de la Educación, se descubrió que 83% de 5,143 distritos escolares, 73% de 4,501 distritos de escuelas secundarias, y todos menos dos estados (Louisiana y Arizona) estaban por encima del promedio en las calificaciones de pruebas de aprovechamiento (Cannell, 1989).

Una explicación para el efecto del Lago Wobegon es que se trata de una consecuencia de que las pruebas no recibían nuevas normas con la frecuencia necesaria. Otra explicación es que se debe a que los maestros asesoran a los alumnos en las preguntas de la prueba, y les permiten un tiempo mayor al establecido para responderlas, e incluso modifican las hojas de respuesta ya completadas.

Los editores de las pruebas de aprovechamiento estandarizadas citadas en estos estudios(CTB/McGraw-Hill, Riverside Publishing Company y Harcourt Brace) respondieron que resulta caro modificar las normas de las pruebas con la frecuencia que pudiera esperarse y que el aumento en las calificaciones de hecho puede indicar que las escuelas están mejorando. Sin embargo, los editores podrían esforzarse más por enfatizar ante los usuarios de las pruebas cuándo (fecha) y en qué muestras de estudiantes se estandarizaron sus pruebas. En particular, debe-ría esclarecerse si se excluyó a algún grupo (por ejemplo, estudiantes de educación especial o aquellos con un dominio limitado del inglés) al seleccionar las muestras de estandarización.

Aunque la mayoría de los funcionarios no respondió por escrito o en forma impresa a los descubrimientos y críticas de Cannell, un experto en evaluación escolar afirmó que no es ético ni está garantizado suponer que ha habido trampa cuando aumentan las calificaciones. Este funcionario defendió el derecho de los maestros a examinar el contenido de una prueba a fin de determinar en qué áreas de habilidad necesitan mejorar los estudiantes, pero no a enseñar de acuerdo con la prueba (Landers, 1989).

Se reconoce ampliamente que las calificaciones tienden a dispararse hacia arriba cuando una batería de pruebas en particular se usa a lo largo de varios años en una escuela. Una razón del aumento puede ser que los maestros estén enseñando de acuerdo con la prueba, pero la explicación más plausible es que están enseñando a partir de la prueba (Lenke, 1988). Los maestros toman no-ta de las áreas de la prueba donde están bajas las calificaciones e intentan mejorar el conocimiento y las habilidades de los estudiantes en dichas áreas. Ésta es, desde luego, una estrategia de instrucción apropiada y no debe etiquetarse como trampa. También podríamos argumentar que el problema es con los tests con referencia a normas y que los resultados de las pruebas con referencia a criterios producirían información más significativa concerniente a las ventajas y deficiencias académicas y estarían menos sujetos a la mala interpretación. Como quiera que fuese, los políticos, los padres y otros interesados sin duda continuarán exigiendo datos de pruebas comparativos de un año al otro y entre escuelas para colaborar en la toma de decisiones educativas.

Pruebas y estándares educativos nacionales
La preocupación nacional de que los niños estadounidenses no están tan bien capacitados en ciencia y matemáticas como los niños de otros países data de por lo menos el lanzamiento del primer Sputnik soviético en 1957. Los resultados de pruebas de aprovechamiento aplicadas a nivel internacional reavivaron subsecuentemente esta preocupación al revelar que los escolares estadounidenses están atrasados con respecto a sus contra partes de la mayoría de las demás naciones industrializadas en matemáticas y ciencia en particular (Centro Nacional para Estadísticas de Educación, noviembre de 1996, junio de 1997, febrero de 1998, 2001).

El Acta Nacional de Estándares de Habilidades, que se incorporó en el documento Metas 2000: Acta de 1994 para Educar a Estados Unidos, estableció un consejo de estándares de habilidad nacionales para desarrollar un sistema nacional voluntario de estándares, evaluaciones y certificaciones de habilidad. Esta ley exigía que se formularan diversos sistemas de evaluación no discriminatorios (evaluaciones orales y escritas, evaluaciones de portafolio, pruebas de desempeño, y otras por el estilo) y que se aplicaran para verificar el logro de estos estándares.

Se supuso que un conjunto de estándares educativos y las pruebas correspondientes proporcionarían una fuente de motivación y una guía para mejorar el aprendizaje en las escuelas públicas, así como una forma de determinar los progresos en la consecución de los estándares. Como se vio en el candente debate suscitado a finales de la década de 1990 acerca de la evaluación propuesta para toda la nación en el cuarto grado en lectura y en el octavo grado en matemáticas, ha sido difícil conseguir un apoyo bipartita para impulsar tales pruebas. Los conservadores tal vez teman que las pruebas nacionales sean el primer paso de la intromisión federal en las escuelas de sus vecindarios y que las escuelas locales estarían presionadas para adaptar sus planes de enseñanza con el fin de garantizar que los alumnos obtengan buenos resultados en las pruebas. Muchos representantes liberales se oponen a la evaluación nacional porque temen que las pruebas resulten discriminantes contra los niños de grupos minoritarios (Shogren, 1997).

En conexión con el Acta Nacional de Estándares de Habilidades, también ha habido una gran cantidad de debates entre los líderes gubernamentales y los profesionales en cuanto a la creación de pruebas nacionales de inglés, matemáticas, ciencia, historia y geografía para aplicarse a nivel nacional en los grados cuarto, octavo y doceavo. En diciembre de 2001 el Congreso de Estados Unidos aprobó un proyecto de ley que establece pruebas estatales anuales en lectura y matemáticas para todos los niños de los grados tercero al octavo, empezando desde el año escolar 2005-2006. Las escuelas donde las calificaciones no mejoren durante dos años consecutivos podrían recibir más ayuda federal. Si las calificaciones en dichas escuelas continúan sin elevarse, los estudiantes de bajos ingresos podrían ser candidatos a clases individuales o trasladarse a otra escuela pública con recursos federales. Si las calificaciones de una escuela aún no mejoran en cinco años consecutivos, el resultado podría ser cambios en el personal u otras consecuencias importantes, tales como la toma del mando por las autoridades estatales o la transformación del plantel en una escuela con exenciones. (Los Angeles Times, 9 de diciembre de 2001,p. A30.) Este proyecto de ley permite que distintos estados apliquen pruebas distintas, pero to-dos los estudiantes de un determinado estado tienen que presentar una prueba estatal para poder realizar comparaciones por grado, escuela y distrito, y un estado no está autorizado a cambiar de una prueba a otra cada año. Asimismo, las pruebas no sólo deben contener reactivos de opción múltiple, sino también preguntas abiertas que demanden a los estudiantes formular las respuestas y demostrar un razonamiento crítico.

Además de las evaluaciones de dominio en los grados escolares, se han realizado esfuerzos para obtener apoyo y desarrollar una prueba nacional que determine la medida en que los estudiantes universitarios han adquirido habilidades en razonamiento crítico, resolución de problemas y comunicación, las cuales son necesarias “para competir en una economía global y ejercerlos derechos y responsabilidades de la ciudadanía” (Zook, 1993, p. A3). Las propuestas para que se realice una evaluación nacional de estudiantes posterior a la secundaria, que han sido estimuladas por la demanda de representatividad en la educación superior, también son controvertidas.Sin embargo, es posible que en el futuro cercano se desarrolle algún tipo de procedimiento evaluativo para determinar si las grandes sumas de dinero que se gastan en la educación superior son eficaces para equipar a los adultos jóvenes con las habilidades requeridas en el campo de trabajo. El desarrollo de tal prueba o pruebas sería caro, pero no resultaría tan costoso como tener un país lleno de graduados universitarios con una educación deficiente.

Evaluación de la inteligencia en las escuelas
Durante las últimas décadas, las relaciones entre experiencia educativa, estatus socioeconómico, etnia, nacionalidad, género, nutrición y muchas otras variables psicosociales y biológicas y las calificaciones obtenidas en pruebas de habilidades cognoscitivas se han considerado en cientos de investigaciones (vea el capítulo 8). Una pregunta constante se refiere al carácter de la interacción entre herencia y ambiente para determinar las calificaciones que se obtienen en las pruebas psicológicas. El significado de esta pregunta y sus implicaciones sociales y educativas han dado lugar a acciones legales en algunos estados. Están en tela de juicio algunas preguntas relativas ala utilidad y al sesgo de los tests de inteligencia. ¿Son estas pruebas útiles y justas para todos los grupos de niños, o están sesgadas en contra de ciertos grupos étnicos?

Entre los casos legales que han abordado la aplicación de pruebas de inteligencia en las es-cuelas están: Stell contra el condado de Savannah-Chatham (1963), Hobson contra Hansen (1967),Diana contra el Consejo Estatal de Educación (1970), Guadalupe contra el Distrito de la Escuela Elemental Tempe (1972), Larry P. contra Riles (1979), PASE contra Hannon (1980), y la NAACPde Georgia contra el Estado de Georgia (1985). En el caso de Stell contra el condado de Savannah-Chatham se tomó una decisión que después fue revocada por el Tribunal de Distrito de Apelación de Estados Unidos. La corte dictaminó en ese caso que, debido a que los CI de los niños negros eran inferiores a los de los niños blancos, exigir que ambos grupos se integraran en las mis-mas escuelas sería mutuamente desventajoso. En Hobson contra Hansen, la corte estableció que las pruebas de habilidad colectivas discriminan a los niños de grupos minoritarios y, por lo tanto,no podían utilizarse para asignar a los alumnos distintos cursos de habilidades. En Diana contra el Consejo Estatal de Educación, la corte dictaminó que no podían usarse procedimientos de evaluación tradicionales para ubicar a niños mexicano-estadounidenses en clases de niños con retraso mental susceptibles de ser educados, en California, y que debían tomarse medidas especiales (por ejemplo, asesoría bilingüe) para evaluar a los niños de grupos minoritarios. La decisión de la corte en Guadalupe... fue que se evaluara a los alumnos en su lengua principal y se eliminaran las partes injustas de la prueba. Asimismo, se estableció que las calificaciones de CI debían ser por lo menos dos desviaciones estándar menores a la media y que otros determinadores, tales como las medidas de comportamiento adaptativo, tendrían que incluirse al tomar decisiones sobre si los niños deberían clasificarse como retrasados mentales.

En su libro Bias in Mental Testing (El sesgo en las evaluaciones mentales), Arthur Jensen(1980) afirmó que ni las pruebas verbales de inteligencia ni las no verbales están sesgadas de manera significativa en contra de niños nacidos en Estados Unidos pero pertenecientes a grupos minoritarios. Jensen sostenía que las pruebas de inteligencia y de otras habilidades cognoscitivas tienen validez predictiva para todos los grupos étnicos y que no son responsables de las diferencias entre dichos grupos. Como se expresó en la decisión sobre Larry P. contra Riles(1979), el juez Robert Peckham de la Corte Federal de Distrito de San Francisco no estuvo de acuerdo con Jensen. Después de concluir que las pruebas de CI negaban igual protección legal a los cinco demandantes negros de una demanda de clase, el juez Peckham ordenó continuara su anterior prohibición de aplicar las pruebas de CI con propósitos de colocación de niños negros en la escuela pública de California para retrasados mentales susceptibles de ser educados. Así, se dictaminó que las pruebas de inteligencia administradas individualmente están sesgadas en contra de los negros, y que el Departamento de Educación Estatal de California no podía usar estas pruebas para emitir un diagnóstico educativo ni para la colocación de niños negros en las escuelas públicas. A esta decisión contribuyó el hecho de que una cantidad desproporcionada de niños negros habían sido asignados a clases de EMR, a las cuales el juez Peckham llamaba “educación sin salida”. Por consiguiente, se estipuló que la proporción de niños negros en clases de EMR debería concordar con su proporción entre la población general de escolares. En 1986, el juez Peckham emitió de nuevo su prohibición del uso de pruebas de CI en las escuelas públicas de California, aun cuando se obtuviera el consentimiento de los padres. Sin embargo, la decisión dela corte en Larry P. no prohibía el uso de todas las pruebas de inteligencia en las escuelas públicas de California y dichas pruebas continuaron utilizándose para ciertos fines.

Menos de un año después de emitido el fallo de Larry P. contra Riles, otro juez federal,John F. Grady, tomó una decisión muy diferente en un caso similar de Illinois. En este caso, PA -SE (Parents in Action on Special Education) contra Hannon (1980), se decretó “que las pruebas WISC, WISC-R y Stanford-Binet, cuando se usan bajo los estatutos legales ‘[otros criterios] para determinar el programa educativo apropiado para un niño’ (bajo la Ley Pública 94-142)... no discriminan en contra de niños negros” (p. 883). Como resultado, las pruebas de inteligencia continuaron administrándose con propósitos de ubicación en clases especiales en las escuelas públicas de Illinois y de muchos otros estados. De manera similar al fallo de PASE contra Hannon, la corte decidió en la NAACP de Georgia contra el Estado de Georgia (1985) que las pruebas de inteligencia no discriminan en contra de los niños negros. También contrariamente a las disposiciones del caso Larry P., en la decisión de Georgia... se concluyó que la presencia de cantidades desproporcionadas de niños negros en clases de EMR no constituye una prueba de discriminación. Por último, en septiembre de 1992 el juez Peckham levantó la prohibición sobre las pruebas de inteligencia en las escuelas públicas de California bajo el argumento de que no era justo para los padres negros que deseaban sí fueran aplicadas para decidir la ubicación educativa de sus hijos con problemas de aprendizaje (Bredemeier, 1991). De hecho, esta disposición anuló la prohibición anterior (1986) en contra del uso de pruebas de inteligencia en las escuelas públicas de California. Una reseña de los casos citados y de otros presentados ante los tribuna-les, y que se relacionan con la evaluación de la inteligencia en las escuelas, revela que las decisiones judiciales han variado de un estado a otro y de acuerdo con el clima político de la época.

Aunque el uso de pruebas de inteligencia en ocasiones puede estimular la discriminación e incluso contribuir a una profecía que se cumple por sí misma, varios psicólogos y educadores sostienen que existen tres ventajas de usar estas pruebas con propósitos de ubicación. En muchos niños remitidos por los maestros con el señalamiento de que requieren educación especial se descubre que eso no es necesario cuando se les somete de nuevo a las pruebas. De hecho, si no se usaran las pruebas, probablemente se asignarían más niños de grupos minoritarios a las clases especiales. Incluso quienes están ubicados en dichas clases con base en calificaciones bajasen las pruebas a menudo aprovechan la educación especial al grado de que se mejora su CI, y ya no resultan candidatos para esos servicios. Por último, podría preguntarse qué sucede con los niños que sí requieren educación especial pero no son identificados por que no se les administran pruebas de inteligencia. ¿Cuántos escolares se retrasan cada año porque no cuentan con la educación apropiada para sus habilidades al ser ubicados en clases generales?

PRUEBAS DE EMPLEO Y SESGO
Tan importante como los asuntos concernientes al uso de pruebas en escuelas y universidades es el aspecto de la justicia de estos instrumentos en cuanto a propósitos de selección de empleo, colocación y promoción. Como resultado de la creciente preocupación por los derechos civiles, la importancia del tema se incrementó cada vez más durante la década de 1960. Debido a que las pruebas de empleo se habían validado sobre todo en miembros de la cultura blanca dominante,era razonable preguntarse si tenían alguna validez para los negros y otras minorías. Tal fue la situación en el caso de Myart contra Motorola (1964), donde el asunto era si una prueba usada confines de selección podría considerarse racialmente discriminatoria.

Legislación sobre la igualdad en las oportunidades de trabajo
El Acta de 1964 sobre Derechos Civiles (en Estados Unidos) surgió a raíz del caso Motorola y otras críticas de la evaluación psicológica. El Título VII de esta acta prohibía específicamente la discriminación con base en la raza, el color, el país de origen, el sexo o la religión.(1) Una disposición dela Suprema Corte sobre el Título VII ocurrió en el caso de Griggs et al., contra Duke Power Company (1971), que se relacionaba con una demanda interpuesta contra la compañía Duke Power por empleados negros. La demanda se enfrentaba al requisito que antes había establecido Duke Powerde presentar un diploma de bachillerato y a las nuevas políticas de promoción y contratación que requerían calificaciones mínimas predeterminadas en la Prueba de Personal Wonderlic y en la Prueba de Comprensión Mecánica Bennett. El presidente de la Suprema Corte, Warren Burger,quien escribió la opinión mayoritaria en ese caso, concluyó que “si no puede demostrarse que una práctica de empleo que funciona para excluir a los negros está relacionada [significativamente] con el desempeño en el trabajo, tal práctica está prohibida” (Griggs et al., contra Duke Power Company, 1971, p. 60). Pero el juez Burger también señaló que:

nada en el Acta [de Derechos Civiles] excluye el uso de procedimientos de evaluación o medición; obviamente son útiles. Lo que el Congreso ha prohibido es dar a estos dispositivos y mecanismos poder de control a menos que se demuestre que son una medida razonable del desempeño en el trabajo. El Congreso no ha ordenado que se prefiera a los menos calificados con prioridad frente a los más calificados simplemente por sus orígenes como minoría. Lejos de menospreciar las habilidades en el empleo como tales, el Congreso ha hecho de esas habilidades el factor preponderante, de modo que la raza, la religión,la nacionalidad y el sexo sean irrelevantes. (Griggs et al., contra Duke Power Company, 1971, p. 11.)

La intención de la decisión de la Suprema Corte en el caso Griggs et al., contra Duke PowerCompany fue solicitar que los empleadores demostraran que las habilidades medidas por sus pruebas de selección y demás procedimientos de contratación estaban relacionadas con el puesto. El efecto inmediato de la decisión era evaluar de nuevo, y en algunas situaciones descontinuar, ciertas pruebas de selección por parte de las empresas y las organizaciones industriales. Posteriormente, el Congreso concluyó que el Título VII del Acta de 1964 sobre Derechos Civiles no se había aplicado en forma adecuada y que continuaba la discriminación contra las minorías y las mujeres.

(1)También están relacionadas con las prácticas de empleo justo el Acta de 1967 sobre Discriminación por Edad en el Empleo(ADEA) y el Acta de 1990 sobre Estadounidenses con Discapacidades (ADA). La ADEA declara prohibida la discriminación contra los empleados o candidatos de 40 años o mayores en todos los aspectos del proceso de empleo. Con la ADA, a los individuos calificados con discapacidades deben otorgárseles iguales oportunidades en todos los aspectos del empleo.

Esta conclusión llevó a una revisión del Acta de Derechos Civiles, el Acta de 1972 sobre Iguales Oportunidades de Empleo. El Consejo Coordinador de Iguales Oportunidades de Empleo (EEOCC), que fue establecido por el Acta de Iguales Oportunidades de Empleo, preparó entonces un conjunto de normas denominado Lineamientos Uniformes para Procedimientos de Selección de Empleados. Estas normas describían los procedimientos a seguir por empleadores, organizaciones laborales y agencias de empleo, y exponían que cualquier procedimiento de selección que opere para descalificar o afectar de alguna otra manera adversa a los miembros de cualquier grupo racial, étnico o de sexo en mayor grado que a otro grupo, se ha validado de acuerdo con estos lineamientos, y que no están disponibles procedimientos alternativos de empleo con igual validez pero con un efecto menos adverso. (Comisión Estadounidense sobre Iguales Oportunidades de Empleo, 1973, p. 20.)

Los lineamientos establecen además que para ser juzgadas como una forma válida de predecir el desempeño, la prueba o combinación de pruebas normalmente deberán abarcar al menos la mitad de las habilidades medibles confiables y el conocimiento correspondiente al trabajo.La ley concerniente al impacto desigual de las prácticas de empleo con respecto a ciertos grupos se amplió en tres casos subsecuentes: Estados Unidos contra Georgia Power Company(1973), Albemarle Paper Co. contra Moody (1975), y Washington contra Davis (1976). En el caso de Albemarle Co. contra Moody, tras descubrir que el programa de evaluación de la compañía era inadecuado, la corte sostuvo que, incluso si una prueba es válida pero afecta de manera adversa el empleo de ciertos grupos, la organización debería hacer todos los esfuerzos posibles para encontrar un dispositivo de seguridad menos sesgado. La definición legal de impacto ad-verso sigue la regla de los cuatro quintos, de acuerdo con la cual se considera que está presente una situación de impacto adverso si un grupo tiene una tasa de selección que es cuatro quintos(80%) menor que la del grupo con la mayor tasa de selección. Por ejemplo, si cien negros solicitan un empleo y se contrata a 60 blancos (el grupo mayor), entonces puede decirse que existe una situación de impacto adverso cuando menos de (4/5)60 = 48 negros también son contratados. Según los lineamientos del EEOCC, se requiere que los patrones adopten técnicas de selección con el menor impacto adverso. En Washington contra Davis (1976), el tribunal amplió el criterio al que deberían relacionarse las pruebas de selección para incluir el desempeño en programas de capacitación para el empleo.

Una revisión de 1978 de los lineamientos del EEOCC sobre la selección de empleados (Comisión Estadounidense de Iguales Oportunidades de Trabajo, 1978) no fue tan estricta como la versión original al requerir que los empleados realicen estudios de validez diferencial. Al igual que sus antecesores, los lineamientos revisados se diseñaron para exigir que los patrones justifiquen el uso de pruebas y otros procedimientos de selección que excluyan cantidades desproporcionadas de miembros de grupos minoritarios y mujeres. Los lineamientos describen tres métodos de validación en que pueden confiar los patrones: validez con relación a criterio, validez de contenido, y validez de constructo, pero no están claros en cuanto a qué tan grandes deberían ser los coeficientes de validez. Además, aunque los lineamientos revisados establecen que usar las pruebas es legítimo cuando las calificaciones están relacionadas con el desempeño en el trabajo, no especifican a qué se refieren con “criterios relacionados con el puesto”.

La relación con el puesto es un concepto importante en este contexto, porque el uso de pruebas que tienen un impacto adverso se justifica en ocasiones con base en la afirmación de que están relacionadas con el puesto. La incapacidad de los lineamientos del EEOCC para esclarecer lo que significa “criterios relacionados con el puesto”, y otros problemas similares, impulsó a muchas empresas y organizaciones de servicios a suspender por completo el uso de pruebas para la selección de empleos. Los lineamientos se consideran por muchas autoridades técnicamente obsoletos, y en muchos casos los estudios de validez requeridos son demasiado costosos y de valor cuestionable.
Queda claro que la implicación de los lineamientos del EEOCC era que los gerentes de personal necesitan llevar a cabo estudios de validación de todos sus procedimientos de selección, no sólo de las pruebas psicológicas, para determinar si están significativamente relacionados con el éxito en el trabajo. En Watson contra Fort Worth Bank and Trust (1988), el Tribunal estableció que los dispositivos subjetivos del empleo, tales como las entrevistas, pueden validarse y que los empleados pueden alegar impacto adverso como resultado de prácticas de promoción basadas en entrevistas. Por costoso que pueda ser, las entrevistas y otros métodos menos objetivos que las pruebas deben someterse al escrutinio mediante estudios de validez apropiados.

Otro interesante caso ventilado en los tribunales y relativo a las prácticas de empleo justasfue Wards Cove Packing Company contra Antonio et al., (1989). Los demandantes en este caso fueron trabajadores filipinos y esquimales de enlatadoras de salmón en Alaska, quienes sostenían que la compañía los estaba excluyendo de puestos con mejor paga como la reparación de maquinaria. La decisión judicial en este caso es importante, porque cambió el peso de la prueba al empleado para que demostrara que no era válida ni confiable la prueba psicológica usada con propósitos de promoción. La preocupación sobre esta decisión, que invirtió el tema central del caso de Griggs contra Duke Power condujo al Acta de 1991 sobre Derechos Civiles. Esta acta confirmó los principios del Título VII del Acta de 1964 sobre Derechos Civiles, pero esclareció la situación de que el peso de la prueba recae en el patrón. Otra importante disposición del acta prescribió efectivamente el uso de calificaciones límite diferenciales por raza, género u origen étnico,lo que tuvo el efecto de desechar el sistema de cuotas vigente durante más de dos décadas.
Otras demandas legales relacionadas con la selección educativa y en el empleo se han ocupado de los efectos de la acción afirmativa o de cuotas al negar la admisión a la universidad a asiáticos y caucásicos estadounidenses que cuentan con la habilidad requerida. Aunque la corte ha apoyado los procedimientos de admisión o de selección que favorecen a los grupos con poca representación (por ejemplo, en Estados Unidos contra la ciudad de Buffalo, 1985), durante la década pasada fueron significativas las propuestas de prescindir de los requisitos de acción afirmativa ordenados legalmente en las escuelas y en el lugar de trabajo.

Imparcialidad en las pruebas
Como lo implican los lineamientos del EEOCC, las pruebas educativas y psicológicas estandarizadas en muestras de blancos son inaceptables para usarse en la selección de candidatos negros y de otros grupos minoritarios. Utilizar tales pruebas con grupos distintos a aquellos sobre los que se estandarizaron plantea el problema de la imparcialidad en las pruebas. El concepto de imparcialidad en la evaluación psicológica y educativa tiene un significado más estadístico que el supuesto por los lineamientos del EEOCC. El punto de vista tradicional en la medición psicológica es que la imparcialidad de una prueba para distintos grupos depende de si los candidatos con igual probabilidad de desenvolverse bien en un criterio de desempeño tienen las mismas posibilidades de ser seleccionados. De acuerdo con esta definición, incluso si la calificación media de un grupo es menor que la de otro, la prueba no necesariamente es parcial o injusta. Los negros y otras minorías de Estados Unidos pueden alcanzar calificaciones promedio más bajas que los blancos en las pruebas de empleo, pero esto no revela nada sobre la imparcialidad de las pruebas en el sentido técnico. Sin importar cualquier diferencia en las calificaciones promedio de las pruebas de dos grupos distintos, tradicionalmente se ha afirmado que una prueba de selección de empleo es imparcial si predice el mismo éxito en el trabajo para todos los grupos de candidatos.

Después de llamar la atención hacia una falla estadística en la definición tradicional (regresión equitativa) de imparcialidad de una prueba, Thorndike (1971) propuso una definición opcional. La definición del índice constante de Thorndike especifica que las calificaciones habilitantes de una prueba deberían establecerse de tal modo que se seleccionen distintos grupos de candidatos en proporción a la cantidad de cada grupo capaz de lograr un nivel aceptable en el criterio de desempeño. Por ejemplo, si 30% de todos los aspirantes blancos y 20% de todos los negros se juzgan capaces de desempeñarse bien en un trabajo determinado, entonces las calificaciones habilitantes en una prueba de selección deberían determinarse de tal manera que se contrate a 30% de los aspirantes blancos y 20% de los negros.

Otra definición de la imparcialidad en las pruebas fue sugerida por Cole (1973), quien propuso se establecieran calificaciones límite por separado para los dos o más grupos distintos de aspirantes, de modo que la probabilidad de selección sea la misma para candidatos potencialmente exitosos en cada grupo. Supóngase, por ejemplo, que dos grupos distintos están compuestos por 50 y 100 aspirantes respectivamente. Si se ha determinado con anticipación que 50% de todos los candidatos puede desempeñar el puesto en forma satisfactoria, entonces debería contratarse a 50% X 50 = 25 aspirantes del primer grupo y 50% X 100 = 50 candidatos del segundo grupo. Dunnette y Borman (1979) sugirieron un procedimiento de selección de cuotas similar. Sin embargo, en su propuesta el porcentaje de aspirantes por seleccionarse está definido de antemano; entonces se aplican ecuaciones de regresión separadas para cada grupo.

Los lineamientos del EEOCC revisados aceptan que la imparcialidad en las pruebas no es un concepto fijo y que los expertos pueden disentir en cuanto a su significado. Cualquiera quesea la definición que se prefiera, debería tomarse en cuenta la gravedad relativa de los errores de aceptar o rechazar aspirantes equivocadamente. Esto implica que la imparcialidad de una prueba es un asunto relativo, dependiendo de si se considera más grave rechazar a un aspirante que debería haber sido aceptado (falso negativo) o aceptar uno que fracasará (falso positivo). La conciencia social puede dictar que el primer error es más serio, mientras que las consideraciones de beneficio y seguridad indican que el segundo error es digno de mayor preocupación. Desde este punto de vista, el significado de imparcialidad es un asunto de política social, y no sólo de psicometría.
Incluso cuando una prueba se considera imparcial en su conjunto, es posible que algunos reactivos individuales resulten injustos o estén sesgados contra un grupo en particular. Por ejemplo, ciertos reactivos pueden presentar una visión estereotipada de los grupos minoritarios y las mujeres de acuerdo con la ocupación, la educación, la familia y la recreación de alguna forma (Tittle, 1984). Para identificar el sesgo en los reactivos y protegerse contra ellos, los editores de pruebas suelen realizar revisiones dictaminadoras para detectar los estereotipos y la familiaridad del contenido de las pruebas respecto a grupos particulares. También se han diseñado diversos procedimientos estadísticos para determinar la presencia de sesgos en los reactivos o el funcionamiento diferencial de reactivos (DIF). Entre estos procedimientos se encuentran los índices transformados de dificultad de reactivos, correlaciones biseriales para determinar las discriminaciones en los reactivos, las curvas características de reactivos, y variantes de chi cuadrada tales como la estadística Mantel-Haenzel (Cole y Moss, 1989; Scheuneman y Bleistein, 1989).
La construcción de curvas características de reactivos es una de las formas más descripti-vas de detectar el sesgo en los reactivos. De acuerdo con este enfoque, un reactivo carece de sesgo si su curva característica es la misma para los grupos que se comparan. En otras palabras, los examinados con iguales habilidades, sin importar el grupo al que pertenezcan, tienen las mismas probabilidades de acertar en el reactivo. Se han llevado a cabo estudios experimentales donde el contenido de una prueba se varía para determinar si distintos grupos responden de manera diferente y estudios de análisis factorial para definir si las respuestas de distintos grupos producen los mismos factores, y se han conducido investigaciones acerca del sesgo en las pruebas y los reactivos (Cole y Moss, 1989, Tittle; 1984).

En 1984 se llegó a una solución conciliadora en lo que respecta al problema del sesgo en los reactivos, cuando el Servicio de Evaluación Educativa aceptó un acuerdo fuera de tribunales en una demanda que acusaba de sesgo social a exámenes de una franquicia de seguros en Illinois. Según los términos del acuerdo se aceptó que al elaborar los exámenes del seguro el ETS emplearía primero reactivos en que negros y blancos obtuvieran calificaciones más similares.Este enfoque, conocido como acuerdo de la Regla de Oro, por el nombre de la compañía de seguros involucrada en la demanda, se usó después en otros estados. Como quiera que fuese, el acuerdo de la Regla de Oro posteriormente fue objeto de gran cantidad de debates y rechazo (Educational Measurement, 1987, 6(2); Anrig, 1987; Denton, 1988).

RESUMEN
En Estados Unidos es práctica común pedir a los estudiantes que aprueben un examen de competencia mínima antes de otorgarles un diploma de bachillerato, y solicitar que los maestros pasen una prueba de habilidad profesional para ser contratados o confirmados en sus puestos. Algunas escuelas y universidades también han aplicado un método de valor agregado para la evaluación de cambios en conocimiento y habilidades durante los años anteriores a la graduación.

Los estudios han revelado que existen numerosas evaluaciones en las escuelas, pero que a menudo maestros, padres y los propios estudiantes carecen de suficiente información y capacitación como para interpretar los resultados de las pruebas en forma precisa. En años recientes ha adquirido impulso la evaluación de habilidades en estudiantes y maestros de bachillerato.Además de evaluar tanto a los estudiantes como a los maestros, las pruebas e instrumentos similares se usan para evaluar los programas educativos y determinar la efectividad de otros procedimientos y programas de intervención.

Durante muchas décadas se ha atacado el contenido y los usos de las pruebas estandarizadas de habilidades cognoscitivas. Las pruebas de opción múltiple en general, y los exámenes de admisión donde hay mucho en juego tales como la prueba SAT en particular, han sido muy criticadas por ser indicadores no válidos de lo que pretenden medir, por violar el derecho individual a la intimidad, por ser injustas tanto con los estudiantes privilegiados como con los de situación desventajosa, y por impulsar hábitos de estudio deficientes y prácticas sociales y económicas no éticas.
El interés mostrado en la legislación sobre veracidad en la evaluación fue indicativo de la exigencia de que la industria de la evaluación se vuelva más abierta y responsable hacia el público.También ha sido causa de preocupación con respecto a la evaluación de capacidades el declive anual de las calificaciones en la SAT y en otras pruebas de habilidad aplicadas nacionalmente, así como los efectos de la asesoría y de las diferencias de género y étnicas en las calificaciones de prueba.

La legislación y los litigios sobre derechos civiles y oportunidades de trabajo equitativas han dado origen a la reglamentación sobre el uso de pruebas en las empresas y la industria. Los lineamientos federales para los procedimientos de selección de empleados describen las características que deberán tener las pruebas y otras medidas a fin de considerarse técnicas aceptables y válidas para la selección y colocación de empleados. El problema de la imparcialidad en las pruebas para los grupos minoritarios y en desventaja condujo a nuevas definiciones de imparcialidad. Los asuntos legales y técnicos resultantes de la consideración de los conceptos de imparcialidad y predicción diferencial han alertado a los psicólogos profesionales, a los jefes de personal y al público en general sobre la necesidad de un uso más responsable de las pruebas y otros procedimientos de evaluación.

PREGUNTAS Y ACTIVIDADES
1. Haga una lista de los argumentos a favor y en contra de la evaluación de la aptitud de (a) estudian-tes de bachillerato, (b)candidatos a maestros de escuela y (c) maestros con experiencia.

2. Discuta objeciones específicas contra las pruebas estandarizadas en general y contra las pruebas de opción múltiple en particular.

3. Describa las críticas de la SAT y las respuestas a estas críticas por parte del Consejo de Exámenes de Admisión a la Universidad y el Servicio de Evaluación Educativa.

4. ¿Por qué podría la legislación sobre veracidad en la evaluación propiciar que los maestros enseñen para la prueba?

5. Analice la legislación establecida por el Congreso de Estados Unidos y los fallos de la Suprema Corte con respecto a la evaluación en el trabajo, empezando con el Título VII del Acta de 1964 sobre Derechos Civiles.

6. La imparcialidad en una prueba de aprovechamiento se define como “la medida en que los reactivos de una prueba constituyen una muestra representativa de lo que saben los examinados”, mientras que la imparcialidad en una prueba de habilidad se define como “la medida en que las calificaciones de una prueba son capaces de predecir igualmente el desempeño de criterios de distintos grupos”. Sin embargo, Thorndike sostenía que las pruebas son justas si “las calificaciones aprobatorias [de las pruebas se] establecen en niveles que... califiquen a los candidatos de dos grupos en proporción con la fracción de los dos grupos que alcanza un criterio de desempeño específico”. ¿Por qué existen distintas definiciones de imparcialidad en las pruebas, y qué implican tales definiciones?

7. Remítase a las 30 calificaciones aparejadas de la tabla A.2 en el apéndice A. Suponga que X es la calificación de una prueba de selección de empleo y Y la clasificación de desempeño en el trabajo. Suponga también que las 30 calificaciones se obtuvieron de un grupo mayoritario de aspirantes al puesto, mientras que las siguientes 20 calificaciones aparejadas corresponden a un grupo minoritario de candidatos.
Tabla en la carpeta del libro.

Ahora suponga que 50% de los candidatos del grupo mayoritario, 25% de los del grupo minoritario,y 40% de todos los aspirantes realizan el trabajo satisfactoriamente (Y = 50 o mayor). ¿Es justa la prueba de acuerdo con la definición tradicional de imparcialidad? ¿Según la definición de Thorndike? ¿Para la definición de Cole? ¿Cuáles son los porcentajes de falsos positivos y de falsos negativos de cada grupo, y cómo afectan la imparcialidad de la prueba?

8. Investigue acerca de escuelas y cursos de asesoría de pruebas, así como sobre los materiales de asesoría de pruebas publicados que estén disponibles en su área geográfica. Intente localizar a seis o má sestudiantes que hayan pagado por recibir asesoría o preparación para la SAT, la GRE o cualquier otra prueba aplicada a nivel nacional. Pregúnteles si la asesoría les ayudó a mejorar sus calificaciones en la prueba. ¿Qué evidencias mencionaron para demostrar los efectos benéficos de tal asesoría?