CAPÍTULO SEIS
PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS
Las pruebas de aprovechamiento, definido como el nivel de conocimiento, habilidad o logro en un área de desempeño, son los instrumentos psicométricos más populares. Si consideramos todas las pruebas aplicadas en el salón de clases que elaboran los profesores y todas las pruebas estandarizadas vendidas a las escuelas y a otras organizaciones, el número de pruebas de aprovechamiento aplicadas sobrepasa con facilidad a todos los otros tipos de pruebas psicológicas y educativas. En Estados Unidos, la mayoría de los 50 estados ha establecido como obligatorio que los estudiantes presenten pruebas de aprovechamiento en algunos grados. La mayoría de las pruebas estandarizadas de aprovechamiento aplicadas en las escuelas estadounidenses corresponde a las áreas de lectura y lenguaje, aunque cada año se invierten también millones de dólares en pruebas de matemáticas, ciencia, ciencias sociales y otras materias.

FUNDAMENTOS DE LAS PRUEBAS DE APROVECHAMIENTO
Cualquier prueba de habilidad (inteligencia general, habilidades especiales, aprovechamiento)en realidad mide lo que la gente ha logrado. Los reactivos de las pruebas de inteligencia y habilidades especiales, como los de las pruebas de aprovechamiento, requieren que los examinados demuestren algún logro. Las calificaciones en las pruebas de aprovechamiento se utilizan para muchos de los mismos propósitos que las calificaciones en otras pruebas de habilidades generales o específicas. Esos propósitos incluyen evaluación global y diagnóstica de las habilidades del individuo, así como evaluación de la efectividad de los programas educativos y sociales.

Las pruebas de aprovechamiento educativo a menudo son mejores predictores de las notas escolares que las pruebas de inteligencia y de habilidades especiales, pero no pueden reemplazarlas por completo. Los logros medidos por las pruebas de inteligencia general son más amplios y son producto de experiencias de aprendizaje menos formales y, por lo regular, menos recientes que los logros medidos por las pruebas estandarizadas de aprovechamiento. La mayoría de las pruebas de aprovechamiento evalúa el conocimiento de algo que ha sido enseñado de manera explícita, por lo que las calificaciones en esas pruebas tienden a estar más influidas por la asesoría que las calificaciones en las pruebas de inteligencia y de habilidades especiales.

También puede hacerse una distinción entre las pruebas de aprovechamiento y otras medidas de habilidades cognoscitivas en términos de sus diferentes énfasis. Las pruebas de aprovechamiento se concentran más en el presente, es decir, en lo que la persona sabe y puede hacer ahora. Por otro lado, las pruebas de inteligencia y de habilidades especiales se concentran en el futuro: miden la aptitud para el aprendizaje, es decir, lo que una persona deberá ser capaz de hacer con educación y entrenamiento ulteriores.

Una serie de pruebas populares de aprovechamiento están vinculadas con pruebas de aptitud publicadas por la misma compañía y han sido estandarizadas en la misma población de estudiantes. El uso combinado de esas medidas de aprovechamiento y aptitud puede facilitar la interpretación de los resultados de la prueba de aprovechamiento, más allá de la información proporcionada por las normas de la prueba sola. Pueden hacerse conclusiones de si los estudiantes están desempeñándose al nivel de su potencial y en qué áreas de contenido es más probable que se beneficien de la instrucción y estudio adicionales.

Panorama histórico
Exámenes escritos en forma de composición y poesía, recopiados y juzgados por dos calificadores,se usaron por primera vez en China alrededor del año 1370 d. de C. Luego de la introducción del proceso de elaboración del papel en Europa, una habilidad que los europeos aprendieron de los árabes en el siglo XII y que éstos a su vez habían aprendido de los chinos en el siglo VIII, los exámenes escritos empezaron a reemplazar a los orales en algunas universidades europeas. Se sabe que el primer uso educativo de las pruebas escritas en una universidad europea se dio en Cambridge, Inglaterra, en 1702, y la Universidad de Londres fue acreditada como un centro de exámenes para pruebas escritas en 1836 (Green, 1991). Sin embargo, no fue sino hasta 1845 que los exámenes escritos se aplicaron a gran escala en Estados Unidos (Greene, Jorgensen y Gerberich, 1954).

A principios del siglo XIX, el número de estudiantes en las escuelas de las ciudades estadounidenses había crecido demasiado como para que la aplicación frecuente de exámenes ora-les resultara un recurso práctico. La examinación oral continuó siendo el principal método para evaluar el aprovechamiento de los alumnos en Estados Unidos hasta la última mitad del siglo XIX. En 1845, un educador de Boston, Horace Mann, argumentó de manera convincente que los exámenes escritos, aplicados y calificados en condiciones uniformes, eran una mejor medida del aprovechamiento que los exámenes orales. La influencia de Mann llevó a que las escuelas de Boston comenzaran a administrar cada año exámenes escritos a sus alumnos. Se esperaba que esta práctica ayudara a determinar “la condición, mejoría o deterioro de nuestras escuelas”(Fish, 1941, p. 23). A pesar de los esfuerzos de Mann y de otros educadores, durante muchos años los exámenes orales continuaron siendo el método principal para evaluar el aprovechamiento escolar y sólo gradualmente fueron reemplazados por las pruebas escritas. La calificación de las pruebas orales y escritas continuó siendo bastante subjetiva.

La primera prueba objetiva de aprovechamiento, una que podía calificarse de manera confiable, fue una escala de escritura elaborada por el inglés George Fisher en 1864. Un año después, en un esfuerzo por elevar los estándares educativos, el estado de Nueva York inició los Exámenes Regentes. Otro paso importante en la medición educativa fue dado por J. M. Rice en 1897 en su estudio clásico de las habilidades de ortografía de los escolares. Los resultados obtenidos al aplicar una prueba de ortografía de 50 palabras a 33,000 niños llevaron a Rice a concluir que se aprendía lo mismo en 15 que en 40 minutos de instrucción diaria en ortografía. En estudios posteriores, Rice elaboró pruebas objetivas para evaluar las habilidades de lenguaje y los logros aritméticos de los niños. Las pruebas de Rice por lo general se consideran como precursoras de las pruebas estandarizadas de aprovechamiento, una base sobre la que luego construyeron otros pioneros de la medición educativa.

Varias pruebas estandarizadas de aprovechamiento fueron publicadas en los primeros años del siglo XX bajo la dirección de E. L. Thorndike, a quien Ross y Stanley (1954) consideraban padre del movimiento de examinación educativa. Esas pruebas incluían la Prueba de Aritmética para Operaciones Fundamentales y la Prueba de Razonamiento Aritmético de C. L. Stone(1908), la Serie de Pruebas de Aritmética de S. A. Courtis (1909) y la Escala de Caligrafía para Niños de Thorndike (1909). Las demostraciones de la falta de confiabilidad de las calificaciones asignadas por los maestros, incluso en las materias más exactas como matemáticas (Starch y Elliot, 1913), aumentaron el interés en las pruebas objetivas estandarizadas. Para el final de la dé-cada de 1920 se disponía de numerosas pruebas estandarizadas de aprovechamiento, incluyendo baterías de medidas como la Prueba de Aprovechamiento de Stanford (1923) para alumnos de primaria y el Examen de Contenido de Educación Superior de Iowa (1924). En 1926 la Prueba de Aptitudes Académicas de opción múltiple reemplazó a las pruebas de ensayo que previamente habían sido aplicadas por el Consejo de Examen de Ingreso a la Universidad (Donlon, 1984). El nuevo formato de opción múltiple, junto con la invención de máquinas de calificación automatizada, dio lugar a un rápido incremento en el uso de pruebas estandarizadas para la evaluación del aprovechamiento de los alumnos.

Más que haber sido motivado únicamente por intereses educativos y científicos, el crecimiento en la producción de exámenes de aprovechamiento en Estados Unidos puede atribuirse en parte al hecho de que ambos lados de un debate público sobre las escuelas públicas encontraron que la defensa y los resultados de la examinación eran políticamente útiles (Levine, 1976). Incluso hoy, la administración de pruebas estandarizadas en las escuelas sigue teniendo ramificaciones políticas significativas. El debate sobre las pruebas nacionales en las materias de educación básica (lectura, matemáticas, etc.) es ilustrativo de la política estadounidense contemporánea sobre la examinación.

Pruebas de ensayo y pruebas objetivas
A pesar de cientos de estudios de investigación, la cuestión de los méritos relativos de las pruebas de ensayo y las pruebas objetivas nunca se ha resuelto por completo. De hecho, a menudo se afirma que los maestros actuales se han excedido en el uso de las pruebas objetivas hasta llegar al detrimento de las habilidades de composición de los estudiantes. No obstante, es claro que las pruebas objetivas diseñadas con cuidado pueden medir no sólo la memorización de acontecimientos, sino también muchos de los objetivos más complejos de la instrucción que en otro tiempo se pensaba sólo podían ser evaluados mediante exámenes de ensayo. En las décadas pasadas se ha observado una tendencia notable hacia las pruebas que evalúan la obtención de objetivos instruccionales de orden superior, como la aplicación, el análisis y la evaluación. Otra tendencia ha sido la de alejarse de las pruebas estandarizadas de aprovechamiento que intentan medir el logro individual en objetivos educativos amplios y aproximarse a las pruebas diseñadas de manera específica para textos y programas de enseñanza particulares. Por último, en respuesta a la crítica de que las pruebas objetivas alientan una redacción deficiente y una autoexpresión inadecuada, ahora se concede mayor énfasis a las pruebas estandarizadas de ensayo de la expresión escrita. En un intento por ampliar la evaluación del aprovechamiento del estudiante, también se utilizan pruebas de respuesta construida en matemáticas y ciencia, protocolos de experimentos de laboratorio y portafolios del trabajo (Aiken, 1998, capítulo 5; Linn,, 1992).

Propósitos y funciones de las pruebas de aprovechamiento
La función básica de las pruebas de aprovechamiento es determinar cuánto saben las personas acerca de ciertos temas o qué tan bien pueden desempeñar ciertas habilidades. Éste es el primer propósito mencionado en la tabla 6.1. Los resultados de las pruebas de aprovechamiento informan a los estudiantes, así como a los maestros y padres, acerca de sus logros y deficiencias escolares. Otras funciones de las pruebas de aprovechamiento incluyen proporcionar información para la ubicación avanzada, la acreditación de cursos y la certificación. Esas pruebas también pueden estimular el aprendizaje de los estudiantes, proporcionar a los maestros y al personal administrativo información para planificar o modificar el currículo de un estudiante o grupo de estudiantes, y servir como medio de evaluación del programa instruccional y el equipo. Las pruebas sólo miden una muestra de los logros educativos, pero se supone que esa muestra es representativa de una materia o grado particular.

TABLA 6.1 Los muchos propósitos de las pruebas de aprovechamiento
1. Evaluación de la competencia lograda
2. Diagnóstico de las fortalezas y debilidades
3. Asignación de calificaciones
4. Certificación y promoción
5. Ubicación avanzada y crédito por examinación
6. Evaluación del currículo y el programa
7. Responsabilidad8. Información para la política educativa
Fuente: Linn, R. L. (1992). Achievement testing. En M. C. Alkin (editor), Encyclopediaof educational research (6aedición, págs. 1-12. Nueva York: Macmillan

Es evidente que las pruebas de aprovechamiento no son el único método para determinar la efectividad de la instrucción, pero proporcionan medidas de la calidad de la educación y, por ende,pueden contribuir a su mejoramiento. Por lo menos, las calificaciones en las pruebas de aprovechamiento sirven como señales para alertar a maestros, personal administrativo y padres acerca de las necesidades instruccionales de los estudiantes a nivel individual y colectivo (Ansley, 1997).

Las pruebas de aprovechamiento no pueden evaluar todos los objetivos o metas adoptadas por los filósofos educativos. Esas pruebas no miden de manera directa variables afectivas como el deleite y la confianza en el pensamiento, el interés en la materia educativa, el placer al usar las habilidades, el disfrute de la lectura, el aprender a aprender y a afrontar el cambio o el desarrollo de habilidades interpersonales y sociales. Lo que pueden medir, y con mayor precisión que los juicios de los maestros u otras evaluaciones subjetivas, es el grado en el que los estudiantes han alcanzado ciertos objetivos cognoscitivos de instrucción (Levine, 1976).

Pruebas donde hay mucho en juego y donde hay poco en juego
Los resultados de los exámenes pueden usarse con propósitos múltiples que conciernen tanto a individuos como a grupos. Por ejemplo, en los contextos educativos, las pruebas pueden supervisar el aprovechamiento del estudiante y evaluar la efectividad de los programas educativos. El grado en el que las decisiones aportadas por los resultados de una prueba impactan o acarrean consecuencias importantes para estudiantes y grupos se conoce como lo que está en juego en la prueba. Dichas decisiones pueden involucrar el diagnóstico de que un estudiante tiene una discapacidad de aprendizaje, el programa educativo apropiado para un estudiante con tal discapacidad, la ubicación de un estudiante en un programa para superdotados y talentosos, y la promoción o graduación de un estudiante de bachillerato. Otras decisiones importantes a las que contribuyen las pruebas son la admisión a cierta institución, la ubicación en un programa deseado, la obtención de una beca y la certificación o licencia profesional (Heubert y Hauser, 1999).

En contraste con las pruebas donde hay mucho en juego, las pruebas donde hay poco en juego consisten en la aplicación de un examen sólo con propósitos informativos o para juicios altamente tentativos. Por ejemplo, los resultados pueden utilizarse sólo para supervisar el progreso académico y proporcionar retroalimentación sobre ese progreso a los estudiantes, maestros y padres, sin que ello implique tomar una decisión específica (American Educational ResearchAssociation et al., 1999).

Sea cual sea el propósito para el que puedan usarse y que estén involucradas decisiones donde hay mucho o poco en juego, es importante que todos los instrumentos psicométricos midan lo que están diseñados para medir, y que lo hagan de manera confiable. Sin embargo, cuando los resultados de una prueba se utilizan para tomar decisiones en las que hay mucho en juego y pueden tener efectos importantes en la vida de los estudiantes, es particularmente importante que la calidad de la prueba (validez, confiabilidad, estandarización y cosas similares) sea tan alta como sea posible. Debe tenerse extremo cuidado al aplicar y calificar la prueba, y los resultados deben interpretarse de manera correcta. También debe tenerse en cuenta el contexto en el cual se toman las decisiones a partir de las calificaciones.

Pruebas elaboradas por el maestro y pruebas estandarizadas
Las pruebas estandarizadas de aprovechamiento representan sólo una fracción de la cantidad de pruebas aplicadas en la escuela; los estudiantes pasan mucho más tiempo presentando pruebas elaboradas por el maestro que pruebas estandarizadas (Dorr-Bremme y Herman, 1986). Sea como sea, los propósitos o funciones de las pruebas de aprovechamiento descritos en los párrafos precedentes se aplican tanto a las pruebas administradas en el aula y preparadas por los maestros como a las estandarizadas elaboradas por profesionales en la medición educativa.

Las pruebas preparadas por el maestro difieren de las estandarizadas en ciertos aspectos importantes. Las primeras son más específicas para un maestro en particular, un salón de clases y una unidad de instrucción, y son más sencillas de mantener actualizadas que una prueba estandarizada.En consecuencia, es más probable que una prueba elaborada por el maestro refleje los objetivos educativos vigentes en una escuela o para un maestro en particular. Por otro lado, las pruebas estandarizadas se elaboran alrededor de un núcleo de objetivos educativos comunes a muchas escuelas diferentes. Esos objetivos representan los juicios combinados de expertos en la materia, quienes cooperan con los especialistas en la elaboración de pruebas para desarrollar estos instrumentos. Las pruebas estandarizadas de aprovechamiento también se interesan tanto o más en la comprensión y los procesos de pensamiento como en el conocimiento factual. De este modo, las pruebas preparadas por el maestro y las estandarizadas son complementarias más que métodos opuestos de evaluar el aprovechamiento. Miden cosas algo diferentes pero de igual importancia y, dependiendo de los objetivos del aula o escuela en particular, deben emplearse ambos tipos de pruebas. Cuando una prueba estandarizada particular no evalúa las metas educativas de cierto sistema escolar, deben considerarse otras pruebas estandarizadas o incluso una prueba elaborada por el maestro.

Además de elaborarse con mayor cuidado y de tener una cobertura de contenido más amplia que las pruebas preparadas por el maestro, las pruebas estandarizadas de aprovechamiento tienen normas y por lo general son más confiables. Por esas razones, las pruebas estandarizadas de aprovechamiento son particularmente útiles al comparar a alumnos de manera individual con el propósito de ubicación en la clase, así como en la evaluación de diferentes programas de estudio mediante la valoración de los logros relativos de escuelas y distritos diferentes. La función diagnóstica de una prueba, por medio de la cual se determinan las capacidades y discapacidades de una persona en cierta materia o área, puede ser cumplida por las pruebas preparadas por el maestro y por las estandarizadas. Sin embargo, las pruebas estandarizadas son algo más efectivas para este propósito. Las decisiones que atañen a la individualización de la enseñanza, a la ubicación de los estudiantes en niveles particulares de instrucción y a la educación terapéutica, por lo general se toman sobre la base de las calificaciones obtenidas en pruebas estandarizadas más que en las preparadas por el maestro.

Responsabilidad
Las calificaciones de las pruebas se han empleado no sólo para evaluar el desempeño de los estudiantes, sino también para evaluar a los maestros y las escuelas. El hacer que los maestros rindan cuentas de su grado de éxito al enseñar a los estudiantes, o responsabilidad, ha sido un tema controvertido en la educación durante muchos años. ¿Deben los maestros, a quienes por lo general no seles permite seleccionar a sus estudiantes, pero que deben tratar de enseñar a todos los que se les asignan, ser recompensados sólo cuando alcanzan los objetivos instruccionales y no ser recompensados o incluso ser penalizados cuando no lo logran? Como resultado de la creciente preocupación pública por el fracaso de las escuelas para hacer un trabajo adecuado al educar a los estudiantes, se ha prestado particular atención a la responsabilidad por la efectividad de la enseñanza. En los sectores público y privado se han hecho intentos por responsabilizar a los maestros del aprendizaje de los estudiantes. De conformidad con esos esfuerzos, se especifican las competencias que los estudiantes deben alcanzar para completar un grado o curso de estudio o para graduarse del bachillerato. La evaluación de la efectividad de la instrucción se basa luego en la obtención de esas competencias, según lo indican en gran medida las calificaciones en las pruebas de aprovechamiento.

Por desgracia, muchos estudiantes y padres ven la educación formal desde una perspectiva más bien estrecha de vendedor-consumidor, en la cual las escuelas son vistas como mercados que “venden” productos educativos a los clientes estudiantes. Dicha perspectiva hace recaer la responsabilidad del aprendizaje del estudiante casi por completo en los maestros, los materiales educativos y la estructura y dinámicas de las organizaciones en las que tiene lugar el aprendizaje. Sin embargo, los maestros saben que es difícil, si no imposible, enseñar a estudiantes que no están interesados en aprender la materia y/o que no aceptan parte de la responsabilidad por su propia educación. De este modo, además de la responsabilidad del maestro, es necesario enfatizar la importancia de la responsabilidad del estudiante y de la responsabilidad de los padres para hacer efectivo el proceso de aprendizaje.

La siguiente carta de un maestro de octavo grado es informativa:

Les pedí a los estudiantes de octavo grado en tres clases de matemáticas que levantaran la mano si habían planeado asistir a un colegio o universidad luego de su graduación de bachillerato. Con excepción de dos o tres estudiantes en cada grupo, todos los demás levantaron la mano. Aun así, aproximadamente la mitad de quienes dijeron que tenían planeado seguir con la educación superior no se habían molestado en terminar la tarea de matemáticas. Muchos habían estado demasiado ocupados viendo televisión, jugando video juegos, hablando por teléfono, visitando amigos, haciendo compras o caminando por las calles en busca de algo qué hacer. En lugar de culpar a los maestros, administradores y exámenes de ingreso a la universidad por los fracasos personales, es tiempo de que los estudiantes y sus padres acepten la responsabilidad por sus éxitos o fracasos educativos. Los padres que asignan un gran valor al aprendizaje y enseñan autodisciplina, respeto por los demás, integridad personal y simplemente trabajar duro, tienen hijos con mayor probabilidad de adquirir la autoconfianza y las habilidades necesarias para lograr sus metas futuras (US News, 30 de abril de 2001).

Contrato de desempeño
La responsabilidad se asocia con el contrato de desempeño, es decir, con hacer que los salarios de los profesores se establezcan en proporción a su efectividad en la enseñanza. Un criterio importante de la efectividad en la enseñanza consiste en cambios del pretest al postest en el conocimiento o la competencia del estudiante. Al usar las pruebas para determinar el grado en que los maestros han cumplido un contrato para enseñar el material educativo a los estudiantes, se aplican las mismas pruebas u otras equivalentes al inicio y al final de una unidad instruccional o un curso. En consecuencia, entre mayores sean los avances en el aprovechamiento de un estudiante del pretest al postest, mayor será el salario del maestro. Por desgracia, un resultado frecuente dela aplicación de exámenes antes y después es que se presta demasiada atención al contenido de las pruebas a expensas de otros objetivos instruccionales importantes.

Cuando se combinan con otras medidas del desempeño, las calificaciones de las pruebas de aprovechamiento pueden y deben contribuir a tomar las decisiones concernientes a la responsabilidad y el contrato de desempeño, pero tienen limitaciones definidas cuando se usan con este propósito. Puede parecer como si la determinación de la importancia de las diferencias o cambios en las calificaciones de la prueba no presentara problema. Supuestamente, todo lo que necesitamos hacer es restar las calificaciones del pretest a las del postest y analizar las diferencias de la manera que se considere apropiada. Sin embargo, un problema con este enfoque es que la diferencia en las puntuaciones crudas puede ser muy poco confiable. Esto es particularmente cierto cuando los coeficientes de confiabilidad de las calificaciones del pretest y del postest son bastante bajos, aunque sean más altos que la confiabilidad de la diferencia de las calificaciones.Otro problema estadístico encontrado al analizar la diferencia de las puntuaciones es la regresión hacia la media, que es la tendencia a que los examinados cuyas calificaciones en el pretest sonmuy bajas o muy altas obtengan en el postest calificaciones más cercanas a la media. El uso de la diferencia regresada de las calificaciones a menudo se recomienda como una forma de tratar con la regresión a la media, pero dicho procedimiento no siempre es aconsejable. Se han propuesto procedimientos estadísticos más complejos para analizar los cambios en las calificaciones de la prueba, pero todos tienen limitaciones de un tipo u otro.

Evaluaciones sumatoria y formativa
La práctica tradicional demanda aplicar una prueba de aprovechamiento al final de una unidad instruccional o de un curso para determinar si los estudiantes alcanzaron los objetivos educativos especificados. En este procedimiento, conocido como evaluación sumatoria, la calificación en una prueba se ve como un producto final, o suma, de unidades extensas de experiencia educativa. Encontraste con la evaluación sumatoria, la necesidad de evaluación formativa se deriva de la creencia de que la instrucción y la evaluación deberían estar integradas. El propósito de la evaluación formativa es “ayudar tanto al aprendiz como al profesor a centrarse en el aprendizaje particular necesario para avanzar hacia el dominio” (Bloom, Hastings y Madaus, 1971, p. 61). Cuando la evaluación es formativa, las pruebas y otros métodos de evaluación del progreso educativo se aplican de manera continua durante el proceso de instrucción. Se desarrollan unidades instruccionales que incluyen los exámenes como parte integral y progresiva de la instrucción, en lugar de ser una simple culminación del proceso. De esta forma, el desempeño del aprendiz se supervisa a lo largo dela secuencia instruccional y puede servir para dirigir la revisión y el aprendizaje ulterior.

Medición con referencias a normas y a criterio
De manera tradicional, la medición educativa no sólo ha sido sumatoria más que formativa, sino que también se ha referido a normas más que a criterios. La calificación de una persona en un prueba con referencia a normas se interpreta comparándola con la distribución de calificaciones de un grupo de norma (estandarización) particular. Pero la calificación de una persona en una prueba con referencia a criterio se interpreta comparándola con un estándar o criterio establecido de desempeño efectivo. Este estándar puede ser formulado a partir del consenso de un grupo de personas relacionadas con todas las carreras de la vida que se interesan en la educación—profesores y personal administrativo, padres, expertos en medición y políticos. En términos del contenido, las pruebas con referencia a normas suelen ser más amplias y contener tareas más complejas que las pruebas con referencia a criterio. En consecuencia, las diferencias individuales en las calificaciones de una prueba con referencia a normas tienden a ser más extensas que las de una prueba con referencia a criterio.
A pesar de las diferencias en el propósito y diseño de las pruebas con referencia a normas y con referencia a criterio, una prueba particular de aprovechamiento puede funcionar de ambas maneras. Con frecuencia es posible determinar con el mismo instrumento cuánto material ha aprendido un estudiante (función referida a criterio) y cómo se compara su desempeño con el de otros estudiantes (función referida a normas) (Carver, 1974).

Se dispone de pruebas con referencia a criterio diseñadas para medir el aprovechamiento en una sola materia, digamos lectura o matemáticas, así como de baterías completas de estas pruebas.Otro producto ofrecido por ciertas compañías editoras de exámenes son las pruebas de una sola materia combinadas con estrategias instruccionales adecuadas para cada materia. Varias compañías dedicadas a la examinación también preparan pruebas con referencia a criterio elaboradas según ciertas especificaciones, o tienen disponibles bancos de reactivos con referencia a criterio en diversas materias. Esas pruebas elaboradas según especificaciones tienen la ventaja de estar adaptadas a los objetivos de un sistema escolar en particular, pero también tienen varias desventajas.Además del problema de decidir sobre una calificación aceptable para aprobar o el nivel de dominio en cada prueba, la necesidad de un gran número de subpruebas para medir muchos objetivos educativos diferentes requiere que cada subprueba sea relativamente corta; por ende, su confiabilidad es bastante baja. Además, no se ha resuelto del todo el problema de cómo determinar la con-fiabilidad y validez de las diversas sub pruebas y de la prueba como un todo (Taylor y Lee, 1995).

Evaluación Nacional del Progreso Educativo
En Estados Unidos, ciertas pruebas de aprovechamiento se administran sobre una amplia base escolar, distrital o estatal para evaluar el progreso educativo de los estudiantes y supervisar la efectividad a largo plazo de programas educativos particulares. Los resultados de dicho sistema de examinación se presentan en los medios y a menudo se emplean para apoyar la acción legislativa y los gastos concernientes a la educación pública. Aunque se administra una serie de pruebas de aprovechamiento a nivel nacional, de manera periódica se efectúan pruebas distritales de aprovechamiento para evaluar el estatus educativo de muestras representativas de estudiantes encada estado. Las pruebas administradas por la Evaluación Nacional del Progreso Educativo están próximas a merecer esta distinción.

Un enfoque con referencia a criterio ha conducido a la Evaluación Nacional del Progreso Educativo (NAEP), también conocida como La Boleta de Calificaciones de la Nación. La NAEP es un estudio continuo, a nivel nacional, del conocimiento y las habilidades, capacidades intelectuales y actitudes de los jóvenes estadounidenses. Su propósito declarado “es mejorar la efectividad de las escuelas de nuestra nación al poner a disposición de los responsables de la política a nivel nacional, estatal y local información objetiva acerca del desempeño de los estudiantes en áreas selectas de aprendizaje” (Public Law 100-297, sección 3401). Desde 1969, la NAEP ha evaluado periódicamente las habilidades de grandes muestras de estadounidenses en cuatro grupos de edad (9, 13, 17 y de 25 a 35 años) en lectura, matemáticas, ciencia, redacción, historia de Estados Unidos, geografía y artes.

En la NAEP nacional se ha utilizado un procedimiento de muestreo aleatorio estratifica-do para seleccionar a cierto número de personas de cada género, nivel socioeconómico y raza de cuatro regiones geográficas y cuatro tipos de comunidades. Aunque se plantean muchas preguntas concernientes a cada tema, el hecho de que se muestrean tanto los examinados como los reactivos permite que sólo se necesite un periodo de prueba relativamente corto (50 minutos) por persona. A los adultos se les evalúa de manera individual, y a las personas más jóvenes tanto de manera individual como en grupo. Como los resultados se expresan en términos de los porcentajes de personas en cada grupo de edad que poseen ciertas habilidades y conocimiento, los nombres de esas personas no aparecen en los documentos de la prueba. Los resultados se presentan para la nación como un todo y para regiones geográficas específicas. Los resultados a largo plazo en matemáticas, ciencia y lectura se obtienen para las edades de 9, 13 y 17 años, y en redacción para los grados cuarto, octavo y undécimo.
Desde 1990, las evaluaciones de la NAEP también se han realizado de manera voluntaria a nivel estatal. Se seleccionan muestras separadas representativas de estudiantes para cada jurisdicción o estado participante, pero los resultados no son representativos del estado en general.
La NAEP fue planificada como un programa continuo para proporcionar al público estadounidense, y en especial a los legisladores y educadores, información sobre el estado y crecimiento de los logros educativos en Estados Unidos y sobre el grado en que se están alcanzando las metas educativas de esa nación. No fue diseñada, como algunos han temido, para evaluar los logros de escuelas o distritos escolares específicos o como un medio de control federal sobre los programas de las escuelas públicas. Sin embargo, los hallazgos han sido analizados por área geográfica, tamaño y tipo de comunidad, género, educación de los padres y grupo étnico. De particular interés son los análisis de los efectos del apoyo federal y de tipos específicos de programas sobre los logros educativos.

TIPOS Y SELECCIÓN DE LAS PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS
Existen cuatro tipos de pruebas de aprovechamiento estandarizadas: baterías de pruebas de estudio, pruebas de estudio en materias especiales, pruebas de diagnóstico y pruebas de pronóstico. Algunas son pruebas individuales diseñadas para aplicarse a una persona a la vez, pero la gran mayoría son pruebas colectivas que pueden aplicarse a cualquier número de personas al mismo tiempo. El mercado para pruebas muy especializadas en un área temática particular es más bien limitado, por lo que las pruebas estandarizadas de aprovechamiento por lo regular cubren áreas amplias de contenido y tratan con materias de conocimiento general. Debido a que el currículo se vuelve más especializado en los niveles superiores, la administración de pruebas estandarizadas de aprovechamiento es menos común después de la secundaria.

Baterías de pruebas de estudio
La forma más integral de evaluar el aprovechamiento es aplicando una batería de pruebas de estudio, que es un conjunto de pruebas sobre una materia diseñadas para un nivel particular. El propósito principal de aplicar una batería de pruebas es determinar la posición general de un individuo en varias materias, más que medir sus fortalezas y debilidades específicas. En consecuencia, cada prueba de una batería de estudio contiene una muestra bastante limitada del contenido y las habilidades de una materia en particular. Como todas las pruebas de una batería se estandarizan en el mismo grupo de personas y las calificaciones se expresan en la misma escala numérica, el desempeño de una persona en diferentes materias puede compararse de manera directa.

Aunque las baterías de pruebas proporcionan una evaluación más amplia del aprovecha-miento de los alumnos que las pruebas sencillas, tienen una serie de desventajas. A pesar de que el tiempo total de administración de una batería es más largo, las pruebas son más cortas que las pruebas de estudio sencillas por lo que su confiabilidad suele ser menor. Por supuesto, no es necesario administrar todas las pruebas de una batería a un grupo dado de estudiantes; el examinador puede decidir administrar sólo las pruebas que proporcionen información relevante relacionada con las metas específicas de la evaluación.

Pruebas de estudio de una sola materia
Las pruebas de una sola materia por lo general son más largas y más detalladas que las pruebas comparables en una batería, por lo que permiten una evaluación más pormenorizada del aprovechamiento en un área específica. Las pruebas de una sola materia arrojan regularmente una calificación global y quizás un par de subcalificaciones, y no fueron diseñadas para identificar causas específicas de alto o bajo desempeño en la materia. Debido a la mayor uniformidad existente entre las diferentes escuelas en lo que toca a la instrucción de la lectura y las matemáticas más que en otras materias, las pruebas estandarizadas en esas dos áreas tienden a ser más válidas que, por ejemplo, las pruebas en ciencia y ciencias sociales.

Pruebas de diagnóstico
Estas pruebas tienen la función diagnostica de identificar dificultades específicas en el aprendizaje de una materia. Para elaborar una prueba de diagnóstico en una habilidad básica como lectura, aritmética u ortografía, se analiza el desempeño en la materia como un todo en sub habilidades,y luego se elaboran grupos de reactivos para medir el desempeño en esas subhabilidades. A diferencia de las pruebas de estudio, que se concentran en las calificaciones totales, las pruebas de diagnóstico generan calificaciones en cada una de varias subhabilidades. Como las diferencias entre calificaciones en las diversas partes de las pruebas se interpretan al hacer diagnósticos, el número de reactivos para medir una subhabilidad particular debe ser suficiente para asegurar que las diferencias entre las calificaciones de las partes sean confiables. Por desgracia, el número de los reactivos que componen las calificaciones de las partes a menudo es pequeño y las calificaciones delas partes se correlacionan, lo que da por resultado que las diferencias de las calificaciones tengan poca confiabilidad.

La mayoría de las pruebas de diagnóstico son de lectura, pero también se dispone de estas pruebas en matemáticas, ortografía y lenguas extranjeras. Una prueba de diagnóstico contiene una mayor variedad de reactivos y, por lo general, su administración se lleva más tiempo que una prueba de estudio de la misma materia. Las pruebas de diagnóstico también pueden implicar el uso de aparatos especiales, como un taquitoscopio, para presentar el material de lectura sólo por un periodo breve, y la cámara de movimientos oculares para seguir la dirección en que se mue-ven los ojos al leer.

Ciertas pruebas de estudio de administración individual, o pruebas globales, también se utilizan con propósitos de diagnóstico educativo. Algunos ejemplos son la Prueba de Aprovechamiento Educativo de Kaufman y la Prueba de Aprovechamiento Individual de Peabody, Revisada. Aún más globales en sus propósitos de diagnóstico son las Pruebas de Aprovechamiento de Woodcock-Johnson III, una batería de pruebas de habilidades múltiples de administración individual diseñada para medir la habilidad intelectual general, habilidades cognoscitivas específicas, lenguaje oral y aprovechamiento académico de individuos de entre 2 y 90 años de edad.

La administración de una batería de pruebas de estudio es un primer paso razonable en un programa de examinación porque proporciona una imagen global de la posición de una persona en varias materias. Si se necesita una segunda evaluación del aprovechamiento de una persona en un área particular, puede administrarse una sola prueba de la materia específica. Por último, si se requiere hacer un análisis detallado de la discapacidad de una persona en lectura o matemáticas y determinar las causas de la discapacidad, debe administrarse una prueba de diagnóstico.

Pruebas de pronóstico
Las pruebas de pronóstico, al igual que las pruebas de aptitud, contienen una mayor variedad de reactivos que las pruebas de estudio del aprovechamiento en la misma materia, ya que están diseñadas para predecir el aprovechamiento en materias escolares específicas. Por ejemplo, el propósito de una prueba de preparación para la lectura aplicada a un alumno de jardín de niños o de primer grado es predecir si el niño está preparado para beneficiarse de la enseñanza de la lectura. A un nivel superior, se dispone de pruebas de pronóstico en matemáticas (álgebra, geometría)y en lenguas extranjeras con el fin de predecir la facilidad para el aprendizaje de esas materias.

Selección de una prueba estandarizada
La selección de una prueba estandarizada de aprovechamiento básicamente es cuestión de encontrar un instrumento con un contenido que se ajuste a los objetivos instruccionales de una organización, clase, escuela o sistema escolar particular. Esto significa que el nivel de conocimiento o habilidad de los examinados y el contenido y objetivos del currículo deben de-terminarse antes de decidir qué prueba(s) administrar. Además, deberán considerarse las razones para administrar la prueba y la forma en que van a usarse las calificaciones; no tiene sentido administrar una prueba simplemente porque “parece buena” y luego dejar que los resultados no utilizados se empolven en una gaveta o en un armario.

Propósitos y consideraciones prácticas. El manual que acompaña a una prueba por lo regular proporciona detalles sobre sus usos potenciales (evaluación, ubicación, diagnóstico de las discapacidades de aprendizaje, preparación para aprender, evaluación del currículo) y cita evidencia de apoyo. En consecuencia, antes de seleccionar una prueba deben aclararse las formas específicas en que van a usarse las calificaciones y consultarse los manuales de la prueba para determinar qué instrumentos son apropiados para esos propósitos. Además de leer el manual, los posibles usuarios deben examinar una copia de la prueba e incluso resolverla para determinar si es adecuada para sus propósitos. Algunas empresas también publican muestras de las pruebas que editan, las cuales constan de un folleto de la prueba, una hoja de respuestas, un manual, una clave de calificación y otros materiales asociados. También pueden solicitarse catálogos de pruebas. Esos materiales son útiles para decidir qué pruebas administrar. La mayoría de las compañías de pruebas también tienen sitios Web en los que describen sus propósitos, productos y servicios (vea el apéndice C).

Otra cosa que debe considerarse al seleccionar una prueba es el grado de cooperación que puede esperarse de la escuela u otra organización al administrarla e interpretar los resultados.También son de importancia cuestiones prácticas como costo y tiempo de aplicación, calificación y análisis de los resultados. Los servicios de calificación por medio de una máquina proporcionados por firmas comerciales de pruebas facilitan en gran medida los procesos de calificación y análisis y, por lo común, son de un costo bastante razonable.

Confiabilidad, validez y normas. Las características estadísticas de las pruebas de aprovechamiento suelen pasarse por alto al momento de seleccionar una prueba de este tipo, pero es crucial atender este aspecto. La confiabilidad de la mayoría de las pruebas de aprovechamiento se ubica entre .80 y .90, pero el significado de esos altos coeficientes depende de los procedimientos con que se obtuvieron. Un coeficiente de formas paralelas es preferible a un coeficiente de test-retest o a uno de consistencia interna porque es más probable que los dos últimos estén inflados por el error de medición. Para decidir si una prueba de aprovechamiento es válida, debe obtenerse evidencia de su validez de contenido comparando éste con los objetivos del programa instruccional de interés. Un manual de la prueba preparado adecuadamente describe el sistema para clasificar el contenido y los objetivos conductuales utilizados al elaborar la prueba,y los usuarios potenciales deben decidir si esos objetivos corresponden a los suyos. Cuando se administra una prueba con el propósito de predecir el aprovechamiento posterior, como sucede con una prueba de preparación para la lectura u otra prueba de pronóstico, también es importante obtener evidencia de su validez predictiva.

Además de la confiabilidad y la validez, antes de seleccionar una prueba también debe examinarse si las normas son adecuadas y apropiadas. La mayoría de las pruebas de aprovechamiento bien elaboradas se estandarizaron en muestras (estadounidenses) nacionales representativas,en ocasiones estratificadas de acuerdo con edad, sexo, región geográfica, posición socioeconómica y otras variables relevantes. Los compradores de la prueba que planean presentar las calificaciones en términos de esas normas deben asegurarse de que las características del grupo de norma son similares a las de los estudiantes que van a examinarse. Para propósitos de ubicación y otras comparaciones dentro de una escuela o sistema escolar determinado, las normas locales pueden ser incluso más significativas que las nacionales.

Los usuarios de las pruebas estandarizadas de aprovechamiento también deben estar al tan-to de que, al trazar el progreso académico de un estudiante por medio de calificaciones normadas en una prueba estandarizada de aprovechamiento aplicada a niveles sucesivos, se asume que los grupos de diferentes niveles en los que se estandarizó la prueba son equivalentes. Por ejemplo, los cambios demográficos en las comunidades de las que se extrajeron estudiantes de ciertas escuelas pueden producir diferencias significativas en la composición de grupos de estudiantes de diferentes niveles. Esto puede suceder debido a la llegada migratoria reciente de personas que difieren en el nivel socioeconómico, nacionalidad o grupo étnico. Si hay razones para creer que existen diferencias significativas entre los grupos de norma en variables distintas a las relacionadas con el crecimiento, entonces las calificaciones normadas por grado, de rango percentilar o estándar obtenidas por un estudiante en una prueba no pueden compararse con precisión entre los niveles.

Al adquirir una prueba es importante no dejarse engañar por su nombre. Los usuarios de pruebas experimentados están bien conscientes de que es un error suponer que instrumentos con el mismo nombre miden la misma cosa e instrumentos que tienen nombres diferentes miden cosas distintas. Antes de decidir qué pruebas de aprovechamiento adquirir, tanto los usuarios novatos como los experimentados pueden beneficiarse de consultar The Mental Measurements Yearbook, Test Critiques y las revisiones de pruebas en revistas profesionales y otras fuentes.

BATERÍAS DE PRUEBAS DE APROVECHAMIENTO
Las baterías de pruebas de aprovechamiento representan esfuerzos por medir las amplias capacidades y habilidades cognoscitivas cultivadas por las experiencias educativas en áreas centrales. Estas baterías de pruebas de niveles múltiples evalúan destrezas básicas en lectura, matemáticas,lenguaje y, a los niveles apropiados, habilidades de estudio, ciencias sociales y ciencia.

Es posible encontrar descripciones de baterías de pruebas de aprovechamiento que están comercialmente disponibles en las diversas ediciones de The Mental Measurements Yearbook,Tests in Print, Tests y Test Critiques, así como en los catálogos de los editores de pruebas. Tales baterías fueron diseñadas para evaluar el aprovechamiento educativo formal de estudiantes desde el jardín de niños hasta bachillerato, con énfasis en los años de primaria y secundaria.

Los programas de exámenes de muchas escuelas se basan en las baterías de pruebas de aprovechamiento aplicadas en otoño y primavera a sus alumnos con el propósito de medir el logro y el progreso educativo general. Los resultados de estas pruebas son de interés para los maestros, padres, personal administrativo, miembros de los consejos escolares, líderes políticos y, por supuesto, para los estudiantes. Una limitación del uso de baterías es que algunas de las pruebas pueden no corresponder a los objetivos particulares de la escuela o sistema escolar. Además, no todas las pruebas en una batería determinada tienen igual confiabilidad o la misma validez de contenido.

Normas de una batería de pruebas
Debido a que las diversas subpruebas de un nivel particular en una batería de pruebas de aprovechamiento se estandarizaron en el mismo grupo de personas, el conjunto unificado de normas resultantes permite la evaluación directa del aprovechamiento relativo de una persona en varias áreas temáticas. Además, si puede asumirse que diferentes niveles de una batería de pruebas se estandarizaron en grupos comparables de estudiantes, entonces el progreso cognoscitivo del alumnado puede trazarse comparando sus calificaciones en las pruebas que componen la batería a lo largo de un periodo de varios años. Sin embargo, esto no debe hacerse cuando existe alguna duda acerca de la equivalencia o posibilidad de comparación de las diferentes muestras de nivel de los estudiantes en los que se estandarizó la batería. Además, las normas contra las que se comparan las calificaciones de los estudiantes deben haberse obtenido de la aplicación de la(s)prueba(s) al grupo de estandarización en la misma época del año (otoño o primavera) en que se examine a los alumnos cuyas calificaciones están siendo evaluadas.

Contenido de las baterías de pruebas de aprovechamiento
Nivel de escuela primaria. Debido a la mayor uniformidad del contenido instruccional en la primaria, las baterías de pruebas de aprovechamiento se administran con mayor frecuencia en este nivel para evaluar el desarrollo educativo. Una batería típica para la escuela primaria consta de subpruebas sobre vocabulario de lectura, lectura de comprensión, uso del lenguaje, ortografía, aritmética básica y comprensión de la aritmética. También puede incluir subpruebas para medir habilidades de estudio, ciencias sociales y ciencia, pero al nivel de primaria se enfatiza la medición del aprovechamiento en habilidades cuantitativas y verbales básicas. Las baterías populares de pruebas de aprovechamiento para este nivel incluyen la Serie de Pruebas de Aprovechamiento de Stanford, las Pruebas de Aprovechamiento de California, la Prueba Comprensiva de Habilidades Básicas y las Pruebas de Aprovechamiento Metropolitanas. Esas baterías también contienen pruebas para niveles de jardín de niños y secundaria.

Nivel de escuela secundaria. Debido a la variabilidad en los programas académicos de diferentes estudiantes de nivel medio, las baterías de pruebas de aprovechamiento son menos útiles a este nivel. Las baterías de pruebas al nivel de escuela secundaria siguen enfatizando las habilidades básicas en lectura, lenguaje y aritmética, pero también se incluyen pruebas de ciencias sociales, ciencia y habilidades de estudio. Tanto a nivel de primaria como de secundaria, las pruebas de aprovechamiento enfatizan el desarrollo educativo general y no están vinculadas a cursos específicos en escuelas particulares. Al nivel de la educación media también son de interés baterías como las Pruebas Universitarias Estadounidenses (ACT), las cuales se administran anualmente con propósitos de admisión a la universidad. La ACT es en realidad una batería de pruebas de aprovechamiento, pero es similar a una prueba de aptitud en el hecho de que su amplio rango de contenido se relaciona menos con experiencias escolares específicas que la mayoría de las pruebas de aprovechamiento.

Pruebas de educación básica
Varias baterías de pruebas de aprovechamiento se han diseñado de manera específica para medirla competencia en las habilidades básicas de los adultos con educación inferior al nivel medio. Un ejemplo son las Pruebas de Educación Básica para Adultos (TABE) (de CTB/McGraw-Hill), las cuales constituyen una prueba de niveles múltiples estandarizada en adultos que destaca las habilidades en lectura, matemáticas y lenguaje. Otra prueba para determinar el nivel de desarrollo en lectura y aritmética de empleados o solicitantes en una amplia variedad de ocupaciones y ambientes de rehabilitación es el Índice de Lectura-Aritmética (RAI) (de NCS London House). En la figura 6.1 se presentan reactivos de muestra de esta prueba, la cual, si bien no se cronometra, se lleva alrededor de 25 minutos por cada una de sus dos partes.
A pesar de la disponibilidad de pruebas de habilidades básicas para adultos, sólo una minoría de los negocios y las industrias evalúan en realidad la alfabetización de sus empleados. En consecuencia, muchos trabajadores son funcionalmente iletrados y deben “engañar” al realizar un trabajo que requiere habilidades de lectura. Es de suponer que los ejecutivos de dichas compañías se dan cuenta de que algunos de sus empleados no pueden leer, escribir, realizar cálculos o comprender bien el idioma, pero parecen estar limitados en lo que pueden hacer acerca de esta situación. Esto es desafortunado porque los empleados analfabeta tienen mayor probabilidad de sufrir accidentes y se ven impedidos en su capacidad para avanzar en una organización.

Pruebas GED
Las Pruebas de Desarrollo Educativo General (GED) (de GED Testing Service) también son apropiadas para adultos con educación formal limitada, y son presentadas cada año por más de 800,000 adultos. Las pruebas GED fueron diseñadas para medir los logros educativos de personas con educación media o equivalente. La batería completa, que se lleva alrededor de siete horas y media, consta principalmente de reactivos de opción múltiple en cinco áreas: habilidades de redacción, ciencias sociales, ciencia, literatura y arte, y matemáticas. La prueba de habilidades de redacción también incluye un ensayo que documenta la habilidad del examinado para escribir y comunicarse de manera efectiva. En lugar de enfatizar hechos y detalles específicos, los reactivos de la GED tratan sobre conceptos amplios y generalizaciones basadas en competencias y conocimiento enseñados en los programas académicos de la secundaria. Muchas organizaciones académicas y de negocios, así como las fuerzas armadas de Estados Unidos, aceptan calificaciones en esas pruebas de diploma de equivalencia general sobre la misma base que el diploma de secundaria (vea el sitio web www.gedtest.org).

FIGURA 6.1 Muestra de reactivos del Índice de Lectura-Aritmética.

PRUEBAS DE APROVECHAMIENTO EN ÁREAS ESPECÍFICAS
La aplicación de una batería de pruebas de aprovechamiento tiene prioridad en un programa escolar de pruebas típico. Cuando se necesita más información sobre el desempeño del estudiante en una materia particular, el procedimiento usual es administrar una prueba específica en esa materia luego de la batería. Esas pruebas específicas de aprovechamiento tienen ciertas ventajas sobre pruebas comparables en una batería. Por ejemplo, el que una prueba de una batería de aprovechamiento, le da mayor probabilidad de representar de manera más adecuada los objetivos instruccionales de una amplia gama de aulas y de escuelas. Además, debido a su extensión, probablemente sea más confiable que una prueba comparable en una batería de aprovechamiento.

Una línea de una antigua canción inglesa, “Reading and writing and ‘rithmetic, taught to the tune of a hickory stick”, es un testimonio de la relevancia que han tenido esas materias a lo largo del tiempo en el programa de estudios de la escuela primaria. Se dispone de cientos de pruebas para materias específicas en lectura, matemáticas, lenguaje, ciencia, ciencias sociales, profesiones, negocios y oficios. Otras áreas en las que se han publicado pruebas estandarizadas de aprovechamiento son salud, economía doméstica, artes industriales, uso de las bibliotecas, literatura, la Biblia, música, oratoria, ortografía y educación vial. Además de las pruebas tradicionales con referencia a normas del tipo de estudio, diagnóstico y pronóstico, hay muchas pruebas con referencia a criterio en materias específicas. Más aún, el énfasis que en las décadas recientes se dio en las secundarias a las pruebas de competencia en habilidades básicas llevó a la publicación de una serie de pruebas de competencia para evaluar el conocimiento y las habilidades de estudiantes de secundaria y preparatoria en lectura, redacción y matemáticas. Esas habilidades de supervivencia se consideran esenciales para enfrentar las demandas de la vida diaria.

Pruebas de lectura
Muchas de las dificultades experimentadas por los niños en el aprendizaje de las materias escolares se relacionan con problemas en la lectura, una razón común para canalizar a un niño a evaluación psicoeducativa. Las dificultades en la lectura son acumulativas y afectan el desempeño en casi todo el trabajo escolar, por lo que es importante evaluar el nivel de lectura y diagnosticar deficiencias en esta materia de manera oportuna y regular. Debido a sus muchos usos, se administran más pruebas de lectura que cualquier otro tipo de prueba de aprovechamiento. Se dispone de varios tipos de pruebas de lectura, siendo las tres categorías principales las pruebas de estudio, pruebas de diagnóstico y pruebas de preparación para la lectura. Otras formas de clasificar las pruebas de lectura son con referencia a norma y a criterio (o ambas) y lectura en silencio y lectura oral.

Pruebas de estudio de lectura. La razón principal para aplicar una prueba de estudio de lectura es determinar la habilidad general de una persona para la lectura. Las pruebas de este tipo contienen secciones de reactivos de vocabulario y secciones de párrafos o pasajes acerca de los cuales se plantean preguntas. Se obtiene una medida del conocimiento de las palabras a partir delos reactivos de vocabulario, mientras que la velocidad y el nivel de comprensión se miden a partir de los párrafos. Algunos ejemplos de las mejores pruebas de este tipo son las Pruebas de Lectura de Gates—MacCinitie (GMRT), cuarta edición. Diseñadas para los grados K—12 y Lectura de Adultos, las dos formas (S y T) de la GMRT contienen cinco niveles: Prelectura (PL), Lectura de Principiantes (LP), 1 y 3, 3—12 y Lectura de Adultos (LA). Las habilidades de lectura de principiantes y de nivel primaria se evalúan en los niveles inferiores, y el progreso continuo en la competencia para la lectura se mide en los niveles superiores.

La mayoría de las pruebas de estudio de lectura emplean un formato de respuesta de opción múltiple, pero en la Prueba de Lectura Stanford 9 de Final Abierto se utiliza un formato abierto-cerrado o de respuesta elaborada. Otros dos ejemplos de pruebas de estudio de lectura son la Prueba de Lectura Oral de Gray, revisada, y la Prueba de Comprensión de Lectura (de pro.ed). Algunas pruebas de estudio de lectura, como el CD-ROM de la Prueba de Lectura de Nelson-Denny, pueden administrarse por medio de una computadora.

Pruebas de diagnóstico de lectura. Las pruebas de diagnóstico de lectura, que son por mucho el tipo más común de pruebas de diagnóstico, pretenden evaluar muchos factores diferentes que afectan la lectura y, por ende, descubrir la fuente de las discapacidades de los estudiantes en la materia. Entre esos factores se incluyen la coordinación ojo-mano, la percepción visual y auditiva, la comprensión de conceptos e incluso la motivación. Una prueba de diagnóstico de lectura puede contener subpruebas en discriminación visual y auditiva, vocabulario de vista y vocabulario en contexto, fonemas/grafemas, vocales y consonantes, lectura en silencio y oral, lectura de comprensión y tasa de comprensión. Como las correlaciones entre esas subpruebas a menudo son sustanciales, las diversas habilidades medidas por las pruebas de diagnóstico de lectura no son necesariamente independientes. Además, la confiabilidad de las subpruebas y de la prueba como un todo frecuentemente no es tan alta como sería deseable. Algunas pruebas representativas de esta categoría son las Pruebas de California para el Diagnóstico de la Lectura (de CTB/McGraw-Hill),las Pruebas de Stanford para el Diagnóstico de la Lectura, cuarta edición (de Harcourt Brace) y la Batería de Diagnóstico de la Lectura de Woodcock (de Riverside Publishing).

Pruebas de preparación para la lectura. Como medida del grado en que los niños poseen las habilidades y el conocimiento necesarios para aprender a leer, una prueba de preparación para la lectura con frecuencia permite formular una mejor predicción del aprovechamiento en primer grado que una prueba de inteligencia general, y requiere menos tiempo de aplicación. Las pruebas de preparación para la lectura contienen muchos de los mismos tipos de reactivos que las pruebas de diagnóstico de lectura, y ciertas pruebas de lectura contienen componentes de diagnóstico y de pronóstico.

Pruebas de matemáticas
De manera similar a las pruebas de aprovechamiento en lectura, las de aprovechamiento en matemáticas pueden clasificarse como de estudio, diagnóstico y pronóstico.

Pruebas de estudio de matemáticas. Diversos enfoques hacia la instrucción están representados por las pruebas actuales de matemáticas, incluyendo el énfasis más tradicional en los programas de matemáticas así como puntualizaciones más modernas en lo relativo a resolución de problemas, desarrollo de conceptos y razonamiento. Ciertas pruebas están diseñadas para abarcar los énfasis moderno y tradicional en los programas de matemáticas, y se dispone de instrumentos que reflejan enfoques instruccionales más especializados desde el nivel de primaria hasta el de universidad. En general, las pruebas de matemáticas con referencia a normas del tipo de estudio requieren que los estudiantes demuestren cierta comprensión de conceptos y operaciones cuantitativas y la habilidad para aplicar esta comprensión a la resolución de problemas. Las pruebas de competencia en cursos generales y específicos de matemáticas (álgebra, cálculo, trigonometría) a nivel de secundaria se encuentran disponibles en el Programa de Exámenes de Nivel Universitario (CLEP).

Pruebas de diagnóstico en matemáticas. Aunque se aplican menos que las pruebas de diagnóstico para la lectura, las pruebas de diagnóstico en matemáticas también representan intentos por descomponer una materia compleja que involucra una variedad de habilidades en los elementos que la constituyen. Los reactivos en las pruebas de diagnóstico de aritmética y matemáticas se basan en un análisis de habilidades y errores en la materia. Esas pruebas incluyen el conocimiento y las habilidades requeridos para aplicaciones que involucran numeración, fracciones, álgebra y geometría. Dos ejemplos de pruebas de diagnóstico en matemáticas son la Prueba de Stanford para el Diagnóstico en Matemáticas, cuarta edición (de Harcourt Brace) y la KeyMath, Revisa-da/NU: Un Inventario de Diagnóstico de Matemáticas Esenciales (de American Guidance Service). El primer instrumento es una prueba de grupo diseñada para diagnosticar las fortalezas y debilidades específicas en conceptos y operaciones matemáticas básicas de niños de primero a doceavo grado. KeyMath es una prueba de administración individual diseñada para medir la comprensión y aplicación de los conceptos y habilidades matemáticas básicas desde el jardín de niños hasta el noveno grado.

Pruebas de pronóstico en matemáticas. Se han diseñado varias pruebas para pronosticar el desempeño en cursos específicos de matemáticas, pero en comparación con las pruebas de pronóstico de la lectura (pruebas de preparación para la lectura), no son de uso común. Dos ejemplos son la Prueba de Pronóstico en Álgebra de Orleans-Hanna, tercera edición (de HarcourtBrace) y la Prueba de Aptitud para el Álgebra de Iowa, cuarta edición (de Riverside Publishing).Diseñada para identificar qué estudiantes tendrán éxito y cuáles enfrentarán dificultades al aprender álgebra, la Orleans-Hanna evalúa aptitud y aprovechamiento, así como el interés y la motivación para el álgebra, de estudiantes de secundaria y preparatoria. Se necesitan 40 minutos para resolver el cuestionario y los reactivos de la muestra de trabajo de la prueba. El rango percentilar y las normas del tipo estaninas se basan en tres grupos de estudiantes: los que terminaron matemáticas de séptimo grado, los que terminaron matemáticas de octavo grado y aquellos de los dos primeros grupos que terminaron un curso de un año en álgebra en el año siguiente. La Prueba de Aptitud para el Álgebra de Iowa fue diseñada para evaluar la preparación en Álgebra I de los estudiantes de séptimo y octavo grados. Sus cuatro subpruebas, cuya solución requiere un total de 50 minutos, miden las habilidades de pre-álgebra al interpretar gráficas e información matemática escrita, la traducción de problemas en palabras a un formato algebraico o de ecuaciones, la identificación de funciones y el uso de símbolos.

Pruebas de lenguaje
El lenguaje, tal como suele interpretarse el término, se refiere a cualquier forma de comunicación.Aunque las pruebas de lenguaje consisten principalmente en reactivos de tipo verbal, se han desarrollado medidas de comunicación no verbal para usar con personas que tienen problemas de audición e incluso con personas de audición normal. El lenguaje oral y el escrito se enseñan en todos los niveles y se dispone de pruebas apropiadas para todos los grados. El fracaso para entender ciertos conceptos puede actuar como barrera e impedir la comunicación entre los alumnos de preprimaria y primaria y los maestros, y en consecuencia afectar seriamente el aprendizaje de los niños. Como reconocimiento de este hecho, se diseñaron la Prueba Boehm de Conceptos Básicos, tercera edición (para grados K-2) y la Boehm-3 (para edades de tres a cinco años) para medir el dominio que tiene un niño pequeño de los conceptos básicos de espacio, cantidad y tiempo (vea la figura 6.2).

A pesar de la disponibilidad de pruebas como la Boehm, la mayoría de las pruebas de aprovechamiento en la categoría de lenguaje se diseñó para estudiantes de secundaria y universidad. Esos instrumentos, que incluyen pruebas en inglés y lenguas extranjeras, con frecuencia se aplican en el bachillerato y en las universidades con el propósito de colocar a los estudiantes en cursos de inglés o de lenguas extranjeras de acuerdo con su nivel de competencia.

Pruebas del idioma inglés. Algunas de las críticas más severas a las pruebas objetivas han ve-nido de maestros de inglés, pero por lo general se reconoce que desempeñan un buen trabajo en la medición del conocimiento de gramática y vocabulario, y, en cierto grado, de las habilidades en la expresión oral y escrita. La evaluación de las habilidades en el idioma inglés forma parte de las baterías de pruebas de aprovechamiento, pero también existen otras muchas pruebas distintas para medir la competencia en inglés.

FIGURA 6.2 Muestra de reactivos de la Prueba Boehm de Conceptos Básicos, tercera edición.

Como es evidente, escuchar, hablar y escribir forman parte del uso del inglés y se ha diseñado una serie de pruebas para medir esas habilidades. Ejemplo de una prueba de este tipo es la serie OWLS: Escala de Comprensión Auditiva, Escala de Expresión Oral y Escala de Expresión Escrita (de American Guidance Service). La resolución de cada una de esas pruebas, las cuales son apropiadas para niños y adultos jóvenes, se lleva menos de 25 minutos. La Escala de Comprensión Auditiva mide el lenguaje receptivo, la Escala de Expresión Oral mide el lenguaje expresivo y la Escala de Expresión Escrita proporciona una evaluación auténtica de las habilidades del lenguaje escrito. Las habilidades de hablar y escuchar en inglés o español pueden medirse con las Escalas de Evaluación del Lenguaje Oral (LAS-O) y las Pre-LAS 2000 (de CTB/Mc-Graw-Hill). Las escalas LAS-O se aplican de primero a duodécimo grados y las Pre-LAS a niños preescolares.

Algunos ejemplos de pruebas de escritura son la Prueba de Lenguaje Escrito-3 (TOWL-3)(de pro.ed) y el Programa de Stanford de Evaluación de la Escritura, tercera edición (de HarcourtBrace). Diseñada para estudiantes de segundo a duodécimo grados, la TOWL-3 es una medida de muestra de trabajo de respuesta libre en la cual el examinado escribe historias acerca de cierto conjunto de imágenes (vea la figura 6.3). Las historias pueden calificarse en varias variables, incluyendo tema, vocabulario, sintaxis, ortografía y estilo. La Evaluación Stanford de Escritura implica la presentación de una serie de sugerencias escritas diseñadas para provocar determina-da muestra de escritura en cada uno de cuatro modos descriptivos: descriptivo, narrativo, expositor y persuasivo. Una Lista de Verificación del Escritor proporciona recordatorios para elaborar un borrador, componerlo y editarlo. La escritura se califica en ideas y desarrollo, organización, unidad y coherencia; frases y párrafos; gramática y uso, y mecánica.

FIGURA 6.3 Muestra de imágenes de la Prueba de Lenguaje Escrito-3.El examinado construye una historia acerca de cada una de las series de imágenes como estas dos.(Reproducidas con autorización de pro.ed, Inc.)

Muchas otras pruebas de aprovechamiento como las Pruebas de Ubicación Avanzada CEEB y los Exámenes del Registro de Graduados también contienen un componente escrito (ensayo). Los estudiantes de licenciatura y de posgrado cuya lengua nativa no es el inglés pueden presentar la Prueba de Inglés Escrito (TWE) y la Prueba de Inglés Hablado (TSE). La TWE, que es aplicada por el Servicio de Pruebas Educativas junto con el TOEFL (vea líneas abajo), requiere que los examinados escriban un ensayo de 30 minutos en inglés estándar en respuesta a una breve pregunta o tema de ensayo. La TSE, que fue diseñada para medir la habilidad de hablantes no nativos del inglés para comunicarse oralmente en ese idioma, requiere que los examinados respondan de manera oral bajo condiciones temporales a una variedad de estímulos impresos y auditivos.

Los estudiantes de países extranjeros que solicitan admisión a colegios y universidades estadounidenses y cuya lengua materna no es el inglés, por lo general presentan la Prueba de Inglés como Lengua Extranjera (TOEFL). El TOEFL, un examen de opción múltiple de tres horas aplicado por el Servicio de Pruebas Educativas (ETS), consta de tres partes: Comprensión auditiva,que mide la habilidad para entender el inglés hablado; Estructura y Expresión Escrita, que mide la habilidad para reconocer el lenguaje inapropiado para el inglés estándar escrito, y Vocabulario y Lectura de Comprensión, que mide la habilidad para entender material de lectura técnico. Los estudiantes de secundaria cuya lengua materna no es el inglés, pero que desean cursar programas educativos de tiempo completo conducidos en inglés, también pueden presentar la Prueba de Dominio del Inglés de Nivel Secundaria (SLEP) (del Educational Testing Service). Otra prueba de competencia en el idioma inglés para personas cuya lengua materna no es el inglés es la Prueba de Inglés para la Comunicación Internacional (TOEIC). La prueba TOEIC, que al igual que la TOEFL y la SLEP es diseñada y administrada por el Servicio de Pruebas Educativas (ETS), es el estándar mundial para la evaluación del inglés usado en el lugar de trabajo global.

Pruebas de idiomas extranjeros. Las pruebas de estudio de la competencia en un idioma extranjero, por lo regular constan de distintas formas para estudiantes que han completado diferentes grados de preparación en ese idioma. Ciertas pruebas reflejan el enfoque gramatical más tradicional a la enseñanza del idioma, mientras que otras enfatizan la comprensión de la comunicación hablada y escrita. Las pruebas de estudio más populares de la competencia en idiomas extranjeros son los exámenes de Ubicación Avanzada del Servicio de Pruebas Educativas, los Exámenes de Materia CLEP en francés, alemán y español, y las pruebas SAT II del Consejo Universitario en esas mismas materias. También se dispone de pruebas por separado en varios idiomas en la Praxis II: Evaluaciones de Materia para Profesores Principiantes. Aunque la mayoría delas pruebas de lenguas extranjeras está limitada a la lectura y la audición, el Centro de Lingüística Aplicada administra pruebas de la habilidad para hablar chino, ha usa, hebreo, indonesio, portugués y otros idiomas.

Pruebas de ciencias sociales
Los temas en ciencias sociales, historia, economía y ciencia política generalmente se consideran en conexión con los programas de estudio de secundaria y universidad. Pero las ciencias sociales, en un sentido menos restrictivo, también se enseñan en la primaria. Entre las muchas pruebas de aprovechamiento en ciencias sociales a nivel de secundaria se encuentran los Exámenes de Colocación Avanzada del Consejo Universitario a nivel de secundaria en Economía, Gobierno y Política, Historia, Geografía Humana e Historia Mundial, y los Exámenes de Materia CLEP en Gobierno Estadounidense, Historia de Estados Unidos I y II, Principios de Macroeconomía,Principios de Microeconomía, Introducción a la psicología, Introducción a la Sociología y Civilización Occidental I y II.

Pruebas de ciencias
La enseñanza de la ciencia, al igual que la de las matemáticas, cambió de manera notoria duran-te las pasadas tres décadas, lo cual volvió obsoletas o inapropiadas para los programas actuales de ciencias muchas pruebas antiguas. El Estudio del Currículo de Ciencias Biológicas (BSCS) yel Comité de Estudio de Ciencias Físicas (PSSC) dieron lugar al diseño de pruebas específicas en biología y física. Otros programas integrales de examinación en otras ciencias, como las Pruebas Cooperativas de Química de la Sociedad Estadounidense de Química, también reflejan enfoques contemporáneos a la educación en ciencias. Esos enfoques ponen de relieve la enseñanza del contenido de la ciencia de modo que pueda ser utilizable e importante como para incidir en la toma de decisiones de la vida cotidiana. Con esta meta en mente, las pruebas en ciencias desarrolladas más recientemente requieren que los estudiantes descubran patrones en conjuntos de datos e interpreten los significados de esos patrones en lugar de limitarse a recordarlos. Muchas pruebas antiguas también han sido revisadas en un intento por evaluar el desempeño en un programa moderno o tradicional de ciencias.

Conforme los estudiantes progresan a través de la secundaria y la preparatoria, la instrucción en ciencia general, biología, química y física se vuelve más concentrada. Los Exámenes de Ubicación Avanzada del Consejo Universitario en biología, química, ciencia ambiental y física, los Exámenes de Materia CLEP en biología general, química general y crecimiento y desarrollo humano, ylas Pruebas de Materia SAT II son útiles al evaluar el conocimiento y las habilidades de estudiantes de preparatoria en campos específicos de la ciencia. Otras pruebas de ciencias para estudiantes de preparatoria y universidad incluyen los Exámenes ACS y los Exámenes de Competencia ACT.

Pruebas para la educación superior y las profesiones
Muchas instituciones de educación superior permiten que los estudiantes ganen créditos por cursos universitarios al obtener calificaciones aceptables en pruebas estandarizadas de aprovechamiento como las aplicadas por el Programa de Ubicación Avanzada del Consejo Universitario(APP), el Programa de Exámenes de Nivel Universitario (CLEP) y el Programa de Exámenes de Competencia ACT. Además, colegios, universidades y escuelas profesionales utilizan las calificaciones en las pruebas estandarizadas de aprovechamiento como criterio para la selección de estudiantes. Esas pruebas, por lo general, son restringidas o seguras en el sentido de que sólo se venden o rentan a ciertas organizaciones para su aplicación relacionada con programas educativos específicos.

Un conjunto de pruebas estandarizadas de aprovechamiento utilizadas en la selección de estudiantes para programas de posgrado lo constituyen las Pruebas de Materia de los Exámenes del Registro de Graduados (GRE). Esas pruebas, las cuales están disponibles en ocho áreas temáticas (bioquímica, biología celular y molecular; biología; química; ciencias de la computación; literatura en inglés; matemáticas; física, y psicología), pueden ser presentadas, junto con la Prueba General GRE, por estudiantes universitarios de último año que intenten solicitar admisión a la escuela de posgrado.

Otros ejemplos de pruebas estandarizadas utilizadas con propósitos de admisión a escuelas de posgrado o profesionales son la Prueba de Admisión de Administración de Graduados (GMAT), la Prueba de Admisión a la Facultad de Leyes (LSAT), la Prueba de Admisión a la Facultad de Medicina (MCAT) y las Pruebas de Aprovechamiento en Enfermería NLN. La certificación o licencia como abogado, médico, contador público, enfermera registrada, profesor o profesional en algunos otros campos también depende de aprobar una serie de pruebas de aprovechamiento (exámenes de consejo, exámenes de la barra de abogados) en el campo particular.

En Estados Unidos, 70% de los estados utiliza la Serie Praxis: Evaluaciones Profesionales para los Maestros Principiantes, como parte de su proceso para otorgar licencias a los maestros principiantes. Consta de tres partes: Praxis I: Evaluación de Habilidades Académicas, para medirlas habilidades de lectura, escritura y matemáticas que son vitales para todos los candidatos a ser maestros; Praxis II: Evaluación de Materia, para medir el conocimiento que tienen los candidatos a maestros de las materias que van a impartir, y Praxis III: Evaluaciones del Desempeño en el Salón de Clases, para evaluar el desempeño del maestro principiante en el aula. Praxis I se presenta al ingresar al programa de entrenamiento de maestros, Praxis II se presenta al graduarse de la universidad e ingresar en la profesión, y Praxis III se presenta en el primer año de enseñanza.

Pruebas para administración y oficios
La administración es una materia escolar en sí misma, y las pruebas de educación en administración están diseñadas para evaluar el conocimiento que una persona tiene de la materia. Además de evaluar el grado de logro en una materia escolar, las pruebas de aprovechamiento se utilizan en la administración y la industria con propósitos de selección, colocación y promoción. Es posible que las medidas más populares sean las pruebas de competencia en mecanografía, archivo, procesamiento de palabras, cómputo y otras habilidades de oficina. Algunos ejemplos de pruebas en esta categoría son las pruebas de Mecanografía 5 y las Pruebas de Habilidades de Oficina (de NCSLondon House) (vea la figura 6.4).

Las pruebas de conocimiento y habilidad en un oficio (pruebas de oficio) se utilizan ampliamente con propósitos de selección de empleados, colocación y otorgamiento de licencia profesional. Una prueba de oficio puede consistir en una serie de preguntas que deben responderse de manera oral o escrita, o puede ser una tarea de muestra de trabajo que requiera la demostración de una habilidad en particular. Algunos ejemplos de pruebas de oficios, o de competencia ocupacional, son las proporcionadas por el programa de Desarrollo de Recursos Humanos del Servicio de Pruebas Educativas (Chauncey). Este programa ha sido responsable del desarrollo de docenas de pruebas ocupacionales o de oficios, incluyendo exámenes de competencia para certificación o licencia como inspector de código de construcción, administrador de bases de datos, planificador financiero, funcionario del servicio exterior, arquitecto paisajista, enfermera, asistente de enfermera, farmacéutico, ingeniero en plomería, podólogo, entrenador profesional de desarrollo y contador público. Por ejemplo, en la prueba para funcionario del servicio exterior, hay un “día de evaluación” en el cual se evalúa la habilidad del candidato para tomar acciones apropiadas en cada uno de un conjunto de informes y otras comunicaciones del tipo que suele encontrarse en la bandeja de un ejecutivo, así como la capacidad para manejar una entrevista de negociación de un grupo sin líder. Es obvio que esos tipos de tareas van más allá del dominio de las pruebas de habilidad y entran en el campo de la evaluación de las actitudes y la personalidad.

FIGURA 6.4 Reactivos de muestra de la Prueba de Habilidades de Oficina.(Copyright © 1977 NCS Pearson, Inc. Todos los derechos reservados. Publicado y distribuido exclusivamente por NCS Pearson, Inc.Reproducido con autorización de NCS Pearson, Inc

RESUMEN
Se administran más pruebas de aprovechamiento —al nivel de conocimiento, habilidad o logro en un área de esfuerzo— que todos los otros tipos de pruebas combinados. En el siglo pasado adquirieron cada vez más popularidad los exámenes escritos de aprovechamiento educativo, en especial los del tipo objetivo. Las pruebas objetivas pueden medir no sólo el conocimiento de hechos, sino también la comprensión y el pensamiento de orden superior. Sin embargo, se les ha criticado por alentar habilidades pobres en la composición escrita.
Las pruebas estandarizadas de aprovechamiento reflejan objetivos educativos generales,mientras que es más probable que las pruebas elaboradas por el maestro reflejen las metas de un maestro o un sistema escolar en particular. Los resultados de las pruebas estandarizadas de aprovechamiento se utilizan para evaluar a los estudiantes con los propósitos de asignación de calificaciones, promoción, ubicación, diagnóstico de dificultades de aprendizaje, determinación dela preparación para aprender y la evaluación de los programas de estudio y la efectividad de la enseñanza (responsabilidad).

De manera tradicional, las pruebas educativas han sido sumatorias y con referencia a normas. El énfasis más reciente en la evaluación formativa, en la cual las pruebas son una parte integral del proceso instruccional, y en las pruebas con referencia a criterio es un indicador de los papeles cambiantes de las pruebas de aprovechamiento educativo. También es de importancia el uso de pruebas en la planeación y evaluación educativa a gran escala, como en la Evaluación Nacional del Progreso Educativo.
Cuatro tipos de pruebas de aprovechamiento son: pruebas de estudio de una materia, baterías de pruebas de estudio, pruebas de diagnóstico y pruebas de pronóstico. Las pruebas de estudio proporcionan una valoración global del aprovechamiento en una materia, mientras que las de diagnóstico analizan las fortalezas y debilidades específicas de una persona en una materia particular. Las pruebas de preparación, aptitud y otras pruebas de pronóstico intentan alentar el aprovechamiento determinando la habilidad de una persona para aprender cierto material.

Las fuentes de información relativas a las pruebas de aprovechamiento incluyen catálogos delos editores, reseñas en revistas profesionales, Tests in Print, The Mental Measurements Yearbooks,Tests y Test Critiques, grupos de muestras de pruebas y varios sitios Web (vea el apéndice C). La confiabilidad de la mayoría de las pruebas de aprovechamiento, determinada por procedimientos de test-retest y formas paralelas, por lo general es de .80 o .90. La evidencia de la validez de contenido suele ser de mayor interés que otros tipos de validez al evaluar las pruebas de aprovechamiento educativo.

Se dispone comercialmente de varias baterías de pruebas de aprovechamiento de niveles múltiples. Esas baterías suelen aplicarse en las escuelas de primaria y secundaria. También se aplican ampliamente pruebas de una materia en lectura, matemáticas, ciencia, ciencias sociales,inglés, lenguas extranjeras y en otras áreas. Las pruebas de estudio de lectura por lo general miden el conocimiento del vocabulario, así como la velocidad y el nivel de comprensión.

Las pruebas de diagnóstico, que están diseñadas para evaluar fortalezas y debilidades específicas en una materia particular, se encuentran en lectura, aritmética y ortografía. También se dispone de varias pruebas de pronóstico en lectura (pruebas de preparación para la lectura), matemáticas y lenguaje (pruebas de aptitud para el lenguaje).

Se dispone de pruebas de aprovechamiento en ciencias sociales (historia, economía, ciencia política) y ciencias naturales (ciencia general, biología, química, física) para una amplia gama de grados y tipos diferentes de planes de estudio. También se usan de manera extensa pruebas de admisión a escuelas de enfermería (NTE), medicina (MCAT), leyes (LSAT), administración (GMAT), enseñanza (Praxis) y otros programas profesionales, y para determinar la competencia en varias ocupaciones de administración y oficios.

PREGUNTAS Y ACTIVIDADES
1. Compare las pruebas estandarizadas de aprovechamiento con las pruebas elaboradas por el maestro,mencionando los méritos y las desventajas de cada una.

2. ¿Qué es responsabilidad en educación? ¿Cómo se relaciona la responsabilidad con el contrato de desempeño? Mencione argumentos que apoyen y otros que se opongan al contrato de desempeño en las escuelas.

3. ¿En qué difiere la evaluación formativa de la evaluación sumatoria? ¿Cómo se contraponen o se complementan entre sí los dos enfoques hacia la evaluación? ¿De qué manera se relaciona la evaluación formativa con la medición con referencia a criterio?

4. Distinga entre medición con referencia a normas y medición con referencia a criterio. ¿Cuáles son las ventajas y desventajas de cada una?

5. Compare los propósitos y el diseño de las pruebas de estudio, de diagnóstico y de pronóstico.

6. Compare las pruebas donde hay mucho en juego con las pruebas donde hay poco en juego, incluyendo los tipos de prueba y las decisiones tomadas con cada una.

7. ¿En qué niveles y para qué propósitos son más válidas y útiles las pruebas estandarizadas de aprovechamiento?

8. ¿Cuáles son las ventajas y las desventajas de aplicar una batería de pruebas de aprovechamiento en lugar de una serie de pruebas sencillas de materia?

9. La mayoría de los departamentos de psicología y educación mantienen en sus archivos muestras de pruebas estandarizadas de aprovechamiento, que incluyen los folletos de la prueba, hojas de respuestas, claves de calificación, manuales y posiblemente otros materiales interpretativos. Seleccione una de esas pruebas para revisión, utilizando un perfil como el que aparece líneas abajo. Siempre que sea posible, usted debe llenar este perfil con la información obtenida al leer el manual de la prueba y examinar ésta. Espere hasta que haya completado su propia revisión antes de consultar revisiones publicadas de la prueba en The Mental Measurements Yearbooks, Tests Critiques u otras fuentes.

PERFIL DE REVISIÓN DE UNA PRUEBA
Contenido. Mencione el título, autor(es), editor, fecha y lugar de la publicación, formas disponibles, tipo de prueba y costo. Haga una breve descripción de las secciones de la prueba, delos tipos de reactivos que la componen y de las operaciones mentales o características que supuestamente mide. Indique cómo se seleccionaron los reactivos de la prueba y si el procedimiento de elaboración y/o la teoría en que está basada se describen con claridad en el manual.

Aplicación y calificación. Describa cualquier instrucción especial, si la prueba tiene límites de tiempo y, de ser así, cuáles son esos límites. Proporcione detalles concernientes a la calificación: como un todo, por secciones o partes y cosas similares. Indique si las instrucciones para la aplicación y la calificación son claras.

Normas. Describa el grupo o grupos (características demográficas, tamaño y cosas similares) en el o los que se estandarizó la prueba y cómo se seleccionaron las muestras (sistemática, estratificada al azar, por grupos, o de otra manera). ¿Qué tipos de normas se presentan en el manual de la prueba o en los complementos técnicos? ¿Parece ser adecuada la estandarización para los usos recomendados de la prueba?
Confiabilidad. Describa los tipos de información de confiabilidad presentados en el manual(consistencia interna, formas paralelas, test-retest, etcétera). ¿La naturaleza y los tamaños delas muestras de las que se reporta la información de confiabilidad son adecuados con respecto a los usos declarados de la prueba?

Validez. Resuma la información disponible sobre la validez (de contenido, predictiva, concurrente, de constructo) de la prueba incluida en el manual. ¿Es satisfactoria la información sobre la validez en términos de los propósitos declarados de la prueba?

Comentarios de resumen. Prepare un resumen del diseño y el contenido de la prueba y redacte un breve comentario sobre lo adecuado de ésta como medida de lo que fue diseñada para medir. ¿Proporciona el manual descripciones satisfactorias de diseño, contenido, normas,confiabilidad y validez de la prueba? ¿Qué otra información y/o datos se necesitan para mejorar la prueba y sus usos?