CAPÍTULO CINCO

CONFIABILIDAD Y VALIDEZ
La estandarización es un paso importante en el diseño y la evaluación de pruebas psicológicas y otros instrumentos de evaluación, pero no es el último paso. Antes de que una prueba pueda utilizarse con cierta seguridad, debe obtenerse información acerca de su confiabilidad y validez por lo que a sus propósitos específicos concierne.

CONFIABILIDAD
Ningún instrumento psicométrico puede considerarse de valor a menos que sea una medida consistente, o confiable. En consecuencia, una de las primeras cosas que será necesario determinara cerca de una prueba de elaboración reciente es si resulta lo suficientemente confiable como para medir lo que fue diseñada para medir. Si, en ausencia de cualquier cambio permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o lesión, las puntuaciones en una prueba varían con la ocasión o la situación, es probable que la prueba no sea lo suficientemente confiable como para ser usada en describir y evaluar a la gente y hacer predicciones sobre su conducta. Hablando en términos estrictos, más que ser una característica de una prueba,la confiabilidad es una propiedad de las puntuaciones obtenidas cuando se administra la prueba a un grupo particular de personas en una ocasión particular y bajo condiciones específicas(Thompson, 1994).

Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume que la prueba mide una característica relativamente estable. A diferencia de la inestabilidad, la falta de confiabilidad es resultado de errores de medición producidos por estados internos temporales, como la baja motivación o la falta de disposición, o de condiciones externas como un ambiente de prueba incómodo o con distracciones.

Teoría clásica de la confiabilidad
En la teoría clásica de los tests se supone que la calificación observada de una persona en una prueba está compuesta por una puntuación “real” más algún error no sistemático de medición. La puntuación real de una persona en una prueba particular se define como el promedio de las puntuaciones que obtendría si presentara la prueba un número infinito de veces. Es obvio que la puntuación real de una persona nunca puede medirse de manera exacta; tiene que ser estimada a partir de su puntuación observada en la prueba. También se asume en la teoría clásica de los tests que la varianza de las puntuaciones observadas (s2obs) de un grupo de personas es igual a la varianza de sus puntuaciones reales (s2rea) más la varianza debida a los errores no sistemáticos de medición (s2err):

Capítulo 05. Fórmula Teoría clásica de la confiabilidad.

s2obs= s2rea+ s2err (5.1)

Entonces la confiabilidad (r11) de las calificaciones se define como la razón de la varianza de la calificación real con la varianza de la calificación observada, o la proporción de la varianza observada que es explicada por la varianza real:

Fórmula

La proporción de la varianza observada explicada por la varianza de error o que no se explica por la varianza real puede determinarse a partir de las fórmulas 5.1 y 5.2 como:

Fórmula

La confiabilidad de un conjunto de calificaciones en una prueba se expresa como un número decimal positivo que fluctúa entre .00 y 1.00. Una r11 de 1.00 indica una confiabilidad perfecta, y una r11de .00 indica una falta absoluta de confiabilidad de la medición. Como la varianza de las calificaciones reales no puede calcularse de manera directa, la confiabilidad se estima analizando los efectos de variaciones en las condiciones de la administración y el contenido dela prueba en las calificaciones observadas. Como advertimos antes, la confiabilidad no es influida por cambios sistemáticos en las calificaciones que tienen un efecto similar en todos los examinados, sino sólo por cambios no sistemáticos que tienen efectos diferentes en personas distintas.Dichos factores no sistemáticos influyen en la varianza de error y, por lo tanto, en la confiabilidad de las calificaciones en la prueba. Cada uno de los diversos métodos para estimar la confiabilidad (test-retest, formas paralelas, consistencia interna) toma en consideración los efectos de circunstancias algo diferentes que pueden producir cambios no sistemáticos en las puntuaciones y,por ende, afectan la varianza de error y el coeficiente de confiabilidad.

Coeficiente test-retest
Se calcula un coeficiente test-retest para determinar si un instrumento mide de manera consistente de una ocasión a otra. Este coeficiente, conocido también como coeficiente de estabilidad,se encuentra correlacionando las calificaciones obtenidas por un grupo de personas en una aplicación con sus puntuaciones en la segunda aplicación de la prueba. El procedimiento test-retest toma en consideración los errores de medición que resultan de diferencias en las condiciones(ambientales, personales) asociadas con las dos ocasiones en que se administró la prueba. Dado que en ambas ocasiones se aplicó la misma prueba, los errores debidos a diferentes muestras delos reactivos de la prueba no se reflejan en un coeficiente test-retest. Además, es probable que las diferencias entre las condiciones de la aplicación sean mayores luego de un intervalo largo que de uno corto. Como resultado, la magnitud de un coeficiente de confiabilidad test-retest tiende a ser mayor cuando el intervalo entre la prueba inicial y el retest es corto (unos cuantos días o semanas) que cuando es largo (meses o años).

Coeficiente de formas paralelas
Cuando el intervalo entre la prueba inicial y el retest es corto, los examinados recuerdan, por lo general, muchas de las preguntas y respuestas de la prueba inicial. Como es obvio, esto afecta sus respuestas en la segunda aplicación, un hecho que por sí mismo no cambia el coeficiente de confiabilidad si todos recuerdan igual cantidad. Sin embargo, por lo regular algunas personas recuerdan más del material de la prueba que otras, ocasionando que la correlación entre el test y el retest sea menos que perfecta. Lo que parece necesitarse para superar esta fuente de error es una forma paralela del instrumento, esto es, una que conste de reactivos similares pero no de los mismos reactivos. Entonces puede calcularse como índice de confiabilidad un coeficiente de formas paralelas, también conocido como coeficiente de equivalencia.

En principio, la idea de formas paralelas es razonable: al aplicar una forma paralela luego de un intervalo apropiado que sigue a la aplicación de la primera forma puede determinarse un coeficiente de confiabilidad que refleje los errores de medición debidos a los diferentes reactivos y los distintos momentos de aplicación. Para controlar los efectos de confusión de la forma de la prueba con el momento de la aplicación, la forma A debe administrarse primero a la mitad del grupo y la forma B a la otra mitad; luego, en la segunda aplicación, el primer grupo presenta la forma B y el segundo la forma A. La correlación resultante entre las calificaciones de las dos formas, conocida como coeficiente de estabilidad y equivalencia, toma en cuenta errores debidos a los diferentes momentos de aplicación o a los distintos reactivos.

Coeficientes de consistencia interna
Se dispone de formas paralelas para una serie de pruebas, en particular para pruebas de habilidad (aprovechamiento, inteligencia, aptitudes especiales). Sin embargo, una forma paralela de una prueba a menudo es costosa y difícil de elaborar. Por esta razón se elaboró un método menos directo de tomar en cuenta los efectos de diferentes muestras de los reactivos de una prueba sobre la confiabilidad. Éste es el método de consistencia interna, que incluye el método de división por mitades de Spearman, las fórmulas de Kuder-Richardson y el coeficiente alfa de Cronbach. Sin embargo, los errores de medición causados por diferentes condiciones o momentos de aplicación no se reflejan en un coeficiente de consistencia interna. En consecuencia, este tipo de coeficientes no pueden verse como verdaderos equivalentes de los coeficientes test-retest o deformas paralelas.

Método de división por mitades. En este enfoque simplificado de la consistencia interna una sola prueba se considera compuesta por dos partes (formas paralelas) que miden la misma cosa. De este modo, puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de manera arbitraria. Por ejemplo, los reactivos con números nones pueden calificarse por separado de los que tienen números pares. Entonces la correlación (roe) entre los dos conjuntos de calificaciones obtenidas por un grupo de personas es un coeficiente de confiabilidad de formas paralelas para una mitad de la prueba tan larga como la prueba original. Suponiendo que las dos mitades equivalentes tienen medias y varianzas iguales, la confiabilidad de laprueba como un todo puede estimarse mediante la fórmula Spearman-Brown:

Fórmula (5.4) Capítulo 05. 02.Coeficientes de consistencia interna.

Para demostrar el uso de la fórmula 5.4, suponga que la correlación entre las calificaciones totales obtenidas en los reactivos con números nones y en los reactivos con números pares de una prueba es .80. Entonces la confiabilidad estimada de toda la prueba es r11= 2(.80)/(1 +.80) = .89.

Método de Kuder-Richardson. Una prueba puede dividirse de muchas formas diferentes en dos mitades que contengan igual número de reactivos. Como cada forma puede dar por resultado un valor algo diferente de r11, no queda claro qué estrategia de división producirá el mejor estimado de confiabilidad. Una solución al problema es calcular el promedio de los coeficientes de confiabilidad obtenidos de todas las divisiones por mitades como el estimado global de confiabilidad. Esto puede hacerse, pero el siguiente procedimiento abreviado fue elaborado por Kuder y Richardson (1937).

Bajo ciertas condiciones, la media de todos los coeficientes de división por mitades puede estimarse mediante una de las siguientes fórmulas:
(5.5) Capítulo 05. 02.Coeficientes de consistencia interna.
(5.6)

En estas fórmulas, k es el número de reactivos en la prueba, es la media de las calificaciones totales de la prueba, s2es la varianza de las calificaciones totales de la prueba (calculadas con nen lugar de n – 1 en el denominador), y pies la proporción de examinados que dan la respuesta de la clave al reactivo i. Las pise suman a lo largo de todos los reactivos k. Las fórmulas 5.5 y 5.6 se conocen como fórmulas Kuder-Richardson (K-R) 20 y 21, respectivamente. A diferencia de la fórmula 5.5, la 5.6 se basa en la suposición de que todos los reactivos son de igual dificultad; esto también conduce a una estimación más conservadora de la confiabilidad y es más fácil de calcular que la fórmula 5.5.
Para demostrar la aplicación de la fórmula 5.6, suponga que una prueba que contiene 75 reactivos tiene una media de 50 y una varianza de 100. Entonces r11= [75 – 50(75 – 50)/100]/74 = .84.

Coeficiente alfa. Las fórmulas 5.5 y 5.6 son casos especiales del coeficiente alfa más general (Cronbach, 1951). El coeficiente alfa se define como:
(5.7) Capítulo 05. 02.Coeficientes de consistencia interna.

donde k es el número de reactivos, s2i la varianza de las calificaciones en el reactivo i, y s2t la varianza de las calificaciones totales de la prueba. Las fórmulas de Kuder-Richardson sólo son aplicables cuando los reactivos de la prueba se califican con 0 o 1, pero el coeficiente alfa es una fórmula general para estimar la confiabilidad de una prueba que consta de reactivos en los cuales pueden asignarse calificaciones de distinto peso a respuestas diferentes.

Todos los procedimientos de consistencia interna (división por mitades, Kuder-Richard-son, coeficiente alfa) sobrestiman la confiabilidad de las pruebas de velocidad. En consecuencia, deben modificarse para proporcionar estimaciones razonables de confiabilidad cuando la mayoría de los examinados no termina la prueba en el tiempo permitido. Para ello, una posibilidad consiste en aplicar las dos mitades de la prueba en momentos diferentes, pero con límites de tiempo iguales. Se calcula entonces la correlación entre las calificaciones de las dos mitades cronometradas por separado y los coeficientes resultantes se corrigen con la fórmula 5.4. También pueden usarse los procedimientos de test-retest y de formas paralelas para estimar las confiabilidades de las pruebas de velocidad.

Confiabilidad entre calificadores
Salvo por errores administrativos, las calificaciones calculadas por dos calificadores diferentes de una prueba objetiva presentada por un individuo deben ser idénticas. Sin embargo, la calificación de las pruebas de ensayo y orales, además de otros juicios evaluativos (calificaciones de personalidad, calificación de pruebas proyectivas) es un proceso bastante subjetivo. Al evaluarlas calificaciones que implican el juicio subjetivo del calificador, es importante conocer el grado en que diferentes calificadores están de acuerdo en las calificaciones y otros valores numéricos dados a las respuestas de diferentes examinados y reactivos. El enfoque más común para determinar la confiabilidad entre calificadores es hacer que dos personas califiquen las respuestas de un número considerable de examinados y calcular luego la correlación entre los dos conjuntos de calificaciones. Otro enfoque es hacer que muchas personas califiquen las respuestas de un examinado o, mejor aún, que muchas personas califiquen las respuestas de varios examinados. Esta última estrategia arroja un coeficiente intraclase o coeficiente de concordancia, el cuales un coeficiente generalizado de confiabilidad entre calificadores. En muchos libros de estadística se describen los procedimientos para calcular estos coeficientes.

Las pruebas orales no se distinguen por tener una elevada confiabilidad, pero se dispone deformas especiales que pueden mejorar la objetividad, y por ende la confiabilidad, con la que se juzga el desempeño oral (vea la forma 3.1 en la página 58). Aunque los exámenes orales tienen,por lo general, una confiabilidad menor que pruebas escritas comparables, la atención cuidadosa al diseño de las preguntas orales, a la elaboración de las respuestas modelo a las preguntas antes de aplicar la prueba, y al uso de calificadores múltiples, puede mejorar la confiabilidad de las calificaciones en las pruebas orales. Dichos procedimientos han dado por resultado coeficientes de confiabilidad entre calificadores de .60 y .70 para las pruebas orales aplicadas en ciertos cursos de licenciatura, posgrado y de escuelas profesionales. Otras sugerencias para mejorar la confiabilidad de las evaluaciones del desempeño oral incluyen alentar a los examinados a demorar la respuesta hasta que hayan pensado por un momento en la pregunta, y registrar las respuestas de manera electrónica para que más tarde sean reproducidas y reevaluadas por los calificadores.

Interpretación de los coeficientes de confiabilidad
Los coeficientes de confiabilidad de instrumentos afectivos como las listas de verificación, escalas de calificación e inventarios de personalidad, intereses o actitudes, por lo general son más bajos que los de las pruebas cognitivas de aprovechamiento, inteligencia o habilidades especiales. Sin embargo, los coeficientes de confiabilidad obtenidos con esos instrumentos afectivos pueden ser bastante respetables, y los obtenidos con los instrumentos cognitivos en ocasiones son bastante bajos.
¿Qué tan alto debe ser un coeficiente de confiabilidad para que una prueba u otro instrumento psicométrico sean útiles? La respuesta depende de lo que planeemos hacer con las puntuaciones de la prueba. Cuando una prueba va a utilizarse para determinar si las calificaciones promedio de dos grupos de personas son significativamente diferentes, un coeficiente de confiabilidad de .60 a .70 puede ser satisfactorio. Por otro lado, cuando se utiliza la prueba para comparar la calificación de una persona con la de otra, o la calificación de una persona en una prueba con su calificación en otro instrumento, se necesita un coeficiente de confiabilidad de al menos .85 para determinar si diferencias pequeñas en las calificaciones son significativas.

Variabilidad y extensión de la prueba
Como con otras medidas de relación, los coeficientes de confiabilidad tienden a ser más altos cuando la varianza de las puntuaciones de la prueba, las puntuaciones del reactivo, las calificaciones u otras variables que son evaluadas, es grande que cuando es pequeña. Como la varianza de la calificación de la prueba se relaciona con la extensión de ésta, un método para incrementarla confiabilidad es hacer la prueba más larga. Sin embargo, la simple inclusión de más reactivos en una prueba no necesariamente incrementa su confiabilidad. Los nuevos reactivos deben ser del mismo tipo general y medir la misma cosa que los reactivos que ya contiene la prueba. De hecho, agregar reactivos que miden algo diferente de lo que miden los reactivos originales puede dar lugar a una reducción en la confiabilidad.
La fórmula general de Spearman-Brown es una expresión del efecto que tiene sobre la confiabilidad el alargar una prueba incluyendo más reactivos del mismo tipo general. Esta fórmula, una generalización de la fórmula 5.4, es:

(5.8) Capítulo 05. 03.Variabilidad y extensión de la prueba.

donde m es el factor por el cual se alarga la prueba, r11 la confiabilidad de la prueba original no alargada, y rmm la confiabilidad estimada de la prueba alargada. Por ejemplo, si una prueba de 20 reactivos que tiene un coeficiente de confiabilidad de .70 se hace tres veces más larga agregando 40 reactivos más, la confiabilidad estimada de la prueba alargada será 3(.70)/[1 + 2(.70)] = .875.
La figura 5.1 ilustra los efectos que produce sobre la confiabilidad el incrementar el número de reactivos en una prueba por un factor de 11/2, 2, 3, 4 o 5. Note que el incremento creciente en la confiabilidad es menor cuando la confiabilidad inicial es alta y con incrementos sucesivamente mayores en la extensión de la prueba.

Resolver la fórmula 5.8 para m arroja la siguiente fórmula para determinar cuántas veces más extensa debe ser una prueba de confiabilidad r11a fin de obtener una confiabilidad deseada (r11):

(5.9) Capítulo 05. 03.Variabilidad y extensión de la prueba.

Esta fórmula puede utilizarse para determinar el incremento necesario en la longitud de la prueba y, en consecuencia, el número de reactivos que deben agregarse para incrementar la confiabilidad de un valor desde r11hasta rmm.
Además de depender del número de reactivos, la varianza y la confiabilidad de una prueba son afectadas por la heterogeneidad de la muestra de personas que la presentan. Entre mayor sea el rango de diferencias individuales en cierta característica, mayor será la varianza de las calificaciones en una medida de esa característica. En consecuencia, el coeficiente de confiabilidad de una prueba u otro instrumento de evaluación será mayor en un grupo más heterogéneo con una varianza más grande en la calificación de la prueba. El que la confiabilidad de una prueba varíe con la naturaleza del grupo probado se refleja en la práctica de informar acerca de coeficientes de confiabilidad separados para grupos que difieren en edad, grado, género y posición socioeconómica. La asociación entre la varianza y la confiabilidad de una prueba también se ad-vierte en que las pruebas compuestas, sobre todo por reactivos de dificultad intermedia (valores p de alrededor de .50), tienden a ser más confiables que las pruebas donde la mayoría de los reactivos tienen índices más altos o más bajos de dificultad.

Figura 5.1 Confiabilidad de una prueba alargada como función de la confiabilidad inicial y el factor de alargamiento. La confiabilidad se incrementa a medida que se agregan a una prueba más reactivos del mismo tipo general, pero el monto del incremento es mayor cuando la confiabilidad inicial es baja. Además, la confiabilidad de la prueba alargada se nivela gradualmente conforme la prueba se vuelve cada vez más larga.

Error estándar de medición
Puesto que se desconoce la varianza de las calificaciones reales, no puede calcularse la confiabilidad de manera directa a partir de la fórmula 5.2. Sin embargo, dado un estimado de la confiabilidad, puede calcularse la varianza de la calificación real a partir de la fórmula 5.2 o, lo que es de mayor interés, calcular la varianza de error a partir de la fórmula 5.3. Al resolver la fórmula 5.3 para serr obtenemos:

(5.10) Fórmula en la carpeta.

donde s es la desviación estándar de las calificaciones observadas de la prueba y r11el coeficiente de confiabilidad test-retest. Este estadístico, conocido como error estándar de medición (serr), es una estimación de la desviación estándar de una distribución normal de las calificaciones de la prueba que se supone serían obtenidas por una persona que presentara la prueba un número 1 infinito de veces. La media de esta distribución hipotética de calificaciones sería la calificaciónreal de la persona en la prueba.
Para ilustrar el cálculo y el significado del error estándar de medición, suponga que la des-viación estándar de una prueba es 6.63 y el coeficiente de confiabilidad test-retest es .85; entonces

Fórmula

Si la calificación de una persona en la prueba es 40, puede concluirse, con 68% de confianza, que forma parte de un grupo de personas que tienen calificaciones observadas de 40 cuyas calificaciones reales en la prueba caen entre 40 – 2.57 = 37.43 y 40 + 2.57= 42.57. Para obtener el intervalo de confianza de 95% para una calificación real, debe multiplicarse serr por 1.96 y el producto resultante agregarse y restarse de la calificación observada: calificación observada ±1.96 serr.

Fórmula en la imagen de la figura 5.2 dentro de la carpeta del libro.

La figura 5.2 es un perfil o psicógrafo de las puntuaciones obtenidas por un estudiante deundécimo grado en las diez pruebas y tres compuestos de la Batería de Aptitudes Vocacionales de las Fuerzas Armadas (ASVAB). La puntuación del estudiante en una prueba o compuesto particular está indicada por las líneas verticales cortas que se proyectan a partir de la mitad de la barra horizontal correspondiente. La anchura de la barra horizontal es igual a 1.96 veces el error estándar de medición de esa prueba o compuesto particular. En consecuencia, podemos decir que hay una probabilidad de .95 de que la calificación real del estudiante en la prueba caiga dentro del rango numérico representado por la barra horizontal que se extiende desde la calificación observada –1.96 serr hasta la calificación observada +1.96serr.

Como regla empírica, la diferencia entre las puntuaciones de dos personas en la misma prueba no debe considerarse significativa salvo que sea por lo menos dos veces el error estándar de medición de la prueba. Por otro lado, la diferencia entre las puntuaciones de la misma persona en dos pruebas debe ser mayor que dos veces el error estándar de medición más grande para que la diferencia se interprete como significativa. Esto es así porque el error estándar de la diferencia entre las puntuaciones en las dos pruebas es mayor que el error estándar de medición de cada prueba.Como vimos en la fórmula 5.10, el error estándar de medición se relaciona inversamente con el coeficiente de confiabilidad. Cuando r11= 1.00, no hay error al estimar la calificación real de una persona a partir de su calificación observada; cuando r11 = .00, el error de medición alcanza su valor máximo (s). Por supuesto, una prueba que tiene un coeficiente de confiabilidad cercano a .00 es inútil porque la precisión de cualquier decisión tomada sobre la base de las puntuaciones estará al nivel del azar. A diferencia de la teoría clásica de los tests, en la cual el error estándar de medición se aplica a todas las puntuaciones en una población particular, en la teoría de respuesta al ítem(IRT) difiere de una calificación a otra. En la IRT, el error estándar de medición de las puntuaciones correspondientes a un nivel particular de habilidad es igual al recíproco de la cantidad de información transmitida por una calificación a ese nivel. La cantidad de información proporcionada por las respuestas a un reactivo particular es determinada a partir de la función de información del reactivo, y la información proporcionada por la prueba como un todo en un nivel particular de habilidad es la suma de los valores de información del reactivo en ese nivel de habilidad (vea Hambleton, Swaminathan y Rogers, 1991).

Confiabilidad de las pruebas referidas a criterio
El concepto tradicional de confiabilidad corresponde a las pruebas referidas a normas, las cuales están diseñadas principalmente para diferenciar entre individuos que poseen varias cantidades de una característica específica. Entre mayor sea el rango de diferencias individuales en las puntuaciones de una prueba, mayor será la confiabilidad de la prueba. Por otro lado, al elaborarla mayoría de las pruebas referidas a criterio la meta es identificar a las personas como pertenecientes a uno de dos grupos. Un grupo consta de personas cuyas puntuaciones igualan o exceden el nivel de criterio (de dominio) en la habilidad que se está evaluando; el otro grupo consta de personas cuyas puntuaciones no alcanzan el nivel de criterio. En esta situación, resultan inapropiados los procedimientos correlacionales tradicionales para determinar los coeficientes test-retest, de formas paralelas y de consistencia interna.
El coeficiente de acuerdo, que es la proporción de calificaciones que caen por encima o por debajo del nivel de criterio en ambas aplicaciones o ambas formas, es un índice de la confiabilidad de una prueba referida a criterio. Otro índice es el coeficiente kappa, que es algo más difícil de calcular, pero estadísticamente más apropiado que el coeficiente de acuerdo (Cohen,1968; Aiken, 1988).

Teoría de la generalización
Durante muchos años los psicómetras han enfatizado que una prueba no tiene una sino muchas confiabilidades, dependiendo de las varias fuentes de error de medición que se toman en consideración al calcular un coeficiente de confiabilidad. La muestra particular de reactivos incluidos correspondiente. El grado de precisión con el que la puntuación de la prueba estima el universo de puntuaciones depende de la naturaleza del universo, es decir, de las facetas particulares que lo definen.
Una puntuación de la prueba puede generalizarse a muchos universos diferentes, cada uno definido de acuerdo con cierta combinación de facetas. Las facetas que caracterizan a un universo dado, como las condiciones de aplicación de la prueba y la composición de reactivos o formas de ésta, pueden ser muy diferentes de las que definen a otros universos. Algunas de esas facetas pueden no tener efecto sobre la generalización de las puntuaciones de la prueba, mientras que los efectos de otras facetas pueden ser significativos.
Los cálculos de la teoría de la generalización implican aplicar las técnicas estadísticas de análisis de varianza para determinar la generalización de las puntuaciones de la prueba como función de los cambios en la(s) persona(s) que la presenta(n), diferentes muestras de reactivos que componen la prueba, las situaciones o condiciones en que se presenta ésta, y los métodos o personas involucrados en su calificación. Luego puede calcularse un coeficiente de generalización, el cual es similar al coeficiente tradicional de confiabilidad, como la razón de la varianza esperada de las calificaciones en el universo con la varianza de las calificaciones en la muestra. Por último, puede estimarse un valor universal de la calificación, similar a la calificación real dela teoría clásica de la confiabilidad (Cronbach, Gleser, Nanda y Rajaratnam, 1972).

Al enfatizar la importancia de las condiciones en que se administra una prueba y los pro-pósitos para los que se diseñó, la teoría de la generalización ha cambiado el enfoque de los usuarios de las pruebas más allá de la preocupación con la prueba misma como un instrumento psicométrico bueno o malo en general a la pregunta de “¿Bueno o malo para qué propósito?”
La teoría de la generalización, la teoría de respuesta al ítem, el análisis de las estructuras de covarianza y otros métodos estadísticos modernos ciertamente tienen mayor complejidad técnica que la teoría clásica de los tests. Sea como sea, el desarrollo y las aplicaciones de una prueba todavía se basan en gran medida en los conceptos tradicionales de confiabilidad y validez yen los procedimientos derivados de ellos.

VALIDEZ
De manera tradicional, la validez se ha definido como el grado en que una prueba mide lo que está diseñada para medir. Una desventaja de esta definición es la implicación de que una prueba sólo tiene una validez, la cual supuestamente es establecida por un solo estudio para determinar si la prueba mide lo que se supone debe medir. En realidad, una prueba puede tener muchas clases de validez, dependiendo de los propósitos específicos para los cuales fue diseñada, la población objetivo, las condiciones en que se aplica y el método para determinar la validez.

Los métodos por los cuales puede determinarse la validez incluyen (1) analizar el contenido de la prueba, (2) calcular la correlación entre las calificaciones en la prueba y las calificaciones en el criterio de interés y (3) investigar las características psicológicas particulares o constructos medidos por la prueba. Todos esos procedimientos son útiles en la medida que mejoran la comprensión de lo que mide una prueba y proporcionan información para tomar decisiones sobre la gente. También puede ser de interés evaluar la validez creciente de una prueba, es decir,qué tanto añade la prueba a la predicción y comprensión de los criterios que ya son anticipados por otras medidas.
A diferencia de la confiabilidad, la cual es influida sólo por los errores no sistemáticos de medición, la validez de una prueba es afectada tanto por los errores no sistemáticos como por los sistemáticos (constantes). Por esta razón, una prueba puede ser confiable sin ser válida, pero no puede ser válida sin ser confiable. La confiabilidad es una condición necesaria, pero no suficiente, para la validez.

Validez de contenido
La apariencia física de una prueba con respecto a sus propósitos particulares (validez de facie) es ciertamente una consideración importante a tener en cuenta al comercializarla. No obstante, el concepto de validez de contenido se refiere a algo más que a la apariencia. La validez de contenido atañe a si éste produce un rango de respuestas que son representativas del dominio entero o universo de habilidades, entendimientos y otras conductas que supuestamente debe medir la prueba. Se supone que las respuestas a la muestra de reactivos de una prueba bien diseñada son indicativas de lo que serían las respuestas al universo entero de conductas de interés.

Un análisis de la validez de contenido ocurre más a menudo en conexión con las pruebas de aprovechamiento, para las cuales por lo general no existe un criterio externo especificado. La validez de contenido también es de interés en las medidas de aptitud, interés y personalidad, aunque quizá menos que la validez de constructo o la relacionada con un criterio. En una prueba de aprovechamiento se evalúa la validez de contenido analizando la composición de la prueba para determinar el grado en que representa los objetivos de la enseñanza. Una forma de lograr esto es comparar el contenido de la prueba con un bosquejo o tabla de especificaciones concernientes ala materia que va a ser cubierta por la prueba. Si expertos en la materia coinciden en que una prueba parece y actúa como un instrumento diseñado para medir lo que se supone debe medir, entonces se dice que posee validez de contenido. Dichos juicios involucran no sólo la apariencia de los reactivos de la prueba, sino también los procesos cognitivos implicados al responderlos. Es obvio que el proceso de evaluar la validez de contenido no debería esperar hasta que se haya elaborado la prueba. El juicio de los expertos en lo que se refiere a qué reactivos incluir es necesario desde el principio del proceso de elaboración de la prueba. Al definir el universo del contenido de la prueba y la muestra de ese universo que se va a incluir, los diseñadores establecen las condiciones indispensables para lograr construir un instrumento con validez de contenido.

Validez con relación a criterio
La validación de cualquier prueba de habilidad consiste en relacionar las calificaciones en la prueba con el desempeño en medidas o estándares de criterio con los cuales pueden compararse las calificaciones. Sin embargo, de manera tradicional, el término validez con relación a criterio hace referencia a procedimientos en los cuales las calificaciones en la prueba de un grupo de personas se comparan con las puntuaciones, clasificaciones u otras medidas de desempeño. Algunos ejemplos de criterios contra los cuales se validan las pruebas son las notas escolares,calificaciones de un supervisor y número o cantidad de dólares en ventas. Siempre que se dispone de una medida de criterio en el momento de la prueba puede determinarse la validez concurrente del instrumento. Cuando las calificaciones en el criterio no están disponibles sino hasta cierto tiempo después de que se aplicó la prueba, se enfatiza la validez predictiva de la prueba.

Validez concurrente. Los procedimientos de validación concurrente se emplean siempre que una prueba se aplica a personas clasificadas en varias categorías, como grupos de diagnóstico clínico o niveles socioeconómicos, con el propósito de determinar si las puntuaciones en la prueba de las personas ubicadas en una categoría son significativamente diferentes de las de los individuos que se hallan en otras categorías. Si la calificación promedio varía de modo sustancial de una categoría a otra, entonces la prueba puede usarse como otra forma, quizá más eficiente, de asignar a la gente a esas categorías. Por ejemplo, las puntuaciones en el Inventario Multifásicode Personalidad de Minnesota (MMPI) han sido útiles en la identificación de trastornos menta-les específicos, porque se ha encontrado que los pacientes a quienes los psiquiatras diagnostican trastornos particulares tienden a diferir del resto de la población en las puntuaciones que obtienen en ciertos grupos de reactivos (escalas).

Validez predictiva. La validez predictiva atañe a la precisión con que las puntuaciones de una prueba predicen puntuaciones de criterio, según lo indica la correlación entre la prueba (predictor) y un criterio del desempeño futuro. La validez predictiva es de interés sobre todo para las pruebas de aptitud o de inteligencia, ya que las puntuaciones en esos tipos de instrumentos a menudo se correlacionan con las puntuaciones, notas de cursos, calificaciones de pruebas de aprovechamiento y otros criterios de desempeño.

La magnitud de un coeficiente de validez predictiva está limitada por la confiabilidad de las variables de predicción y de criterio; no puede ser mayor que la raíz cuadrada del producto de esas dos confiabilidades. Por ésta y por otras razones, la correlación entre un predictor y una variable de criterio, calculada mediante procedimientos descritos en el apéndice A, varía con el criterio específico, pero rara vez es mayor a .60. Como la proporción de la varianza en la variable de criterio que puede ser explicada por la variación en la variable predictora es igual al cuadrado de la correlación entre las variables predictora y de criterio, por lo general no puede predecirse más de 36% de la variación en las puntuaciones de criterio a partir de las puntuaciones obtenidas en una prueba u otro instrumento psicométrico. Esto deja sin explicar o predecir 64% de la varianza de criterio. Considerando que la validez predictiva de la mayoría de las pruebas es menor de .60, es comprensible porqué deben hacerse con cuidado las afirmaciones concernientes a la posibilidad de predecir los criterios de desempeño a partir de las puntuaciones obtenidas en las pruebas psicológicas.

Error estándar de estimación. La sección sobre regresión y predicción en el apéndice A des-cribe el procedimiento a seguir para determinar una ecuación de regresión (ecuación de predicción) y pronosticar las calificaciones de criterio de un grupo de personas a partir de sus puntuaciones en pruebas o en otras variables. Sin embargo, ingresar la puntuación de una persona en una prueba a una ecuación de regresión sólo produce un estimado de la calificación que la persona obtendrá en realidad en la variable de criterio. Si la calificación de criterio que se pre-dice para una persona se considera como la media de una distribución normal de las calificaciones de criterio obtenidas por un grupo de individuos que obtuvieron la misma calificación que la persona en la variable predictora, entonces la desviación estándar de esta distribución es un índice del error promedio en esas predicciones. Este estadístico, conocido como error estándar de estimación (sest), es aproximadamente igual a:

Fórmula 5.11. Imagen en la carpeta del libro.

donde s es la desviación estándar de la calificación de criterio y r es la correlación producto-momento entre el predictor (prueba) y el criterio.
Por ejemplo, suponga que la desviación estándar de cierta medida de criterio es 15 y la correlación entre las puntuaciones de la prueba y de criterio es .50; entonces = 13. Si la calificación de criterio que se predice de un sujeto es 50, hay una posibilidad de 68 entre 100 deque la persona obtendrá una calificación de criterio entre 37 y 63 (Ypred± sest), y aproximadamente 95 de 100 de que obtendrá una calificación de criterio entre 25 y 75 (Ypred± 1.96 sest). De manera más precisa, las posibilidades son de 68 entre 100 de que la persona forme parte de un grupo de individuos que tienen una calificación de criterio pronosticada de 50 cuyas calificaciones de criterio obtenidas cayeron entre 37 y 63. De manera similar, hay una posibilidad aproximada de 95 entre 100 de que el individuo forme parte de un grupo de personas con una calificación promedio anticipada de 50 cuyas calificaciones de criterio obtenidas cayeron entre 25 y 75. Como lo ilustra este ejemplo, cuando la correlación entre las calificaciones de la prueba y de criterio es baja, la calificación de criterio obtenida por una persona puede ser muy diferente de la pronosticada. Por esta razón, debe tenerse cautela al interpretar las calificaciones predichas cuando la correlación entre la prueba y la medida de criterio es modesta. Entre menor sea el coeficiente de correlación, más grande es el error estándar de estimación y menos precisa es la predicción de la prueba al criterio.

Factores que afectan la validez con relación a criterios
La validez con relación a criterios de una prueba puede ser influida por una serie de factores, incluyendo las diferencias de grupo, la extensión de la prueba, la contaminación del criterio y la tasa base. La validez creciente de una prueba, es decir, la contribución de la prueba que excede a las contribuciones de otras variables, también debería ser considerada al decidir si se va a utilizar la prueba con propósitos de selección y ubicación.

Diferencias de grupo. Las características de un grupo de personas en quienes se valida una prueba incluyen variables como sexo, edad y rasgos de personalidad. Esos factores, que en este contexto se conocen como variables moderadoras, pueden afectar la correlación entre una prueba y una medida de criterio. La magnitud de un coeficiente de validez, como la de un coeficiente de confiabilidad, también está influida por el grado de heterogeneidad del grupo de validación en lo que mide la prueba. Los coeficientes de validez tienden a ser más pequeños en los grupos más homogéneos, es decir, los grupos que tienen un rango más estrecho de calificaciones. El tamaño de un coeficiente de correlación es una función de las variables de predicción y de criterio, por lo que estrechar el rango de calificaciones en cualquier variable tiende a disminuir el coeficiente de validez predictiva.

Como la magnitud de un coeficiente de validez varía con la naturaleza del grupo probado,una prueba recién elaborada que resulte ser un predictor válido de una variable de criterio particular en un grupo de gente debe tener una validación cruzada en un segundo grupo. En la validación cruzada se aplica una prueba a una segunda muestra de personas para determinar si conserva su validez entre muestras diferentes. Debido a la operación de los factores del azar, la magnitud de un coeficiente de validez por lo general se reduce en alguna medida en la validación cruzada. En consecuencia, en la mayor parte de los casos se considera que la correlación entre las calificaciones de predicción y de criterio en la validación cruzada es un mejor indicador dela validez predictiva que la correlación original prueba-criterio. La validación cruzada, que es una manera de determinar la generalización de la validez de una prueba, es decir, si la prueba sigue siendo válida en situaciones diferentes, también puede involucrar una muestra diferente (paralela) de reactivos. Con diferentes muestras de examinados, diferentes muestras de reactivos dela prueba, o en ambos casos, suele darse alguna reducción del coeficiente de validez en la validación cruzada. Se han propuesto fórmulas para “corregir” dicha reducción, pero implican ciertas suposiciones que no siempre se cumplen.

Extensión de la prueba. Al igual que la confiabilidad, la validez varía directamente con la extensión de la prueba y con la heterogeneidad del grupo de personas examinadas. Hasta cierto punto, las puntuaciones en una prueba más larga y en una prueba administrada a un grupo de individuos que varían de manera considerable en las características a medir tienen varianzas más grandes y, en consecuencia, mayor validez predictiva que las puntuaciones de pruebas más cortas o de pruebas aplicadas a grupos más homogéneos. Se han propuesto fórmulas que corrigen los efectos que tienen en la validez la restricción de rangos de calificación y la extensión acorta-da de la prueba, pero sólo son apropiadas bajo ciertas circunstancias especiales.

Contaminación de criterios. La validez de una prueba está limitada no sólo por su confiabilidad y el criterio, sino también por la validez del propio criterio como medida de la variable de interés. En ocasiones el criterio se hace menos válido, o se contamina, por el método particular de medir las calificaciones de criterio. Por ejemplo, un psicólogo clínico enterado de que un grupo de pacientes ya ha sido diagnosticado como psicótico puede percibir mal los signos psicóticos en las respuestas de esos pacientes a las pruebas de personalidad. Entonces el método de comparación de grupos, en el cual se comparan las calificaciones obtenidas por los psicóticos en la prueba con las obtenidas por los normales, arrojará evidencia falsa a favor de la validez de la prueba. Dicha contaminación del criterio (psicóticos contra normales) puede controlarse por medio de un análisis ciego, esto es, haciendo que quien emite el diagnóstico no disponga de información acerca de los examinados a excepción de sus puntuaciones en la prueba. Sin embargo, muchos psicólogos clínicos sostienen que el análisis ciego no es natural ya que no es la forma en que las pruebas se emplean en realidad en los escenarios clínicos.

Validez creciente. Cuando se intenta decidir si la aplicación de un instrumento particular de evaluación con propósitos predictivos o de diagnóstico está justificada por su costo, también debería considerarse la validez creciente. La validez creciente se refiere a la cuestión de qué tanta precisión más tienen las predicciones y los diagnósticos cuando se incluye una prueba particular en una batería de procedimientos de evaluación. Es posible que otros métodos de evaluación menos costosos (observación, entrevista, inventario biográfico) puedan satisfacer los propósitos de la evaluación igual de bien sin usar una prueba adicional. La validez creciente se relaciona con el concepto de utilidad, tal como se aplica en los contextos de selección de personal. La utilidad de una prueba se define como un incremento medido en la calidad de los empleados que son contratados o promovidos sobre la calidad de los empleados cuando no se usa una prueba uotro procedimiento de evaluación (Cascio, 2000).

Validez de constructo
La validez predictiva es del mayor interés en la selección y ubicación en un contexto ocupacional o educativo. Diferentes tipos de pruebas de habilidad, y en ocasiones pruebas de personalidad y de interés, se utilizan con propósitos de selección y ubicación. La validez de constructo es de un interés mayor aún con respecto a las pruebas de personalidad. La validez de constructo de un instrumento de evaluación psicológica se refiere al grado en que el instrumento mide un constructo particular, o concepto psicológico como la ansiedad, la motivación para el logro, la extroversión-introversión o el neuroticismo. La validez de constructo, que es el tipo más general de validez, no se determina de una sola manera o por una investigación. Más bien involucra una red de investigaciones y otros procedimientos diseñados para determinar si un instrumento de evaluación que supuestamente mide una determinada variable de personalidad en realidad lo hace.

Evidencia a favor de la validez de constructo. Entre las fuentes de evidencia a favor de la validez de constructo de una prueba se encuentran las siguientes:
1.Los juicios de expertos de que el contenido de la prueba corresponde al constructo de interés.
2.Análisis de la consistencia interna de la prueba.
3.Estudios, tanto en grupos formados de manera experimental como en grupos que se presentan de manera natural, de las relaciones entre las puntuaciones de la prueba y otras variables en las cuales difieren los grupos.
4.Correlaciones de las puntuaciones en la prueba con las puntuaciones en otras pruebas y variables con las cuales se espera que tengan cierta relación, seguidas por un análisis factorial de esas correlaciones.
5.Interrogar con detalle a los examinados o a los calificadores acerca de sus respuestas a una prueba o escala de calificación para revelar los procesos mentales específicos implicados al dar respuesta a los reactivos.

Como lo revela esta lista, varios tipos de información contribuyen al establecimiento de la validez de constructo de un instrumento psicométrico. La información puede obtenerse de análisis racionales o estadísticos de las variables evaluadas por el instrumento y por estudios de su capacidad para predecir la conducta en las situaciones en que opera el constructo.

Las demostraciones experimentales como las usadas en la validación de constructo de la Es-cala de Taylor de Ansiedad Manifiesta (TMAS) (Taylor, 1953) son particularmente importantes en el establecimiento de la validez de constructo. De acuerdo con la teoría hulliana del aprendizaje, la ansiedad es una pulsión y, por consiguiente, la gente muy ansiosa debe condicionarse con mayor facilidad que la gente menos ansiosa. Suponiendo que esta teoría es correcta, los individuos que tienen un alto nivel de ansiedad deben adquirir —con más rapidez que quienes tienen un bajo nivel de ansiedad— un parpadeo condicionado en una situación de condicionamiento clásico donde estén presentes una luz, un soplo de aire y el parpadeo. Por lo tanto, si es una medida válida del constructo de ansiedad, quienes obtienen puntuaciones altas en la escala TMAS deberían condicionarse con mayor facilidad en esta situación que quienes obtienen bajas puntuaciones. La verificación de esta predicción contribuyó de manera significativa a aceptar la validez de constructo de la TMAS.

Validación convergente y discriminante. Un instrumento con validez de constructo debe tener correlaciones altas con otras medidas o métodos de medición del mismo constructo (validez convergente), pero correlaciones bajas con las medidas de constructos diferentes (validez discriminante). La evidencia a favor de estas validaciones de un instrumento psicométrico puede obtenerse comparando las correlaciones entre las medidas de:
1.El mismo constructo usando el mismo método.
2.Diferentes constructos usando el mismo método.
3.El mismo constructo usando métodos diferentes.
4.Diferentes constructos usando métodos diferentes.
La validez de constructo de un instrumento psicométrico se confirma por este planteamiento de características y métodos múltiples (Campbell y Fiske, 1959) cuando las correlaciones entre el mismo constructo medidas por el mismo y por diferentes métodos son significativamente mayores que las correlaciones entre diferentes constructos medidas por los mismos o por diferentes métodos. Por desgracia, los resultados de dichas comparaciones no siempre resultan de esta manera.Ocasionalmente las correlaciones entre diferentes constructos medidas por el mismo método son más altas que las correlaciones entre el mismo constructo medidas por métodos diferentes. Esto significa que el método (inventario de lápiz y papel, técnica proyectiva, escala de calificación, entrevista, etc.) es más importante que el constructo o rasgo particular en la determinación de lo que está siendo medido que el constructo o rasgo que supuestamente está siendo evaluado.

UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL
Desde la antigüedad las personas han sido seleccionadas, clasificadas y ubicadas en determinados puestos para realizar varias tareas. Sin embargo, con frecuencia los procedimientos seguidos para seleccionar, clasificar y ubicar personal han sido azarosos y asistemáticos. Se ha empleado gran variedad de procedimientos para la selección y valoración de personal, muchos de los cuales se basan en la observación casual y la intuición. Por ejemplo, en un tiempo se asignó gran importancia a rasgos físicos como la forma de la cabeza, los movimientos oculares y la apariencia corporal general. El origen étnico, la posición social y las conexiones sociales también influyeron en la determinación de quién era designado para ocupar cierto puesto, contratado para un trabajo específico o aceptado en determinado programa educativo.

Detección
De manera tradicional, la selección de personal se ha interesado en identificar, de entre un grupo de solicitantes, a los que son más capaces de realizar las tareas designadas. En este enfoque se utilizan las pruebas psicológicas, junto con información que no proviene de la prueba (historia personal, características físicas, recomendaciones, etc.), para ayudar a seleccionar a los solicitantes que pueden desempeñar trabajos particulares, ya sea de manera inmediata o luego de un entrenamiento apropiado.

Un procedimiento de selección de personal puede ser bastante simple o muy complejo, dependiendo de la naturaleza de la organización y de la tarea para la cual se están seleccionando los solicitantes. El planteamiento más directo es la estrategia de hundirse o nadar en la cual todos los solicitantes son seleccionados o admitidos, pero sólo se conserva a quienes tienen un desempeño efectivo. En algunas formas ésta es una estrategia ideal de selección, pero también es costosa tanto para la organización como para los solicitantes. En consecuencia, casi todas las organizaciones grandes utilizan actualmente algún tipo de procedimiento de detección por el cual los solicitantes que son claramente inadecuados para la tarea (trabajo, programa, etc.) son rechazados de inmediato. Si el instrumento de detección es un instrumento psicométrico de algún tipo, se acepta a los solicitantes que obtienen una calificación mínima especificada (calificación límite) o más alta en la prueba,mientras que se rechaza a los que puntúan por debajo de la calificación límite. Este procedimiento es bastante impersonal, y en ocasiones puede parecer duro desde la perspectiva de los solicitantes.Pero las organizaciones funcionan de manera más eficiente cuando los empleados poseen las habilidades indispensables para realizar de manera efectiva las tareas asignadas.

Clasificación y ubicación
La detección inicial, por lo regular, es seguida por la clasificación y la asignación de los solicitantes seleccionados a una de varias categorías ocupacionales. Las decisiones de clasificación pueden implicar el agrupamiento de los empleados sobre la base de sus puntuaciones en más de una prueba psicológica, como la asignación de los reclutas militares a especialidades ocupacionales de acuerdo con sus calificaciones en la Batería de Aptitudes Vocacionales de las Fuerzas Armadas. La detección y la clasificación con frecuencia son seguidas por la ubicación de los seleccionados en un nivel particular de determinado trabajo o programa.

El proceso de selección de personal consiste usualmente en una secuencia de etapas vinculadas a una serie de decisiones de sí-no (pase-fracaso) basadas en la información obtenida de formularios de solicitud, cartas de referencia, llamadas telefónicas, entrevistas personales, observaciones y pruebas psicológicas. El propósito de recabar dicha información es idéntico al de cualquier otra aplicación de la psicología: hacer mejores predicciones de la conducta futura sobre la base dela conducta pasada y presente. Entre más confiable y válida sea la información, mayor es la probabilidad de hacer predicciones precisas de la conducta en el trabajo o en el programa y, por ende, resultan más adecuadas las decisiones de selección. Por supuesto, la confiabilidad y validez de los instrumentos y procedimientos de evaluación psicológica para tomar decisiones de selección no pueden determinarse sólo mediante la inspección de los materiales de evaluación. La confiabilidad y la validez deben evaluarse de manera empírica, lo cual es una de las tareas propias delos psicólogos organizacionales.

Una tabla de expectativas
Cuando se utilizan las pruebas con propósitos de selección no es esencial determinar la correlación prueba-criterio ni la ecuación de regresión que vincula el desempeño en la variable de criterio con las calificaciones en la prueba. Los métodos correlacionales pueden aplicarse a la elaboración de tablas de expectativas teóricas, pero es posible elaborar una tabla de expectativas empíricas sin calcular un coeficiente de correlación o cualquier otro estadístico a excepción de frecuencias y porcentajes. Suponga, por ejemplo, que la tabla 5.1 fue elaborada a partir de una distribución con-junta de frecuencia de las calificaciones de 250 solicitantes de empleo en una Prueba de Selección Ocupacional (OST), y de las puntuaciones asignadas a los solicitantes por sus supervisores laborales seis meses después de haber sido contratados. Los intervalos de calificación de la OST se presentan al lado izquierdo de la tabla y las puntuaciones de desempeño (en una escala de 1 a 8) a lo largo de la parte superior. Las frecuencias sin cursivas colocadas en las celdas de la tabla represen-tan la cantidad de empleados que obtuvieron tanto puntuaciones en la OST, dentro de un rango especificado de 5 puntos, como las puntuaciones de desempeño indicadas en la parte superior de la columna. Por ejemplo, 10 empleados cuyas puntuaciones en la OST estuvieron entre 81 y 85 recibieron de sus supervisores una calificación de desempeño de 5, mientras que 14 empleados cuyas puntuaciones en la OST cayeron entre 66 y 70 recibieron una calificación de desempeño de 4.

TABLA 5.1 Tabla empírica de expectativas

Los números en cursivas y entre paréntesis de la tabla 5.1 son los porcentajes de la gente con puntuaciones OST, en un intervalo determinado, cuyas puntuaciones de desempeño fueron iguales o mayores al valor correspondiente en las celdas dadas. De este modo, 85% de los empleados cuyas puntuaciones en la OST cayeron en el intervalo 81 a 85 recibieron de desempeño de 5 o más altas, y 61% de los que obtuvieron puntuaciones en la OST entre 66 y 70 tuvieron calificaciones de desempeño de 4 o más altas.
Para ilustrar cómo se aplica este tipo de información al proceso de selección ocupacional,suponga que Juan, un empleado potencial de un grupo similar al grupo para el cual se elaboró la tabla 5.1, obtiene una puntuación de 68 en la Prueba de Selección Ocupacional. Entonces puede estimarse que Juan tiene una posibilidad de 61 en 100 de recibir de su supervisor una calificación de 4 o más alta en el desempeño en el trabajo seis meses después de empezar éste, pero sus posibilidades de obtener una calificación del desempeño de 6 o más alta son sólo de 5 en 100.Si una calificación de 4 o más alta es aceptable, es probable que Juan sea contratado.

Factores que afectan la precisión predictiva
La precisión con la que puede predecirse la calificación de criterio de un solicitante no sólo depende del tamaño de la correlación entre las variables de predicción y de criterio, sino también del número de errores por falsos-positivos y falsos-negativos, la razón de selección, y la tasa base. Si en una prueba se establece una calificación límite muy baja, habrá muchas aceptaciones incorrectas o falsos positivos; esto es, solicitantes que fueron seleccionados pero que no tuvieron éxito en el trabajo o en el programa. Por otro lado, si se establece una calificación límite muy alta, habrá muchos rechazos incorrectos o falsos negativos; esto es, solicitantes que no fueron seleccionados pero que de haberlo sido habrían tenido éxito. Como el propósito de la selección de personal es obtener tantos “aciertos” como sea posible (rechazar a los fracasos potenciales y seleccionar a los éxitos potenciales), la calificación límite debe establecerse con cuidado.

Para ilustrar estos conceptos, vaya de nuevo a la tabla 5.1. Suponga que la calificación límite en la OST se establece en 66 y que 4 se considera una calificación mínima aceptable de desempeño en el trabajo. Entonces 4 + 5 + 6 + 7 + 10 = 32 de los empleados representados en la tabla5.1 serán clasificados como falsos positivos: tuvieron una calificación de al menos 66 en la OST,pero tuvieron calificaciones de desempeño de menos de 4. Por otro lado, 5 + 2 + 4 + 1 = 12 empleados serán falsos negativos: calificaron por debajo de 66 en la OST, pero recibieron calificaciones de desempeño de 4 o más altas. Observe que al elevar la calificación límite en la OST disminuye el número de falsos positivos, pero incrementa el número de falsos negativos. El efecto opuesto, un incremento en los falsos positivos y una disminución en los falsos negativos,ocurre cuando se baja la calificación límite en la OST.

Otro factor importante a considerar al establecer la calificación límite en una prueba o prueba compuesta es la razón de selección, que es la proporción de solicitantes que serán seleccionados. Entre menor sea la razón de selección, más alta es la calificación límite y viceversa.Como el número de errores por falsos positivos y falsos negativos es afectado dependiendo de dónde se establezca la calificación límite, podemos argumentar que la razón de selección debería ser determinada por la gravedad relativa de esos dos tipos de error. ¿Es el error cometido al aceptar a un solicitante que no logra realizar el trabajo de manera satisfactoria (falso positivo)más o menos grave que rechazar a un solicitante que podría haberlo realizado con éxito si hubiera sido seleccionado (falso negativo)? Dichos errores deberían ser tomados en cuenta, pero el número total de solicitantes es al menos igual de importante al determinar la razón de selección.Por ejemplo, cuando el mercado de trabajo es cerrado, el número de solicitantes será pequeño.Entonces la razón de selección necesitará ser alta y, en consecuencia, la calificación límite en la prueba debe ser lo bastante baja como para obtener el número deseado de personas. Por otro la-do, en un mercado laboral libre o abierto, el número de solicitantes es grande, por lo que la razón de selección será baja. Una razón de selección baja significa que será necesario establecer una calificación límite bastante alta en la prueba, lo que dará lugar a un número menor de solicitantes aceptados y falsos positivos y a un número mayor de solicitantes rechazados y falsos negativos. El porcentaje de solicitantes exitosos varía inversamente con la razón de selección, pero varía directamente con la validez de la prueba u otros instrumentos de selección. En general, una prueba más válida conduce a un porcentaje más grande de aciertos y a un porcentaje más pequeño de falsos positivos y falsos negativos.

Un factor más que también afecta la precisión con que una prueba puede identificar a las personas que se comportarán de cierta manera es la tasa base, esto es, la proporción de solicitantes que se esperaría desempeñaran satisfactoriamente un trabajo incluso si no se hubiera empleado un instrumento o procedimiento de selección. Como con la razón de selección, una prueba diseñada para predecir un tipo particular de conducta es más efectiva cuando la tasa base es 50% y menos efectiva cuando la tasa base es muy alta o muy baja. Por ello, una prueba diseñada con el propósito de se-leccionar gente para un trabajo muy complejo, en el cual relativamente pocos solicitantes puedentener un buen desempeño, no sería tan efectiva como una diseñada para seleccionar gente para untrabajo en el cual la mitad de la población de solicitantes puede tener un desempeño satisfactorio.El concepto de tasa base no se limita a la selección de personal; también es importante en el diag-nóstico clínico. Por ejemplo, debido a que la incidencia de suicidios en la población general es muybaja, una prueba diseñada para identificar a personas suicidas no sería muy exacta. Se esperaría unmejor resultado de una prueba diseñada para identificar a neuróticos porque el porcentaje de neu-róticos en la población general es más alto que el de suicidas potenciales.

La cantidad de información aportada por una prueba más allá de la tasa base puede ser de-terminada consultando la tabla Taylor-Russell para la tasa base especificada (Taylor y Russell,1939). La tabla presenta el porcentaje de solicitantes seleccionados que puede esperarse tengan éxito en un trabajo, o en otra situación de selección, como función del coeficiente de validez dela prueba, la tasa base y la razón de selección. La inspección de varias tablas Taylor-Russell para tasas base específicas muestra que el porcentaje de solicitantes que se espera tengan éxito varía directamente con el coeficiente de validez, pero inversamente con la razón de selección. En general, en una tasa base intermedia y con una razón de selección baja, las calificaciones en una prueba que tiene un coeficiente de validez modesto pueden producir un incremento sustancial en el número de aciertos en una situación de selección.

El uso de las tablas Taylor-Russell supone una definición clara, discreta y dicotómica del éxito (contra el fracaso) en una situación de selección. Se han elaborado enfoques similares que implican criterios continuos de éxito basados en la teoría de la decisión y la utilidad, pero son complejos y escapan al alcance de este libro (vea Cascio y Ramos, 1986; Cronbach y Gleser,1965; Raju, Normand y Burke, 1990; Schmitt y Robertson, 1990).

Límite múltiple y regresión múltiple
Establecer la calificación límite para una prueba de selección o ubicación es un proceso complejo de juicio. Además de los factores analizados líneas arriba, la calificación límite y la utilidad de una prueba en general son afectadas por otros tipos de información del solicitante.
Con frecuencia, un conjunto de calificaciones de prueba y otras medidas se combinan para tomar decisiones de selección y clasificación. Un procedimiento para combinar calificaciones, conocido como obstáculos sucesivos o límites múltiples, establece calificaciones límite separadas en cada una de varias medidas. Entonces un solicitante debe puntuar en el punto límite o por arriba de éste en cada medida separada en una situación donde una alta calificación en una medida no compensa una baja calificación en otra medida. Por ejemplo, la habilidad para diferenciar entre tonos de diferentes alturas es esencial para el desempeño efectivo de un director de orquesta. Independientemente de qué tan altas puedan ser sus calificaciones en pruebas de habilidades cognoscitivas, no puede esperarse que las personas sordas a los tonos sean buenos directores de orquesta.

Un enfoque más matemático de la combinación de las calificaciones de una muestra grande de personas en varias medidas es determinar una ecuación de regresión múltiple en la cual se apliquen diferentes pesos asignados estadísticamente a las calificaciones en diferentes pruebas. Una vez que se han determinado los pesos de regresión, puede calcularse para cada solicitante una sola calificación de criterio pronosticada multiplicando la calificación del solicitante en cada variable por el peso apropiado, sumando los productos y restando una constante. Por ejemplo,una ecuación de regresión múltiple empleada para propósitos de admisión en una universidad fue el GPApred= .002(SAT-V) + .001(SAT-M) + .030(HSR) - 2.00, donde SAT-V y SAT-M son las calificaciones del solicitante en las secciones Verbal y Matemática de la Prueba de Evaluación Escolar, HSR es una calificación T del rango del solicitante en su clase de graduación de la preparatoria, y GPAp redes el promedio académico pronosticado en el primer año del solicitante en la universidad. Si las calificaciones de un solicitante en particular en las dos secciones del SAT son 600 y 500 y su rango en la preparatoria es 70, entonces su promedio académico pronosticado es GPApred= .002(600) + .001(500) + .030(70) –2.00 = 1.8, lo cual equivale a una C baja.

En el enfoque de regresión múltiple, una calificación alta en una variable predictora puede compensar una calificación baja en otra variable predictora. En consecuencia, este planteamiento no debería usarse cuando una calificación mínima en cualquiera de los predictores sea esencial para el desempeño efectivo en el criterio. Cuando se utiliza un enfoque de regresión múltiple, de-be calcularse un coeficiente de correlación múltiple (R), el cual es un indicador de la relación de una combinación ponderada de las variables predictoras con la variable de criterio.

RESUMEN
La confiabilidad se refiere a la libertad relativa que tienen las calificaciones de prueba de los erro-res de medición. En la teoría clásica de las calificaciones de prueba, la confiabilidad se define como la razón de la varianza de la calificación real en una prueba con la varianza de su calificación observada. Dado que la varianza de la calificación real no puede calcularse directamente, la confiabilidad debe estimarse mediante uno de varios procedimientos que toman en consideración varias fuentes de error de medición. Tres métodos tradicionales para estimar la confiabilidad de una prueba u otro instrumento de evaluación son test-retest, formas paralelas y consistencia interna. El método de formas paralelas, que tiene en consideración los errores debidos a diferentes momentos de aplicación, así como los debidos a diferentes muestras de los reactivos de prueba, es el más satisfactorio. Debido a que la elaboración de las formas paralelas es costosa y consume tiempo, los procedimientos de test-retest y de consistencia interna son las fuentes más populares de evidencia de confiabilidad. Los enfoques de consistencia interna, que son menos apropiados para las pruebas de velocidad, comprenden la división por mitades, las fórmulas Kuder-Richardson y el coeficiente alfa.

El error estándar de medición, que varía inversamente con la magnitud del coeficiente de confiabilidad, se emplea al calcular intervalos de confianza para las calificaciones reales en una prueba. Entre más grande sea el error estándar de medición, más amplio es el rango de calificaciones que puede decirse, con un grado especificado de confianza, contiene la calificación real de un examinado en la prueba.

La confiabilidad de una prueba varía directamente con el número de reactivos y la heterogeneidad del grupo que la presenta. La confiabilidad también varía con el nivel de dificultad delos reactivos que componen la prueba, siendo más alta con reactivos de dificultad intermedia.
En este capítulo se analizaron de manera breve los procedimientos para determinar la consistencia entre diferentes calificadores (confiabilidad entre calificadores) y la confiabilidad delas pruebas referidas a criterio. También se prestó atención a la teoría de la generalización, la cual conceptualiza la calificación de una prueba como la muestra de una población y, por ende,como el estimado de una calificación real o valor universal.

La confiabilidad es una condición necesaria pero no suficiente para lograr la validez, que es el grado en el cual una prueba mide lo que está diseñada para medir. La información sobre la validez de una prueba puede obtenerse de varias maneras: analizando el contenido de la prueba(validez de contenido), correlacionando las calificaciones de la prueba con calificaciones en un criterio medidas al mismo tiempo (validez concurrente), correlacionando las calificaciones de la prueba con calificaciones en un criterio medidas en un momento posterior (validez predictiva),y por el estudio sistemático de lo adecuado de la prueba para valorar un constructo psicológico especificado (validez de constructo). En las pruebas de aprovechamiento, por lo regular, se valida el contenido, mientras que la validez predictiva es de mayor interés con respecto a las pruebas de aptitud. La validez concurrente y la de constructo son importantes para las pruebas depersonalidad.

La magnitud de un error cometido al predecir la calificación de criterio de una persona a partir de su calificación en una prueba es calculada mediante el error estándar de estimación, el cual varía inversamente con el tamaño del coeficiente de validez relacionado con el criterio.Tanto el coeficiente de validez relacionado con el criterio como el error estándar de estimación son afectados por varios factores que comprenden las diferencias de grupo, la extensión de la prueba y la contaminación del criterio. Como la magnitud de un coeficiente de validez puede ser afectada por factores aleatorios, las pruebas usadas con propósitos predictivos deberían someterse a validación cruzada en muestras separadas de personas. También es importante considerar cuánto contribuyen las calificaciones de prueba al proceso de tomar buenas decisiones acerca de la gente mucho más allá de las contribuciones de otras variables (validez creciente).
La información sobre la validez de constructo de una prueba como medida de una varia-ble o característica psicológica particular puede obtenerse de varias maneras. En particular, es útil un análisis de correlación entre la prueba y otras medidas del mismo constructo obtenidas por el mismo método o por métodos diferentes, así como medidas de diferentes constructos obtenidas por el mismo método o por métodos diferentes (matriz de rasgos y métodos múltiples).

Las pruebas psicológicas se aplican en escenarios ocupacionales con propósitos de selección, clasificación, promoción y valoración periódica de empleados. Algunos de los procedimientos estadísticos que se utilizan con esos propósitos son tablas de expectativas, razones de selección y métodos de límites múltiples y regresión múltiple.

PREGUNTAS Y ACTIVIDADES
1. Calcule los coeficientes de confiabilidad de división por mitades (nones y pares) y Kuder-Richardson (fórmulas 20 y 21) en las siguientes calificaciones de diez examinados a diez reactivos en una prueba de aprovechamiento donde 1 indica una respuesta correcta y 0 una respuesta errónea.
La media ( ) de las calificaciones totales es 5.30 y la varianza (s2) es 5.21.

2. Calcule el error estándar de medición (serr) de una prueba que tiene una desviación estándar de 10 y un coeficiente de confiabilidad de formas paralelas de .84. Luego use el valor obtenido de serr para encontrar el intervalo de confianza de 95% para las calificaciones reales correspondientes a las calificaciones obtenidas de 40, 50 y 60.

3. Una prueba que consta de 40 reactivos tiene un coeficiente de confiabilidad de .80. ¿Aproximadamente cuántos reactivos más del mismo tipo general deben agregarse a la prueba para incrementar su confiabilidad a .90?

4. ¿Cuál es la diferencia entre el error estándar de medición y el error estándar de estimación? ¿Cómo se relacionan esos dos estadísticos con los coeficientes de confiabilidad y validez de una prueba?

5. ¿Cuál es el error estándar cometido al estimar los promedios académicos a partir de las calificaciones de una prueba de aptitud si la desviación estándar del criterio es .50 y la correlación entre la prueba y el criterio es .60? Si el promedio académico pronosticado de un estudiante es 2.5, ¿cuál es la probabilidad de que su promedio académico obtenido caiga entre 2.1 y 2.9? ¿Entre 1.72 y 3.28?

6. Construya una tabla empírica de expectativas para las calificaciones apareadas X, Y en la tabla A.2 del apéndice A (página 438). Deje que X sea la variable predictora (hilera) y Y la variable de criterio (columna). Use un ancho de intervalo de 7 para ambas variables al establecer los intervalos de calificación para X y Y.

7. Describa tres tipos de confiabilidad y tres tipos de validez. ¿Para qué tipos de pruebas y situaciones es más apropiado cada tipo de validez y confiabilidad?