APÉNDICE A
ESTADÍSTICA DESCRIPTIVA
Cualquier clase de medición física (de tamaño, peso, coloración, etc.) que se realiza en seres vivos varía entre los miembros individuales de una especie. Los seres humanos presentan muchas diferencias físicas entre sí —en estatura, peso, presión sanguínea, agudeza visual, etc. Las diferencias individuales en esas variables físicas, además de en las capacidades cognoscitivas, rasgos de personalidad y conductas, son apreciables. Entre otras cosas, la gente difiere en sus capacidades,intereses, actitudes y temperamento. Algunas de esas diferencias individuales pueden medirse de manera más precisa que otras, como se refleja en el tipo de escala de medición.
ESCALAS DE MEDICIÓN
La medición de las variables físicas y psicológicas puede caracterizarse por el grado de refinamiento o precisión en términos de cuatro niveles o escalas: nominal, ordinal, de intervalo y de razón. Las medidas en una escala nominal sólo se utilizan para describir o nombrar, más que para indicar orden o magnitud. Algunos ejemplos de medición nominal son los números en los uniformes deportivos o las designaciones numéricas de variables demográficas como sexo (por ejemplo, hombre = 1, mujer = 2) y grupo étnico (blanco = 0, negro = 1, hispano = 3, asiático =4). Dichos números son una forma conveniente de describir a individuos o grupos, pero no tiene sentido compararlos en términos de dirección o magnitud.
La medición en una escala ordinal es un poco más refinada que la medición nominal. Los números en una escala ordinal se refieren a las posiciones de objetos o acontecimientos en alguna variable. Por ejemplo, los números que designan el orden de terminación en una carrera u otra competencia están en una escala ordinal.
Un tercer nivel de medición es una escala de intervalo, en la cual diferencias numéricas iguales corresponden a diferencias iguales en cualquier característica medida. La escala de temperatura Celsius es un ejemplo de escala de intervalo. Así, la diferencia entre 40 °C y 60 °C es igual, en términos numéricos y de temperatura (calor), a la diferencia entre 10 °C y 30 °C. Las calificaciones estándar en las pruebas de inteligencia también se consideran mediciones de nivel de intervalo.
El nivel más alto, o más refinado, de medición es la escala de razón. Este tipo de escala tiene las características de una escala de intervalo así como un cero real: un valor de 0 en una escala de razón significa una completa ausencia de cualquier cosa que se esté midiendo. La medición realizada en una escala de razón permite que las razones numéricas se interpreten de manera significativa. Por ejemplo, la estatura se mide en una escala de razón. De modo que si Juan mide 1.82 y Pablo mide .91, es correcto decir que Juan es dos veces más alto que Pablo. Muchas variables físicas se miden en escalas de razón, pero la mayoría de las características psicológicas no son variables físicas. Las calificaciones en las pruebas psicológicas representan medición en una escala ordinal o, cuando mucho, en una escala de intervalo. Por esta razón,aunque la calificación de Francisco en una prueba de inteligencia sea de 150 y la calificación de Jaime de 50, no podemos concluir que Francisco es tres veces más inteligente que Jaime. Pero si las calificaciones en la prueba son medidas de nivel de intervalo y Mary obtiene una calificación CI de 100, podemos decir que la diferencia en inteligencia entre Francisco y Mary (150-100) es igual a la diferencia entre Mary y Jaime (100-50).
DISTRIBUCIONES DE FRECUENCIA
El rango y la distribución de las diferencias individuales en las características físicas y mentales pueden representarse por medio de una distribución de frecuencia de las calificaciones obtenidas en una prueba o algún otro instrumento psicométrico. En su forma más simple, una distribución de frecuencia es una lista integrada por las posibles calificaciones y la cantidad de personas que obtuvo cada calificación. Suponga que en una prueba de cinco reactivos se otorga un punto por cada respuesta correcta. Entonces, las posibles calificaciones son 0, 1, 2, 3, 4 y 5. Si 25 personas presentan la prueba, la distribución de frecuencia de sus calificaciones podría verse de la siguiente manera:
CALIFICACIÓN FRECUENCIA
5 1
4 4
3 9
2 6
1 3
0 2
Advierta que dos personas dieron respuestas incorrectas a los cinco reactivos, nueve respondieron bien a tres reactivos, y una persona respondió los cinco reactivos de manera correcta.
Intervalos de calificación
Cuando el rango de calificaciones en una prueba es amplio, digamos 25 puntos o más, puede ser conveniente agrupar las calificaciones en intervalos. Como ejemplo de ello, tenemos que las calificaciones del cociente de inteligencia (CI) en la Escala de Inteligencia para Adultos de Wechsler (WAIS) fluctúan entre 43 y 152 aproximadamente. Los cálculos efectuados sobre esas calificaciones pueden simplificarse al agruparlas en intervalos de 5 puntos CI, comenzando con el intervalo 43-47 y contando hasta el intervalo 148-152 (vea la columna 1 de la tabla A.1). Es-to nos da 22 intervalos en lugar de los 110 intervalos (CI de 43 a 152) que podrían resultar si se asignara un intervalo para cada calificación posible. La utilización del menor número de intervalos tiene poco efecto sobre la precisión estadística que se calcula a partir de la distribución de frecuencia de las calificaciones CI de la WAIS, y es una manera más eficiente de describir las calificaciones.
TABLA A.1 Distribución de frecuencia de los CI de escala completa en la escala WAIS*
Histograma y polígono de frecuencia
Una distribución de frecuencia de calificaciones puede representarse gráficamente como un histograma o un polígono de frecuencia. Para elaborar un histograma, primero deben determinarse los límites exactos de los intervalos de calificación. Los límites exactos de un intervalo se calculan restando .5 del límite inferior y sumando .5 al límite superior del intervalo. Por ejemplo, los límites exactos del intervalo 43-47 en la tabla A.1 son 42.5 y 47.5, y los límites exactos del intervalo 148-152 son 147.5 y 152.5. Después de que se han calculado los límites exactos de todos los intervalos, la frecuencia correspondiente a cada intervalo se representa como una barra vertical con una anchura que se extiende sobre los límites exactos y una altura proporcional al número de calificaciones que cae en el intervalo. La figura A.1 es un histograma de la distribución de frecuencia de la tabla A.1.
Una distribución de frecuencia también puede ser representada por una serie de segmentos de línea conectados. En la figura A.2, los puntos que corresponden a las frecuencias y los puntos medios de los intervalos de calificación en la tabla A.1 se unieron para formar un polígono de frecuencia.
FIGURA A.1 Histograma de la distribución de frecuencia de la tabla A.1
FIGURA A.2 Polígono de frecuencia de la distribución de frecuencia de la tabla A.1
La curva normal
El polígono de frecuencia que muestra la figura A.2 no es una curva suave, pero su apariencia es similar a la de una curva simétrica en forma de campana. Más personas obtuvieron calificaciones aproximadas de 100 (en realidad, 98-102) que cualquier otra calificación, y cada vez menos personas obtuvieron calificaciones menores o mayores de 100. Si el polígono de frecuencia fuera perfectamente simétrico, suave y con forma de campana, se parecería a la figura A.3.
La gráfica mostrada en la figura A.3, la cual puede ser descrita por una ecuación matemática, se denomina curva normal. Las calificaciones en el eje base de esta curva son calificaciones estándar (calificaciones z), cuyo cálculo se describe en el capítulo 4. Esas calificaciones z sirven como un método estándar conveniente de expresar y comparar las calificaciones de la misma persona en dos o más pruebas, o las calificaciones de dos o más personas en la misma prueba.
FIGURA A.3 Distribución normal estándar
Cierto porcentaje del área situada bajo la curva en la figua A.3 cae entre dos calificaciones z cualquiera. Este porcentaje puede corresponder al porcentaje de un grupo de personas cuyas calificaciones crudas en la prueba, al convertirse a calificaciones z, caen dentro del rango de las dos calificaciones z. Por ejemplo, 19.15% del área bajo la cura y, en consecuencia, 19.15% de una distribución normal de calificaciones en la prueba caen entre z=0 y z=.5 (o z=0 y z=-.5). Por otro lado, sólo 1.66% del área bajo una curva normal cae entre z= +2.0 y z= + 2.5 (o z=-2.0 y z=-2.5).
El rango teórico de calificaciones z es una distribución normal es menos infinito a más infinito, pero más 99% del área bajo la curva normal (o 99% de una distribución normal de calificaciones en la prueba) cae entre las calificaciones z de -3.00 y + 3.00. Por supuesto, cuando se convierte la calificaciones z presentadas en el eje horizontal de la figura A.3. Debe utilizarse una tabla especial como la que se presenta en el apéndice B de este libro o un programa de computadora para determinar el porcentaje del área que cae debajo de, y por sustracción entre, dos valores cualesquiera de z.
A finales del siglo XIX y principios del XX, hubo mucha especulación concerniente a si la curva normal expresaba una ley inherente de la naturaleza. La razón para esta creencia fue que las distribuciones de frecuencia de las mediciones efectuadas sobre muchas características de los organismos vivos son de una forna normal aproximada. En efecto, buena parte de la teoría matemática de inferencia estadística, la cual es muy importante en la investigación psicológica y educativa, se basa en la suposición de una distribución normal de las mediciones. Sin embargo, debemos ser cuidadosos y no glorificar la curva normal. Aunque muchas pruebas están elaboradas de tal forma que sus calificaciones se distribuyen de manera aproximadamente normal, las distribuciones de frecuencia de las calificaciones de otras pruebas son muy asimétricas o sesgadas. Una situación común es una distribución de calificaciones son sesgo positivo (pocas calificaciones altas y muchas calificaciones bajas), la cual representa los resultados de una prueba que quizá era demasiado difícil (vea la figura A.4). Menos común es una distribución con sesgo negativo (muchas calificaciones altas y pocas calificaciones bajas), la cual ocurre cuando una prueba es demasiado sencilla.
FIGURA A.4 Distribuciones de frecuencia sesgadas
MEDIDAS DE TENDENCIA CENTRAL
Además de graficar la distribución de un conjunto de calificaciones de prueba, es conveniente tener alguna medida de la calificación típica o promedio. Es posible calcular tres tipos de promedio: moda, mediana y media aritmética.
Moda
La moda de un conjunto de calificaciones de prueba es la calificación obtenida por el mayo número de personas. En la prueba de cinco reactivos mencionada antes, más personas (9) obtuvieron una calificación de 3 que cualquier otra calificación, por lo que la moda es 3. Cuando las calificaciones de la prueba se agrupan en intervalos, la moda es el punto medio del intervalo que contiene el mayor número de calificaciones. En la tabla A.1, el intervalo de calificación 98-102 contiene el mayor número de calificaciones (278); el punto medio de ese intervalo- (98 + 102)/2=100 - es la moda de esa distribución de frecuencia.
Como se observa en el polígono de frecuencia de la figura A.2 la moda es la calificación que corresponde al punto más alto en una distribución de frecuencia. La figura A.2 ilustra una distribución unimodal con un solo pico. En ocasiones una distribución de frecuencia tiene más de un pico; es bimodal si tiene dos picos y multimodal cuando presenta más de dos.
Mediana
La mediana (Mdn) de un conjunto de calificaciones es la calificación intermedia, es decir, la calificación por debajo de la cual cae la mitad de las calificaciones. La mediana de 7, 6, 9, 5 y 3 es 6, porque 6 se encuentra en el centro cuando esas cinco calificaciones se ordenan de las más alta a la más baja. Cuando el número de calificaciones es par, la mediana se define como la media de las dos calificaciones intermedias.
Se requieren unos cuantos pasos para calcular la mediana de una distribución de frecuencia, pero puede encontrarse con bastantes rapidez interporlando dentro del intervalo en que que cae. Para ilustrar el procedimiento, se calculará la mediana de la distribución de frecuencia de la tabla A.1. El número total de calificaciones es 2,052, así que la mediana es la calificación CI por debajo y por encima de la cual caen .5(2,052)=1.026 calificaciones. Al sumar sucesivamente las frecuencias en la columna 2 de la tabla A.1, encontramos que hay 860 calificaciones hasta el intervalo 93-97 y 1,138 hasta el intervalo 98-102. Expresado en términos de los límites superiores exactos de los intervalos, decimos que 860 calificaciones caen por debajo de 97.5 y 1,138 calificaciones caen por debajo de 102.5. Como la mediana es la calificación por debajo de la cual caen 1,026 calificaciones, se encuentra entre 97.5 y 102.5. Para encontrar la mediana exacta, formamos la razón (Mdn ?97.5)/(102.5 ? 97.5) ? (1,026 ? 860)/(1,138 ? 860). Al resolver es-ta ecuación obtenemos un valor de 100.49 para la mediana.
El procedimiento descrito líneas arriba para encontrar la mediana de una distribución de frecuencia puede simplificarse como:
Fórmula (A.1)
En esta fórmula, L es el límite exacto inferior y w es la amplitud del intervalo que contiene la mediana, nt es el número total de calificaciones en la distribución, nb es el número de calificaciones que caen por debajo del intervalo que contiene la mediana, y ni es el número de calificaciones que caen en el intervalo que contiene la mediana.
El operador de sumatoria
Antes de considerar el procedimiento para calcular la media aritmética, debe familiarizarse con el símbolo especial ?. Este símbolo, la letra mayúscula griega sigma, es una forma abreviada de designar la operación matemática de la suma. De este modo.
Fórmulas en una imagen en la carpeta.
Media aritmética
Si bien la moda es fácil de calcular, se ve muy afectada por la forma de la distribución de frecuencia de calificaciones. La mediana, que se ve menos afectada por la forma de la distribución de frecuencia, es la medida de tendencia central preferida cuando la distribución es muy asimétrica o sesgada. Como resulta engorroso trabajar con la mediana en la teoría estadística, la medi aaritmética es la medida de tendencia central (promedio) más popular. La media aritmética de un conjunto de calificaciones (X) se determina sumando las calificaciones y dividiendo la suma resultante entre el número de calificaciones:
Fórmula (A.2)
La media de las calificaciones X en el problema precedente es 7/3 = 2.33.
Cuando las calificaciones se agrupan en la forma de una distribución de frecuencia, la media puede encontrarse con mayor rapidez (1) multiplicando el punto medio (Xi) de cada intervalo por la frecuencia (fi) en el intervalo; (2) sumando esos productos fX?, y (3) dividiendo la sumar esultante de los productos entre el número total de calificaciones (n):
Fórmula (A.3)
Por ejemplo, la media aritmética del problema de cinco reactivos descrito antes (página 429) se calcula de la siguiente manera:
Ejemplo imagen en la carpeta.
A manera de ejercicio, verifique si la media aritmética de la distribución de frecuencia dada en la tabla A.1 es 99.96
PERCENTILES, DECILES Y CUARTILES
La mediana se conoce en ocasiones como el percentil 50o. porque 50% de las calificaciones cae por debajo de ella. Una distribución de frecuencia puede dividirse en 100 percentiles; el percentil p es el valor por debajo del cual cae el p por ciento de las calificaciones. Por ejemplo, el percentil 25o. es el valor por debajo del cual cae 25% de las calificaciones, y el percentil 75o. es el valor por debajo del cual cae 75% de las calificaciones. Cualquier percentil puede calcularse por un procedimiento similar al descrito antes para encontrar la mediana.
Además de los percentiles, una distribución de frecuencia puede dividirse en décimos (deciles), quintos (quintiles) o cuartos (cuartiles). El cuarto decil (o percentil 40o.) es el valor por debajo del cual caen cuatro décimos de las calificaciones, y el tercer cuartil (o percentil 75o.) es el valor por debajo del cual caen tres cuartos de las calificaciones. Note que el percentil 50o., el quinto decil y el segundo cuartil son iguales al mismo valor numérico.
MEDIDAS DE VARIABILIDAD
Una medida del promedio o tendencia central no proporciona, por sí misma, una descripción analítica adecuada de una muestra de calificaciones. Las distribuciones de frecuencia de las calificaciones difieren no sólo en sus promedios, sino también en su grado de variabilidad (dispersión), simetría y carácter puntiagudo. Se describirán tres medidas de variabilidad: el rango, el rango semi intercuartilar y la desviación estándar.
Rango y rango semiintercuartilar
El rango simple, definido como la calificación más alta menos la calificación más baja, es la medida de variabilidad más sencilla de calcular. El rango de calificaciones en el problema de cinco reactivos descrito antes es 5 ? 0 ? 5, y el rango de las calificaciones CI en la tabla A.1 es 152? 43 ? 109. En la mayoría de los casos, el rango es una medida pobre de variabilidad debido a que se ve muy afectado por una sola calificación muy alta o muy baja. Un tipo modificado de rango conocido como rango semiintercuartilar se utiliza en ocasiones como un índice de variabilidad cuando la distribución de calificaciones es muy sesgada. El rango semiintercuartilar, o Q, se calcula como la mitad de la diferencia entre el percentil 75o.(tercer cuartil) y el percentil 25o.(primer cuartil).
Como ejercicio, verifique si, para la distribución de frecuencia dada en la tabla A.1, el pri-mer cuartil es 90.41, el tercer cuartil es 110.33 y el rango semiintercuartilar es 9.96. Los dos cuartiles pueden encontrarse por el mismo tipo de procedimiento de interpolación lineal que se empleó para calcular la mediana. Como el primer cuartil es la calificación por debajo de la cualca en .25(2,052) ? 513 calificaciones, interpolamos dentro del intervalo 87.5 a 92.5. Luego se determina el primer cuartil resolviendo para Q1en la expresión:
Fórmula en la imagen
Para encontrar el tercer cuartil, el cual es la calificación .75(2,052) ? 1,539o., interpolamos dentro del intervalo 107.5 a 112.5. Luego se calcula el tercer cuartil resolviendo para Q3en la expresión:
Fórmula en la imagen
Desviación estándar
La medida más común de variabilidad, la desviación estándar, resulta apropiada cuando la media aritmética es el promedio reportado. La desviación estándar de una muestra de calificaciones puede calcularse a partir de:
Fórmula (A.4)
Por ejemplo, para encontrar la desviación estándar de 7, 6, 9, 5 y 3, comenzamos por calcular ?X ? 30 y ? X2? 200. Entonces,
Fórmula en la imagen.
la cual es la varianza de nuestros cinco números. Al extraer la raíz cuadrada de la varianza se obtiene 2.24, la desviación estándar.
Al establecer que ? X = ? f (X?) y ? X2= ? f (X?2), donde f es la frecuencia y X’ el punto medio de un intervalo, podemos usar la fórmula A.4 para calcular la desviación estándar de una distribución de frecuencia. A manera de ejercicio, confirme que la desviación estándar de la distribución de frecuencia del problema de cinco reactivos referido antes es 1.26, y que la desviación estándar de la distribución de frecuencia dada en la tabla A.1 es 14.85.
CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE
El método de correlación ha sido empleado con frecuencia en el análisis de los datos de prueba, y también es muy importante en la teoría clásica de las pruebas. La correlación se ocupa de determinar el grado en que dos conjuntos de medidas, como las calificaciones en una prueba de inteligencia y las notas escolares, están relacionadas. La magnitud y dirección de la relación entre dos variables se expresa como un índice numérico, al cual se le conoce como el coeficiente de correlación. De los muchos tipos diferentes de coeficiente de correlación, el más popular es el coeficiente producto-momento de Pearson, o r. Su valor fluctúa entre ?1.00 (una relación inversa perfecta)y ?1.00 (una relación directa perfecta). Sin embargo, el coeficiente r de Pearson no es el único coeficiente de correlación que se utiliza para analizar y aplicar las calificaciones de prueba. Por ejemplo, el coeficiente de correlación biserial puntual, el cual se describe en el capítulo 4, se usa ampliamente en el análisis de reactivos.
Cálculo del coeficiente producto-momento
La tabla A.2 ilustra los cálculos iniciales para determinar el coeficiente de correlación entre 30 pares de calificaciones X?Y. Dejemos que X sea una calificación en una prueba de capacidad y Y una calificación del desempeño en el trabajo. De este modo, la primera persona obtuvo 44 en la prueba de capacidad y 69 en la calificación del desempeño, mientras que las calificaciones correspondientes para la segunda persona son 38 y 46. Los encabezados de las columnas indican los pasos para calcular r:
TABLA A.2 Cálculo de las sumas para determinar la correlación producto-momento
Fórmula (A.5)
El significado de la correlación
El método de correlación es útil en el campo de las pruebas psicológicas por diversas razones,entre las cuales está el hecho de que la correlación implica la posibilidad de hacer predicciones.
La precisión con que puede predecirse la calificación de una persona en la medida Y a partir de su calificación en la medida X depende de la magnitud de la correlación entre las calificaciones en las dos variables. Entre más cercano sea el coeficiente de correlación a un valor absoluto de 1.00 (sea ?1.00 o ?1.00), menor será el error promedio cometido al predecir las calificaciones Y a partir de las calificaciones X. Por ejemplo, si la correlación entre las pruebas X y Y es cercana a ?1.00, puede predecirse con confianza que una persona que obtenga una calificación alta en la variable X también la obtendrá en la variable Y, y quien obtenga una calificación baja en X obtendrá una calificación baja en Y. Por otro lado, si la correlación es cercana a ?1.00, puede predecirse con cierta confianza que una persona que obtenga una calificación elevada en X obtendrá una calificación baja en Ym y quien califique bajo en X calificará algo en Y. Entre más cercano sea el valor de r a + 1.00 o a -1.00, más precisa serpa la predicción; entre más cercano sea r a .00, menos precisa será la predicción. Cuando r=.00, la predicción de la calificación de una persona en una variable a partir de su calificación en la otra variable no será mejor que el azar.
Es importante recordar que la correlación implica predicción, pero no supone causalidad. El hecho de que dos variables estén relacionadas no significa que una variable sea por necesidad causa de la otra. Ambas variables pueden estar influidas por una tercera variable, y la correlación entre las dos primeras es un reflejo de esta causa común. Por ejemplo, puede demostrarse que las edades mentales de un grupo de niños con una amplia gama de edades cronológicas se correlacionan de manera positiva con el tamaño de sus zapatos. La edad mental no es causa del tamaño de los zapatos ni viceversa, sino que la correlación positiva entre esas dos variables se debe a la influencia de una tercera variables, madurez o crecimiento físico, sobre la edad mental y el tamaño de los zapatos. El hecho de que dos variables tengan una correlación significativa facilita la predicción del desempeño en una a partir del desempeño en la otra, pero no proporciona información directa sobre si las dos variables mantienen una conexión causal.
Regresión lineal simple
El coeficiente de correlación producto-momento, el cual es una medida de la relación lineal entre dos variables, es en realidad un coproducto del procedimiento estadístico para encontrar la ecuación de la línea recta que mejor se ajusta al conjunto de puntos que representan los valores pareados X-Y. Para ilustrar el significado de esta afirmación, los pares de valores X-Y presentados en la tabla A.2 se trazan como un diagrama de dispersión en la figura A.5.
FIGURA A.5 Diagrama de dispersión, de las calificaciones dadas en la tabla A.2, que muestra la línea de regresión y un problema ilustrativo
Es claro que los 30 puntos no caen en la misma línea recta, pero puede ajustarse una línea a través de los puntos de tal manera que la suma de las distancias verticales elevadas al cuadrado de los puntos a partir de la línea sea lo más pequeña posible. Una fórmula para encontrar esta línea de regresión de cuadrados mínimos es:
Fórmula (A.6)
donde y son las medias y s x y s y las desviaciones estándar de las variables X y Y. Para los datos en la tabla A.2, ? 49.93, ? 50.37, sx? 13.19, sy? 11.04 y r ? .52. Al ingresar esos números en la fórmula A.6 y simplificar se obtiene la ecuación lineal Ypred? .44X ? 28.64. Al usar esta ecuación puede predecirse la calificación de una persona en la variable Y con una precisión mejor que el azar a partir de su calificación en la variable X. Por ejemplo, como lo ilustran las líneas punteadas en la figura A.5, si X ? 42, Y pred? .44(42) ? 28.64 ? 47.12. Esto significa que si una persona obtiene una calificación de 42 en la variable X, la mejor estimación de su calificación en la variable Y es aproximadamente 47.
REGRESIÓN MÚLTIPLE Y ANÁLISIS FACTORIAL
Muchos otros procedimientos estadísticos se emplean al analizar las calificaciones de prueba y se utilizan con propósitos de evaluación y predicción. Entre esos procedimientos se encuentran el análisis de regresión múltiple, el análisis discriminante, el análisis de perfiles, el escalamiento multidimensional y el análisis factorial. Todos esos temas se consideran en detalle en libros de estadística y psicometría avanzadas (por ejemplo, Nunnally y Bernstein, 1994), por lo que en interés del espacio aquí sólo se considerarán el primero y el último.
Regresión múltiple
El análisis de regresión lineal simple que involucra una variable independiente (X) puede ser extendido a dos o más variables independientes. Dejemos que Y represente una variable criterio como el aprovechamiento académico o el desempeño en el trabajo, y hagamos que X1, X2, X3...,Xn representen una serie de n variables independientes (predictoras). En símbolos, el problema de predecir el criterio a partir de esas variables puede expresarse como el encontrar una solucióna la ecuación Yp= B1X1? B2X2? B3X2? ... ? BnXn? A.
Fórmula regresión múltiple
En esta ecuación, Yp es el valor anticipado de Y, las B son los pesos de regresión no estandarizados (calificación cruda) para las variables independientes correspondientes y A es una constante que denota el punto en el cual el plano de regresión n-dimensional intersecta con el eje Y. La importancia relativa o significancia de las n variables independientes para predecir el criterio está indicada por la magnitud de los coeficientes de regresión estandarizados (?), los cuales son iguales a ?i= (si/sy)Bi. Un índice de la precisión combinada de las variables independientes para predecir el criterio es R, el coeficiente de correlación múltiple.
Como ejemplo práctico, suponga que un investigador está interesado en realizar un análisis de regresión múltiple para determinar la efectividad de las calificaciones de un grupo de estudiantes de primer grado en tres variables independientes [una prueba de preparación para la lectura (X1), una prueba de inteligencia (X2), y un entero (1 ? varón, 2 = mujer) que indica el sexo (género) del niño (X3)] para predecir las calificaciones (Yp) en una prueba de aprovechamiento en lectura aplicada a los estudiantes al terminar el primer grado. Los cálculos requeridos para este análisis de regresión múltiple pueden realizarse con facilidad por una computadora usando un paquete estadístico como el SPSS.
La entrada a la computadora para el problema pueden ser las calificaciones de los estudiantes en las tres pruebas y el valor codificado para el sexo, o, de manera alternativa, las correlaciones entre las cuatro variables. Supongamos que las correlaciones entre las cuatro variables ya han sido calculadas. Tomando nota de que los subíndices 1, 2 y 3 se refieren a las variables independientes 1, 2 y 3 y que el subíndice y se refiere a la variable dependiente, esas correlaciones son r12? .466, r13? .055, r23? .072, ry1? .612, ry2? .541 y ry3? .197. Además de las correlaciones entre las variables necesitamos ingresar sus medias y desviaciones estándar a la computadora. Éstas son = 49.0, ? 102.8, ? 1.48, ? 26.0, s1? 10.3, s2? 14.7,s3? .501 y sy? 8.10.3
Un programa de regresión múltiple típico calcula, junto con otros estadísticos, los pesos de regresión estandarizados (?) y no estandarizados (B) para las variables independientes, el intercepto Y, el coeficiente de correlación múltiple (R), los errores estándar de los pesos de regresión, y las razones críticas para determinar la significancia estadística de los pesos de regresión. Para el problema anterior, los pesos de beta (?) son ?1? .4556, ?2? .3179, y ?3?.1490; los pesos de B son B1? .3583, B2? .1752, y B3? 2.4098; y el intercepto Y (A) es??13.1338. Así, la ecuación de regresión de la calificación cruda (no estandarizada) es
Yp? .3583X1? .1752X2? 2.4098X3? 13.1338
Las pruebas estadísticas realizadas en los pesos de regresión indican que todos son significativos, con la primera variable independiente siendo el mejor pronosticador seguido de la segunda variable independiente. La efectividad global de los tres pronosticadores, en combinación, para predecir las calificaciones en la variable criterio está indicada por un coeficiente de correlación múltiple de R ? .693, un valor significativamente alto.
Existen muchos otros aspectos en el análisis de regresión y se han escrito libros enteros sobre el tema. Este breve tratamiento, el cual apenas ha tocado la superficie de una importan tetécnica estadística en psicometría, debe servir para estimular el interés del lector por conocer tratamientos más amplios (por ejemplo, Kleinbaum, Kupper, Muller y Nizam, 1998).
Fórmulas en la imagen de la carpeta.
Análisis factorial
El propósito principal del análisis factorial es reducir el número de variables en un grupo de medidas tomando en cuenta el traslape (correlaciones) entre ellas. En el campo de las pruebas psicológicas, el problema es encontrar unos cuantos factores sobresalientes que expliquen la mayor parte de la varianza de un grupo de calificaciones en diferentes pruebas. La gran variedad de procedimientos existentes para extraer esos factores de las calificaciones de prueba se basan en un teorema particular: la varianza observada (total) de una prueba (s2obs) es igual a la suma de la varianza debida a factores que la prueba tiene en común con otras pruebas (s2com), la varianza específica para la prueba misma (s2esp), y la varianza producida por errores de medición (s2err). En consecuencia, la fórmula 5.1 del capítulo 5 (página 86) puede replantearse de la siguiente manera:s2obs= s2com? s2esp? s2err.
Fórmula (A.7)
En la fórmula A.7, a la cual se hizo referencia en el capítulo 5 como la varianza real de una prueba (s2rea), la varianza observada se divide en varianza de factores comunes y varianza de factores específicos. La parte de la varianza observada que se debe a factores comunes se denomina comunalidad de una prueba, mientras que la parte debida a factores específicos es su especificidad. A partir de estas definiciones y de las fórmulas 5.2 y A.7, podemos expresar la ecuación:
confiabilidad = comunalidad + especificidad. (A.8)
Un componente de esta ecuación, la comunalidad de una prueba, se obtiene de los resultados de un análisis factorial que implica a esta prueba. Luego, si se conoce la confiabilidad de la prueba,su especificidad puede encontrarse por sustracción. Un análisis factorial ilustrativo debe aclarar estas cuestiones.
Una forma de comenzar un análisis factorial de las calificaciones de n personas en un grupo de pruebas es calcular las correlaciones entre todas las pruebas y acomodarlas en la forma de una matriz. Esto se ha hecho en la tabla A.3 con las correlaciones promedio entre las subpruebas de la WISC III para todas las edades en la muestra de estandarización de la prueba (n = 1,880). Advierta que la matriz es simétrica; es decir, las correlaciones en una hilera determinada son idénticas a las de la columna correspondiente. Además, no hay entradas en la diagonal que va de la esquina superior izquierda a la esquina inferior derecha de la matriz.
TABLA A.3 Matriz de correlaciones promedio entre las subpruebas de la WISC-III
La decisión concerniente a qué valores colocar en la diagonal de la matriz —las confiabilidades de las pruebas, las estimaciones de sus comunalidades o todos los 1.00—depende del procedimiento particular de análisis factorial o de la teoría que siga el investigador. En un tipo de procedimiento de factorización, el método central, en la diagonal de la matriz de correlación se colocan las estimaciones de las comunalidades de las pruebas. Por otro lado, el método de componentes principales requiere colocar los 1.00 en la diagonal. Sin extenderse en la cuestión de qué entradas en la diagonal son mejores, debe enfatizarse que la elección afecta tanto el número de factores extraídos como los pesos obtenidos (cargas factoriales) de cada prueba en cada factor. El siguiente análisis factorial fue realizado siguiendo el método de componentes principales, usando 1.00 en la diagonal de la matriz de correlación.
Factorización de la matriz de correlación. El resultado inmediato de un análisis factorial típico es una matriz de factores original (sin rotar) como la que se presenta en las columnas A, B y C de la tabla A.4. Observe que el análisis factorial ha reducido el número de variables o dimensiones psicológicas de 13, que es el número total de subpruebas en la WISC-III, a tres, el número de factores comunes extraído. Los números decimales en cada columna de la matriz de factores son las cargas de las 13 subpruebas de la WISC-III en ese factor. Por ejemplo, la subprueba de Información tiene una carga de .78 en el factor A, pero tiene cargas de sólo ?.33 y .03 en los factores B y C. Cada carga de factor es la correlación entre una subprueba particular y ese factor. El cuadrado de la carga de una subprueba determinada en un factor es la proporción de la varianza total de las calificaciones de la subprueba que puede ser explicada por ese factor. De este modo,(.78)2= .61 significa que 61% de la varianza de las calificaciones en la subprueba de Información puede ser explicada por el factor A. Sólo (-.33)2= .11, u 11%, de la varianza de las calificaciones de la subprueba de Información puede ser explicada por el factor B, y (.03)2= .0009,o .09%, de la varianza de la subprueba de Información puede ser explicada por el factor C.
TABLA A.4 Matrices de factores originada y rotada
La suma de los productos cruzados de las cargas factoriales correspondientes de dos subpruebas cualesquiera en la tabla A.4 es una estimación de la correlación entre esas dos subpruebas. Por ejemplo, se estima que la correlación entre las subpruebas de Información y Aritmética a partir de las cargas en la matriz de factores original es .78(.74) + (-.33) (-.10) + (.03)(.12)= .61. Ésta es una aproximación bastante cercana a la correlación real de .57 (vea la tabla A.3). La precisión con la que se reproduce la matriz de correlación mediante estimaciones determinadas a partir de las cargas factoriales depende del grado en que los factores obtenidos expliquen la varianza total entre las subpruebas.
Rotación de los factores. Es posible aplicar un proceso conocido como rotación de factores a la matriz de factores original a fin de incrementar el número de cargas positivas altas y bajas en las columnas de la matriz de factores. El resultado es una configuración más simple de las cargas factoriales, lo que facilita la interpretación de los factores. Dependiendo del método particular de rotación seleccionado, pueden obtenerse factores no correlacionados (ortogonales) o correlacionados (oblicuos). Algunos analistas factoriales prefieren la rotación ortogonal mientras que a otros les agrada la rotación oblicua. La matriz de factores rotados mostrada en la tabla A.4 (columnas A?, B? y C?) se produjo mediante una rotación ortogonal (varimax) de la matriz de factores original, por ello los factores rotados son no correlacionados.
Interpretación de los factores rotados. Una vez completados los cálculos estadísticos implicados en la factorización de la matriz de correlación y la rotación de los factores extraídos, estamos listos para examinar el patrón de cargas altas y bajas de cada prueba en cada factor. Entre más alta sea una carga particular, más importante es el factor en la prueba dada. Como se muestra en la tabla A.4, las subpruebas de Información, Semejanzas, Vocabulario y Comprensión tienen cargas de más de .70 en el factor A?. Debido a que éstas son subpruebas verbales, el factor A?puede denominarse factor verbal. Otras subpruebas también tienen cargas apreciables en el factor A?, así que este factor se acerca a lo que se entiende por un factor cognoscitivo general (g). Lassubpruebas de Figuras incompletas, Diseño con cubos y Ensamble de objetos tienen cargas de moderadas a altas en el factor B?. Considerando los tipos de tareas que comprenden esas tres subpruebas, el factor B? puede denominarse factor espacial-perceptual o de imágenes espaciales. Por último, las subpruebas de Codificación y Búsqueda de símbolos, ambas implican transformar un conjunto de símbolos abstractos a otro, tienen cargas altas en el factor C?. Éste parece ser un factor bastante específico que comprende rapidez perceptual, precisión y libertad de pasa tiempos.
Comunalidad y especificidad. La última columna de la tabla A.4 contiene las comunalidades de las 13 subpruebas de la WISC-III, calculadas como la suma de los cuadrados de las cargas factoriales rotadas en una subprueba determinada. Por ejemplo, la comunalidad de la subprueba de Información es (.80)2? (.25)2? (.09)2? .71, por lo que 71% de la varianza de las calificaciones de la subprueba de Información puede ser explicada por los factores A?, B? y C?. Si se conoce la confiabilidad de la subprueba de Información, puede usarse la fórmula A.8 para calcular su especificidad. Además, al restar la comunalidad de 1.00 se obtiene la proporción de la varianza total de la subprueba que puede atribuirse a una combinación de factores específicos y la varianza de error. Para la subprueba de Información esta cifra es 1.00 ? .71 ? .29; es decir, 29% de la varianza total de las calificaciones en la subprueba de Información puede ser explicada por factores específicos y errores de medición. Sabiendo que la confiabilidad estimada de la subprueba de Información es .84, podemos restar su comunalidad (.71) y encontrar que su especificidad es .13(vea la fórmula A.8).
RESUMEN
El análisis estadístico de las calificaciones de las pruebas comienza con la elaboración de una distribución de frecuencia del número de personas que obtienen cada calificación o cuyas calificaciones caen dentro de un intervalo especificado. Las distribuciones de frecuencia pueden representarse de manera gráfica como histogramas o polígonos de frecuencia. La curva normal es un polígono de frecuencia teórico que resulta básico para gran parte de la teoría de las pruebas y se utiliza con diversos propósitos. Las distribuciones de frecuencia asimétricas, no normales,pueden tener un sesgo a la derecha (con sesgo positivo) o a la izquierda (con sesgo negativo).
Tres medidas de la tendencia central o promedio de un grupo de calificaciones, la moda,la mediana y la media, pueden calcularse a partir de las calificaciones crudas o de una distribución de frecuencia. La moda es la calificación que ocurre con mayor frecuencia, la mediana es el valor por debajo del cual cae 50% de las calificaciones y la media aritmética es la suma de las calificaciones dividida entre el número de calificaciones. Tres medidas de la variabilidad o dispersión de un grupo de calificaciones son el rango, el rango semiintercuartilar y la desviación estándar. De éstas, la desviación estándar es la medida de variabilidad más popular y más apropiada cuando la media aritmética es el promedio reportado. Para propósitos de comparación e interpretación, las calificaciones crudas pueden convertirse a calificaciones estándar z, percentiles y otras calificaciones transformadas.
El coeficiente de correlación producto-momento, el cual es un número entre ?1.00 (correlación negativa perfecta) y ?1.00 (correlación positiva perfecta), es una medida de la magnitud y dirección de la relación entre dos variables. Una correlación significativa entre dos variables facilita la predicción de la calificación de una persona en una variable a partir de su calificación en la otra variable. Sin embargo, no debe suponerse que una correlación elevada entre dos variables implica una conexión causal entre ellas. Aunque la causalidad implica correlación,la correlación no implica causalidad.
Las correlaciones entre variables pueden usarse en análisis de regresión lineal simple y múltiple para emitir pronósticos de las calificaciones en una variable dependiente (Y o criterio)a partir de las calificaciones en una o más variables independientes (X o pronosticadoras). Los procedimientos de correlación también se usan en el análisis factorial para determinar las dimensiones o factores que diferentes pruebas tienen en común. El análisis factorial de las calificaciones obtenidas por una muestra grande de personas en un grupo de pruebas o reactivos consiste en extraer los factores, rotar los ejes de los factores, e interpretar los factores resultantes.Los factores son interpretados inspeccionando las cargas de las diversas pruebas en el factor. El cálculo de la comunalidad (varianza de factores comunes) y la especificidad (varianza de factores específicos) también puede contribuir al proceso de interpretación de factores.
PREGUNTAS Y ACTIVIDADES
1.Considere la siguiente distribución de frecuencia de las calificaciones obtenidas por un grupo de 50 estudiantes en una prueba:
Tabla en la imagen
Trace un histograma y un polígono de frecuencia sobre impuesto de esta distribución de frecuencia.Calcule luego la media aritmética, la mediana, la desviación estándar, el percentil 25o., el percentil75° y el rango semiintercuartilar de las calificaciones.
2.Usando la tabla del apéndice B, encuentre el porcentaje del área bajo la curva normal que cae por debajo de cada una de las siguientes calificaciones z: ?2.575, ?2.33, -1.96, ?1.645, .00, 1.645,1.96, 2.33 y 2.575. A continuación encuentre las calificaciones z debajo de las cuales cae 10, 20, 30,40, 50, 60, 70, 80 y 90 por ciento del área bajo la curva normal.
3.Considere los siguientes pares de calificaciones X, Y de 30 personas:
Tabla en la imagen
Calcule los siguientes estadísticos: medias
aritméticas y desviaciones estándar de X y Y, correlación producto-momento entre X y Y, y línea de regresión para predecir Y a partir de X. Represente gráficamente (diagrama de dispersión) los puntos X, Y, y dibuje la línea de regresión de Y en X.
4.Cada vez que la distribución de frecuencia de un grupo de calificaciones muestra un sesgo marcado en una dirección positiva (a la derecha) o negativa (a la izquierda), se considera que la mediana es una medida mejor y menos sesgada de la tendencia central que la media aritmética. ¿Por qué?
5.¿Cuál es el propósito de conducir un análisis de regresión múltiple en un conjunto de datos psicométricos? ¿Cuál es el propósito de realizar un análisis factorial? Consulte las bases de datos Psyc-LIT o PsycINFO de los últimos años y encuentre dos estudios en los cuales se haya empleado un procedimiento de regresión múltiple y otros dos estudios donde se haya usado un análisis factorial.Resuma el procedimiento usado y los resultados obtenidos.