CAPÍTULO DIECISÉIS
LISTAS DE VERIFICACIÓN Y ESCALAS DE CALIFICACIÓN
La información obtenida a partir de observaciones y entrevistas, de manera formal o informal, puede registrarse de diversos modos. Debido a la enorme masa de datos producida en las largas sesiones de observación y entrevista, los resultados casi siempre se resumen de algún modo. Junto con una descripción condensada por escrito, las listas de verificación y las escalas de calificación son instrumentos útiles para resumir los datos obtenidos a partir de observaciones y entrevistas. Si bien los reactivos de las listas de verificación, por lo regular, sólo requieren respuestas dicotómicas (presente/ausente, sí/no y así por el estilo), en algunas listas de verificación se proporcionan tres opciones (marca sí, marca no, o sin marca). En las escalas de calificación se pide a la persona que responde formular juicios evaluativos sobre una serie ordenada de tres o más categorías.
Superadas en popularidad sólo por las pruebas de aprovechamiento, las listas de verificación y las escalas de calificación son instrumentos psicométricos convenientes, económicos y versátiles. Pueden ser elaboradas con facilidad, aplicadas de manera conveniente con sólo lápiz y papel, utilizadas para describirse uno mismo, describir a alguien o algo más, y ser adaptadas ala medición de una amplia gama de conductas, características personales y otros objetos, acontecimientos o condiciones. En el mercado pueden encontrarse cientos de listas de verificación y escalas de calificación. Esos instrumentos pueden administrarse solos o en combinación con otros métodos para evaluar a la gente y con otros propósitos.
CARACTERÍSTICAS DE LAS LISTAS DE VERIFICACIÓN
Una lista de verificación es un método relativamente sencillo, económico y bastante confiable para describir o evaluar a una persona. Consiste en una lista de palabras, frases o afirmaciones descriptivas de una persona o algún objeto o acontecimiento. Elaboradas con mayor facilidad que las escalas de calificación o los inventarios de personalidad, y a menudo de igual validez, las listas de verificación pueden aplicarse como instrumento de autorreporte o de informe de un observador. Se pide a los examinados que marquen, subrayen o indiquen de alguna otra manera, qué palabra(s) o frase(s) los describe (autoverificación) o describe a alguien o algo más. Las listas de verificación son más eficientes porque, a diferencia de las escalas de calificación, no requieren que el individuo tome decisiones explícitas acerca de la calidad, frecuencia o intensidad de las conductas y características. Las escalas de calificación pueden proporcionar información más detallada que las listas de verificación, pero se requiere más tiempo para completarlas. En consecuencia, es posible que exista una especie de trueque rapidez-exactitud entre los dos instrumentos.
Las listas de verificación se usan con gran frecuencia en los contextos clínico, educativo e industrial-organizacional. Aunque algunas listas de verificación son instrumentos estandarizados y están disponibles de manera comercial, muchas han sido preparadas con propósitos especiales o para usarse en contextos específicos. Por ejemplo, la lista de verificación del formato 16.1 es un instrumento no estandarizado, diseñado para medir la conducta tipo A. Otros dos ejemplos de listas de verificación no estandarizadas son la Escala de Calificación de Readaptación Social (Holmes y Rahe, 1967) y la Lista de Verificación Conductual para la Ansiedad en el Desempeño (Paul, 1966).
FORMATO 16.1 Lista de verificación descriptiva
Instrucciones: Coloque una marca de verificación en la línea para cada reactivo que lo describa.
___ 1.orientado al logro
___2.agresivo
___ 3.ambicioso
___ 4.competitivo
___ 5.trabajador constante
___ 6.le disgusta perder el tiempo
___ 7.se molesta con facilidad
___ 8.se activa con facilidad
___ 9.se frustra con facilidad
___ 10.eficiente
___ 11.emocionalmente explosivo
___ 12.trabaja rápido
___ 13.trabaja duro
___ 14.altamente motivado
___ 15.impaciente
___ 16.le agradan los desafíos
___ 17.le agrada ser líder
___ 18.le agrada la responsabilidad
___ 19.inquieto
___ 20.se esfuerza por tener éxito
Escala de Reajuste Social
La Escala de Reajuste Social (SRS) fue diseñada para estudiar los efectos de los cambios de la vida, negativos y positivos, en la conducta y las reacciones fisiológicas al estrés producido por esos cambios (Holmes y Rahe, 1967). La teoría en la que se basa la SRS de 43 reactivos asume que entre mayor sea el grado de reajuste en un año dado, mayor es la probabilidad de que la persona desarrolle una enfermedad relacionada con el estrés. Cada reactivo en la SRS tiene un pe-so de calificación de 0 a 100, dependiendo del grado de reajuste requerido por el acontecimiento descrito en el reactivo. Después de evaluar las críticas concernientes a la SRS, Scully, Tosi y Banning (2000) concluyeron que es una herramienta útil para los investigadores y profesionales relacionados con el estrés.
Lista de Verificación Conductual para la Ansiedad en el Desempeño
En el formato 16.2 se muestra una segunda lista de verificación que no está disponible de manera comercial, la Lista de Verificación Conductual para la Ansiedad en el Desempeño. Este instrumento se utiliza para evaluar los efectos sobre la ansiedad de un tipo de terapia conductual conocido como desensibilización sistemática. Una ventaja de ésta y otras listas de verificación similares es que pueden llenarse de manera repetida o periódica para determinar si han ocurrido cambios en la conducta como resultado del tratamiento. Se marca en cada uno de los cuadros del formato 16.2 para indicar la ocurrencia de la conducta correspondiente durante el periodo designado (de 1 a 8).
FORMATO 16.2 Lista de Verificación Conductual para la Ansiedad en el Desempeño
Selección de una lista de verificación
Aunque las listas de verificación no estandarizadas como la anterior no por necesidad son provisionales o de mala calidad, rara vez son validadas de manera adecuada. En consecuencia, es incierto si la lista de verificación está cumpliendo los propósitos para los que se creó. Por esta razón, es prudente considerar una de las listas de verificación disponibles de manera comercial antes de elaborar una nueva. En el mercado se dispone de listas de verificación de conducta adaptativa, progreso en el desarrollo, problemas de salud, características personales, historia personal, problemas personales y síntomas psicopatológicos. Se cuenta con listas de verificación para ansiedad, depresión, hostilidad, psicopatía y condición mental, así como con listas pertinentes para las relaciones matrimoniales, sexuales e interpersonales en los adultos (vea Aiken,1996). Sean estandarizadas o no, estén disponibles o no en el mercado, al seleccionar cualquier lista de verificación o escala de calificación deben considerarse las siguientes preguntas:
1. ¿Qué variables (constructos) son medidas por el instrumento y cómo se definen?
2. ¿Cuál es la lógica sobre la que se basa el instrumento (una teoría específica de la personalidad o la conducta, resultados de investigaciones previas y temas similares)?
3. ¿Qué capacitación especial o condiciones específicas se requieren para usar el instrumento? ¿Por quién y bajo qué condiciones (contexto ambiental, materiales y aspectos similares) puede usarse?
4. ¿Cómo se califica el instrumento y qué materiales se necesitan para calificarlo? ¿Puede calificarse de manera rápida y precisa a mano o se necesita una computadora u otra máquina de calificación?
5. ¿Está estandarizado el instrumento? De ser así, ¿el grupo de estandarización era representativo de la gente que será evaluada con el instrumento?
6. ¿Qué tipos de evidencia se presentan para apoyar la confiabilidad (test-retest, formas paralelas, consistencia interna u otra) del instrumento?
7. ¿Qué tipos de evidencia se presentan o están disponibles en otras fuentes para apoyar la validez (de contenido, relacionada con el criterio, de constructo) del instrumento?
Calificación de la listas de verificación
Una lista de verificación que consta de un conjunto de reactivos discretos, no relacionados, no se califica como una totalidad, sino que las respuestas a los reactivos individuales son examinadas, dentro y entre las personas que responden. Por supuesto, el número de personas que responden a un reactivo dado puede ser determinado y comparado con el de quienes responden a cada uno de los otros reactivos.
La calificación convencional de las respuestas a conjuntos interrelacionados de reactivos de listas de verificación designados para medir la misma variable por lo general empieza asignando un punto a cada reactivo marcado y cero puntos a cada reactivo no marcado; se da una calificación de ?1 si la marca del reactivo indica una respuesta favorable, y una calificación de cero si la marca indica una respuesta desfavorable hacia cualquier cosa que pueda ser la variale expresada en el reactivo. En ciertos casos se asignan pesos de calificación distintos a cero y uno, como cuando los reactivos se escalan de acuerdo con su importancia. Sin embargo, cuando el número de reactivos es grande, dar diferentes pesos a diferentes reactivos por lo general tiene poco efecto sobre la confiabilidad o validez del instrumento. Cuando un número de individuos evalúa a la misma persona en una lista de verificación, es posible determinar una calificación de grupo en cada reactivo contando el número de individuos que lo marcaron.
Cuando a los examinados no se les indica marcar un cierto número de reactivos, distintos individuos pueden marcar un número diferente de reactivos. Debido a que este conjunto frecuencia-respuesta, como se le llama en ocasiones, puede tener un efecto pronunciado sobre las calificaciones globales, se necesita algún método de compensación. Por ejemplo, se proporcionan normas separadas en las diversas escalas de la Lista de Verificación de Adjetivos (ACL) para cada uno de los cinco grupos de intervalo de “Número Marcado”. Para convertir la puntuación cruda de una persona en las escalas ACL a calificaciones estándar o normalizada, el calificador usa las tablas de conversión de puntuación cruda a calificación estándar normalizada presentada para el grupo en el cual el intervalo “Número Marcado” contiene el número de adjetivos marcados por la persona. Aiken(1996) describe otros métodos para controlar estadísticamente el conjunto frecuencia-respuesta.
Confiabilidad y validez
Las calificaciones (0 y 1) a los reactivos individuales en una lista de verificación tienen menor confiabilidad que las sumas de calificaciones de varios reactivos. Los coeficientes de confiabilidad para calificaciones sumadas entre reactivos pueden determinarse por medio de los métodos test-retest, consistencia interna y formas paralelas descritos en el capítulo 5. La confiabilidad delas listas de verificación determinada mediante esos procedimientos es, por lo regular, menor que la de las pruebas cognoscitivas. Un enfoque alternativo para determinar la confiabilidad de conjuntos de reactivos de listas de verificación es el método de acuerdo o concordancia entre verificadores. Este método consiste en calcular una sola calificación de acuerdo (phi) a partir de la concordancia de las configuraciones de marcas de verificación de dos o más verificadores (Sinacore, Connell, Olthoff, Friedman y Gecht, 1999).
Con respecto a la validez de las listas de verificación, los resultados de la investigación indican que las calificaciones de las listas de verificación tienen correlaciones significativas con una amplia gama de criterios de desempeño. Las calificaciones en las listas de verificación del desempeño de los empleados, la efectividad del tratamiento y otros criterios también tienen una relación significativa con las calificaciones en varias variables predictoras. Por ejemplo, Boyley sus colaboradores (Boyle et al., 1996, 1997) encontraron que los coeficientes de confiabilidad y de validez de las listas de verificación de trastornos psiquiátricos eran similares, si no es que superiores, a los de las entrevistas. Por su parte, MacRae et al., (1995) encontraron que las calificaciones de las listas de verificación tendían a correlacionar más alto con las calificaciones delos médicos que las calificaciones de las bases de datos llenadas por estudiantes. En un estudio de las propiedades psicométricas de una lista de verificación estandarizada para el paciente y una forma de escala de calificación para evaluar las habilidades interpersonales y de comunicación, Cohen et al. (1996) encontraron que la confiabilidad de la forma de calificación era ligeramente más alta que la de la lista de verificación.
TIPOS Y EJEMPLOS DE LISTAS DE VERIFICACIÓN
Listas de verificación de adjetivos
Las listas de verificación que constan de una serie de adjetivos, como agresivo, ambicioso, competitivo, eficiente, explosivo, impaciente, irritable, inquieto y tenso, son muy populares y muy sencillas de elaborar. En ocasiones se dice que las personas descritas por esos nueve adjetivos tienen una personalidad tipo A (vea la sección de preguntas y ejercicios, punto 3). Dos de las listas de verificación de adjetivos estandarizadas de mayor popularidad son la Lista de Verificación de Adjetivos (ACL) (CPP) y la Lista de Verificación Múltiple de Adjetivos de Afecto (EdITS).
Lista de Verificación de Adjetivos (ACL). La Lista de Verificación de Adjetivos (ACL)consta de 300 adjetivos arreglados de manera alfabética desde distraído hasta bromista (absentminded tozany). A los examinados les lleva de 15 a 20 minutos marcar los adjetivos que consideran los describen. Esas respuestas pueden calificarse luego en las 37 escalas descritas en el manual de la ACL: 4 escalas de procedimientos, 15 de necesidades, 9 temáticas, 5 de análisis transaccional y 4 de originalidad-intelecto (creatividad e inteligencia). Las calificaciones en las escalas de procedimientos (número total de adjetivos marcados, número de adjetivos favorables marcados, número de adjetivos desfavorables marcados, comunales) atañen a la forma en que el sujeto manejó la lista de verificación. Las escalas de necesidades (escalas 5 a 19) están basadas en la descripción que hizo Edwards (1954) de las 15 necesidades en la teoría de la personalidad de necesidad-presión de Murray (1938). Cada una de las escalas temáticas (escalas 20 a 28) evalúa un tema o componente diferente de la conducta interpersonal (por ejemplo, preparación para la orientación, ajuste personal, personalidad creativa, atributos masculinos). Las escalas del análisis transaccional (escalas 29 a 33) se describen como medidas de las cinco funciones del yo en el análisis transaccional de Berne (1966). Las escalas de originalidad-intelecto (escalas 34 a 37) se describen como medidas de las dimensiones de personalidad de originalidad-intelecto (creatividad e inteligencia) de Welsh.
Para propósitos de interpretación y orientación, las puntuaciones crudas de la ACL se convierten a calificaciones T estándar. Como un ejemplo, en la tabla 16.1 se proporcionan las 37 calificaciones T y el perfil asociado de los casos descritos en el informe 16.1. Las calificaciones Tse interpretan con referencia a normas basadas en muestras de 5,236 varones y 4,144 mujeres de 37 entidades estadounidenses. También se proporcionan los perfiles y las interpretaciones aso-ciadas para seis casos de muestra, uno de los cuales se resume en el informe 16.1. La confiabilidad por consistencia interna de la mayoría de las 37 escalas es razonablemente alta, pero los datos de confiabilidad test-retest son limitados. El manual informa de coeficientes de confiabilidad test-retest para las escalas separadas que van desde .34 para la escala de alta originalidad, bajo intelecto, hasta .77 para la escala de agresión (mediana de .65), y también describe muchos usos dela ACL e investigaciones en las que se ha utilizado.
Las revisiones de la ACL han sido bastante positivas y concluyen que el instrumento está bien desarrollado (Teeter, 1985; Zarske, 1985). Las escalas tienen una intercorrelación significativa y, por ende, no deberían interpretarse como factores independientes. Un análisis factorial que el autor de este libro realizó sobre las 15 escalas de necesidades (escalas 5 a 19) arrojó tres factores: autoconfianza o fortaleza del yo, orientación hacia la meta e interactividad social o amistad. La ACL se ha usado sobre todo con adolescentes y adultos normales, y no se ha determinado su validez en el psicodiagnóstico y la planeación del tratamiento. Se ha encontrado más útil en la investigación sobre el autoconcepto.
INFORME 16.1 Descripción del caso que acompaña a las calificaciones de la Lista de Verificación de Adjetivos en la tabla 16.1
Esta estudiante universitaria de 19 años cursa una licenciatura en biología, ha mantenido un promedio de A y planea asistir a la escuela de posgrado. Creció en una familia numerosa y unida y tiene sentimientos cálidos hacia sus padres y su niñez. Antes de asistir a la universidad, siempre vivió en ciudades pequeñas o áreas semi rurales. Asistir a una universidad de la ciudad requirió de gran adaptación, pero a ella le gustó la emoción y lo estimulante de la vida citadina. Mantuvo sus creencias religiosas y asistía a la iglesia con regularidad. Se considera conservadora en lo político y lo económico. La persona que la entrevistó acerca de la historia de su vida la describe de la siguiente manera:
Es una joven inteligente, vivaz y atractiva, entusiasmada por su vida en la universidad. Aunque se ve a sí misma como introvertida, su conducta es más extrovertida, se mostró conversadora, sociable, sincera y no dudaba en asumir un papel de liderazgo. Sus padres fueron estrictos, esperaban que sus hijos asumieran responsabilidades y concedían gran valor al logro académico.Ella describió a su madre como una mujer exigente, muy tímida, que participaba en actividades sociales por un sentido de deber. Dijo que su padre era algo intimidante, pero afectuoso; se sentía más cercana a él ahora que cuando estaba creciendo. Estar en la escuela —lejos de casa y del relativo aislamiento de ese entorno— era muy emocionante.
Las calificaciones que obtuvo en el perfil de la ACL estaban de acuerdo con los datos de la historia de caso y con las evaluaciones del equipo. Se presentaron elevaciones moderadas en las escalas de Logro, Autoconfianza y Ajuste Personal y calificaciones de 60 o más en las escalas de Yo Ideal, Personalidad Creativa y A-2 (alta originalidad, alto intelecto). El perfil ACL también reveló calificaciones de 60 o más altas en las escalas para Favorable, Comunidad, Feminidad, Padre Crítico y A-4 (baja originalidad,alto intelecto). Aunque la calificación asignada por el equipo de 54 en Feminidad estaba por encima del promedio para la muestra de 80 estudiantes incluidos en este proyecto, no era tan alta como la calificación de 69 en la ACL autodescriptiva. Como obtuvo calificaciones superiores a 50 tanto en Masculinidad como en Feminidad, se le ubica en la casilla de andróginos en el diagrama de interacción entre las dos escalas. El perfil también revela calificaciones elevadas tanto en Favorable como en Desfavorable, lo cual sugiere que es más compleja, diferenciada en lo interior y menos represiva que sus compañeros.
TABLA 16.1 Escalas y calificaciones T de muestra en la Lista de Verificación de Adjetivos
Lista de Verificación Múltiple de Adjetivos de Afecto, revisada. La Lista de Verificación Múltiple de Adjetivos de Afecto, revisada (MAACL-R) (Zuckerman y Lubin, 1985) consta de 132 adjetivos y se encuentra disponible para aplicarse de dos formas: rasgo (“En general”) y estado (“Hoy”). Dependiendo de la forma, los examinados marcan aquellos adjetivos que indican cómo se sienten de manera general (en la forma para rasgos) o como se sienten el día del examen o en el presente (en la forma para estado). Se ha demostrado que ambas formas discriminan entre pacientes con trastornos afectivos y otros trastornos de los no pacientes. Se obtienen calificaciones T estándar en las formas de rasgo y de estado para cinco escalas básicas: Ansiedad(A), Depresión (D), Hostilidad (H), Afecto Positivo (PA) y Búsqueda de Sensaciones (SS). También pueden calcularse dos calificaciones estándar resumidas, Disforia (Dys = A ? D ? H) y Afecto Positivo y Búsqueda de Sensaciones (PASS = PA ? SS). Las normas para la forma de rasgo de la MAACL-R se basan en una muestra nacional de 1,491 individuos de 18 años en adelante; las normas para la forma de estado se basan en una muestra (no representativa) de 538 estudiantes de una universidad del oeste medio. Con la excepción de la escala de Búsqueda de Sensaciones, los coeficientes de confiabilidad por consistencia interna para las escalas de rasgo y de estado son adecuados. La confiabilidad test-retest es satisfactoria para las escalas de rasgo,pero, como era de esperar de las fluctuaciones momentáneas en las actitudes y la conducta, es baja para las escalas de estado. En el manual de la MAACL-R (Zuckerman y Lubin, 1985) se presentan los resultados de los estudios de validez en varias poblaciones, incluyendo adolescentes y adultos normales, clientes que reciben orientación y pacientes de clínicas y hospitales estatales. Las calificaciones en la MAACL-R correlacionan en la dirección esperada con otras medidas de la personalidad (por ejemplo, el Inventario Multifásico de Personalidad de Minnesota, el Perfil de los Estados de Ánimo, las calificaciones de los compañeros, las autocalificaciones y los diagnósticos psiquiátricos).
Lista de Verificación de Adjetivos para la Depresión Estado-Rasgo (ST-DACL). Esos instrumentos breves (de dos a tres minutos) (de B. Lubin; Psychological Assessment Resources), los cuales constan de 32 a 34 adjetivos, fueron diseñados para medir sentimientos de disforia, tristeza y angustia psicológica. Cada una de las cinco formas (1, 2, A-B, C-D, Forma de Perfil) es administrada por la propia persona y proporciona una medida del estado de ánimo como estado (describe cómo se siente usted el día de la prueba) y del estado de ánimo como rasgo (describe cómo se siente en general). La ST-DACL puede utilizarse para evaluar el progreso en la consejería o en la psicoterapia, como instrumento de detección para identificar a personas con niveles significativos de depresión, y como medida de resultado repetido del éxito de programas de intervención.
Listas de verificación de problemas
Se han diseñado varias listas de verificación para identificar problemas conductuales en los niños, siendo una de las más antiguas la Lista Mooney de Verificación de Problemas. Uno de los instrumentos de este tipo citados con mayor frecuencia es la Lista de Verificación de la Conducta Infantil (CBCL). Al igual que la Lista Mooney de Verificación de Problemas, la CBLC es un instrumento de banda amplia que proporciona una perspectiva bastante incluyente del funcionamiento social, conductual y emocional. Otro ejemplo de una lista de verificación de problemas de banda amplia es la Lista de Verificación de Problemas de Conducta, revisada (RBPC). A diferencia de la lista Mooney, que es un instrumento de autorreporte, las dos últimas listas de verificación citadas son instrumentos de informantes que son llenados por un padre de familia o maestro. Hablando en términos estrictos, son escalas de calificación más que listas de verificación, ya que las respuestas se hacen sobre categorías múltiples.
Lista de Verificación de la Conducta Infantil. Este instrumento fue diseñado para evaluarlos problemas y las competencias conductuales de los niños según el informe de los padres y de otras personas que conozcan bien al niño. La versión de los padres de la CBCL consta de 118 reactivos de conducta problemática que se califican en una escala de cero (conducta que “no es cierta” del niño), uno (conducta “en ocasiones o algo cierta” del niño) y dos (conducta “muy cierta o a menudo cierta” del niño). Las calificaciones en los reactivos de competencia social se su-man como subcalificaciones de Actividades, Social y Escuela.
La CBCL se estandarizó en 1981 en 1,300 estudiantes del área de Washington, D.C., y en el manual se proporcionan normas separadas para género y tres niveles de edad (4-5, 6-11, 12-16años) en ocho a nueve factores (Achenbach y Edelbrock, 1983). Las normas arrojan seis diferentes perfiles de conducta infantil en ocho a nueve factores; se agrupan en síndromes de exteriorización, de interiorización y mixtos. Los coeficientes de confiabilidad test-retest en las variables de problemas de conducta y competencia social van de moderados a altos, mientras que los delos índices de acuerdo de los padres son mixtos. Se ha obtenido una cantidad sustancial de datos de validez para la CBCL. Por ejemplo, sus calificaciones tienen una correlación significativa con calificaciones en instrumentos similares como la Escala Conners de Calificación de los Padres (Conners, 1973; Conners y Barkley, 1985) y la Lista de Verificación de Problemas de Conducta, revisada (Quay y Peterson, 1983).
Formato de Informe del Maestro. Una versión paralela de la Lista de Verificación de la Conducta Infantil, el Formato de Informe del Maestro (TRF) (Achenbach y Edelbrock, 1986),es llenada por los maestros o por sus ayudantes. La TRF proporciona una imagen de las conductas problemáticas y adaptativas de los niños en los escenarios escolares. Las personas que responden indican en una escala de tres puntos (no es cierto, algo o en ocasiones cierto, cierto muya menudo) con cuánta frecuencia ocurrieron conductas específicas en los dos meses previos. El desempeño académico del niño se califica en una escala de cinco puntos (de “calificación muy por abajo” a “calificación muy por arriba”), y cuatro reactivos concernientes al funcionamiento conductual adaptativo se califican en una escala de siete puntos (de “mucho menos” a “mucho más”). La TRF se estandarizó en principio con una muestra de niños varones de seis a once años de edad, pero también se determinaron normas en otros grupos de niños. Los datos de confiabilidad y validez presentados para la TRF parecen ser satisfactorios (Edelbrock y Achenbach, 1984). Por ejemplo, las comparaciones entre calificaciones en la TRF de grupos de niños clínicos y no clínicos, además de una comparación de niños de grupos regulares con niños que recibían educación especial, han arrojado resultados significativos. También se ha encontrado que las correlaciones de las calificaciones de los niños en la TRF con sus conductas observadas son significativas (Edelbrock, 1988). Asimismo, se dispone de un Formato de Autorreporte Juvenil(YSR) de la CBCL diseñado para muchachos y muchachas de 11 a 18 años de edad (Achenbachy Edelbrock, 1987). Tanto la TRF como la YSR han recibido altas notas de los revisores como instrumentos para documentar las conductas problemáticas de niños y adolescentes (Christenson,1992; Elliott y Busse, 1992). Sin embargo, los usuarios de esos instrumentos deben advertir que aunque pueden contribuir en los procesos clínicos de entrevista y toma de decisiones, no son instrumentos adecuados para utilizarse por sí solos con propósitos de diagnóstico o clasificación.
Lista de Verificación de Problemas de Conducta, revisada (RBPC). Similar a las listas Mooney de verificación, este instrumento de 89 reactivos (PAR) fue diseñado para identificar problemas de conducta en individuos de 5 a 18 años (Quay y Peterson, 1983). Se ha utilizado para detectar problemas de conducta en las escuelas, como auxiliar en el diagnóstico clínico, para medir el cambio conductual asociado con intervenciones psicológicas o farmacológicas, como parte de una batería para clasificar a infractores juveniles, y para seleccionar muestras de investigación sobre trastornos de conducta en niños y adolescentes. Puede ser llenada por un maestro, un padre de familia u otro observador aproximadamente en 20 minutos y se califica en seis subescalas: trastorno de conducta, agresión socializada, problemas de atención-inmadurez, ansiedad-alejamiento, conducta psicótica y tensión motriz-exceso. Se dispone de normas de calificación T basadas en las calificaciones de los maestros para los grados K a 12. Los coeficientes de confiabilidad entre calificadores para las seis subescalas van de moderados a altos, pero la confiabilidad test-retest es algo menor. El análisis de la validez de constructo de la RBPC indica que representa un consenso de lo que se sabe acerca de la conducta inadaptada del niño.
Listas de verificación de síntomas
Las listas de verificación de síntomas, como la Serie de Listas de Verificación del Estado Mental y la Serie Derogatis de Listas de Verificación de Síntomas, tienen una orientación más clínica que las listas de verificación de adjetivos o de problemas de conducta. Cada una de las doslistas de verificación del estado mental consta de 120 reactivos del tipo incluido en un examen integral del estado mental de un adulto: problemas presentados, datos de canalización, datos demográficos, estado mental, función de personalidad y síntomas, diagnóstico y disposición.El instrumento clínico más popular en la Serie Derogatis de Listas de Verificación de Síntomas es la Lista de Verificación de Síntomas 90, revisada (SCL-90-R) (Derogatis, 1994; NCS Assessments). Los profesionales de la salud mental pueden aplicar la SCL-90-R en 12 a 15 minutos para evaluar a los pacientes psiquiátricos adolescentes o adultos en el momento de ingreso, detectar problemas psicológicos, supervisar el progreso o los cambios del paciente durante el tratamiento y evaluar los resultados posteriores al tratamiento. La SCL-90-R se califica en nueve dimensiones principales de síntomas: somatización, obsesivo compulsivo, sensibilidad interpersonal, depresión, ansiedad, hostilidad, ansiedad fóbica, ideación paranoide y psicoticismo. Tres medidas de estrés indican el nivel o la profundidad de un trastorno, la intensidad de los síntomas y el número de síntomas informados por el paciente. Se dispone de normas para adolescentes y adultos no pacientes y para pacientes psiquiátricos externos e internos.
ESTRATEGIAS PARA ELABORAR ESCALAS DE CALIFICACIÓN
Las escalas de calificación, las cuales fueron introducidas como instrumentos de investigación psicológica por Francis Galton durante la última parte del siglo XIX, son dispositivos de evaluación populares en los contextos clínico, escolar, laboral, deportivo y de entretenimiento. Las calificaciones pueden ser hechas por el calificado (la persona a la que se va a calificar) o por otro calificador. Las escalas de calificación se consideran, por lo general, menos precisas que los inventarios de personalidad y más superficiales que las técnicas proyectivas. Sea correcta o no esta percepción, las escalas de calificación tienen la doble ventaja de la economía y la versatilidad en su elaboración y calificación.
Una alternativa para una escala de calificación es una escala de rango, en la cual los individuos asignan rangos de 1 a n a n gente, objetos o acontecimientos (vea la sección de preguntas y ejercicios, punto 6). Aunque la elaboración de los instrumentos de rango es muy sencilla, a menudo su uso es engorroso: las personas que asignan los rangos pueden tener dificultades para efectuar el gran número de comparaciones [n(n ? 1)/2] requerido por el procedimiento de asignación de rangos. Calificar las respuestas a un instrumento de asignación de rangos no es particularmente difícil(vea el capítulo 3), pero el análisis estadístico de los resultados plantea algunos problemas.
No es muy difícil elaborar una escala de calificación. Todo lo que necesitamos hacer es designar o definir los objetos a ser evaluados, los atributos o características de los objetos a ser calificados, y las categorías (anclas) o el continuo sobre el que se harán las calificaciones. Sin embargo, para hacer un buen trabajo en la elaboración de la escala debemos tener primero una buena comprensión de las características particulares que van a calificarse y de los diversos formatos existentes para formular las calificaciones.
Entre las estrategias que se han seguido para elaborar escalas de calificación se encuentran la estrategia racional-teórica (deductiva), la estrategia de consistencia-interna (inductiva), y la estrategia de grupos-criterio (empírica). Se sigue una estrategia-racional teórica cuando la persona que elabora la escala se adhiere a los preceptos de una teoría particular o decide de otra manera qué parece razonable o lógico incluir en la escala. Por ejemplo, al elaborar una escala de calificación para medir ciertos aspectos de la personalidad, un seguidor de esta estrategia debe estar familiarizado con la investigación y la teoría de la personalidad y ser también un buen razonador lógico. En contraste con el proceso de razonamiento deductivo empleado en la estrategia racional-teórica, la estrategia de consistencia-interna hace uso de los resultados empíricos de la investigación empleando los métodos estadísticos de correlación y análisis factorial para seleccionar los reactivos que serán incluidos en la escala. Por último, la estrategia de grupos-criterio consiste en seleccionar o retener aquellos reactivos que diferencian entre dos o más grupos criterio de gente. Al planear una escala de calificación clínica, uno o más de los grupos criterio consta de pacientes a los que se les ha diagnosticado algún trastorno.
Esas tres estrategias para elaborar escalas de calificación no son, por supuesto, mutuamente excluyentes: dos de ellas o las tres pueden ser empleadas en alguna circunstancia en el proceso de elaborar una escala de calificación particular. Además, las estrategias no se limitan alas escalas de calificación. La elaboración de listas de verificación, de inventarios de personalidad, de técnicas proyectivas y de otros dispositivos para la evaluación de la personalidad puede basarse en una o más de esas estrategias.
TIPOS DE ESCALAS DE CALIFICACIÓN
Así como existen varias estrategias para elaborar escalas de calificación, existen diferentes formatos para presentar y responder a los reactivos en esos instrumentos. Entre los formatos se encuentran los siguientes tipos de escalas: numéricas, de analogía visual, de diferencial semántico,de calificación gráfica, de calificación estándar, con respaldo conductual y de elección forzada.
Escala numérica
En este tipo de escala de calificación se asigna a una persona, a un objeto o acontecimiento, uno de varios números correspondientes a las descripciones particulares de las características calificadas. Todo lo que se requiere es que las calificaciones se den en una escala ordenada en la cual se asignan diferentes valores numéricos a diferentes localizaciones. El formato 16.3 es ejemplo de un instrumento con 15 escalas numéricas de calificación que pueden usarse para calificarse uno mismo o calificar a alguien más. Las respuestas son calificadas en cinco variables de personalidad: agradabilidad, escrupulosidad, extroversión, neuroticismo y apertura a la experiencia. Las calificaciones en cada variable fluctúan entre 0 y 18.
FORMATO 16.3 Escala de calificación de personalidad de cinco variables
Escalas unipolares y bipolares
Las escalas de calificación numérica, y muchos otros tipos de escalas, pueden ser unipolares obipolares. En una escala unipolar, el atributo a calificar (por ejemplo, agresividad) es visto como unidimensional y, por ende, se considera que se incrementa de un mínimo a una cantidad máxima; los valores de la escala (anclas) son una serie de enteros crecientes. Por ejemplo, las anclas en una escala de cinco puntos pueden ser 0, 1, 2, 3, 4 o 1, 2, 3, 4, 5. En una escala bipolar, se considera que el atributo calificado varía en dos direcciones (por ejemplo, sumiso-agresivo); en consecuencia, la mitad de la escala se representa como 0 y los dos extremos (polos) son los enteros máximos negativo y positivo. Por ejemplo, las categorías numéricas en una escala bipolar de cinco puntos son ?2, ?1, 0, 1, 2.
Una escala unipolar se califica, por lo general, dando cero puntos a las calificaciones en la categoría correspondiente a la menor cantidad del atributo calificado, y c ? 1 puntos, donde c es el número de categorías de calificación, a las calificaciones en la categoría que representa la cantidad más alta del atributo. Luego pueden sumarse las calificaciones a los reactivos para obtener una calificación parcial en un grupo particular de reactivos o una calificación total en el instrumento entero.
La calificación de las puntuaciones en las escalas bipolares implica dos pasos: primero, la misma cantidad de puntos (de 0 a c ? 1) como en una escala unipolar se asigna para las calificaciones sucesivas, de la categoría más baja a la más alta; y luego se restan (c ? 1)/2 puntos de cada uno de los puntos de categoría asignados en el paso 1. Por ejemplo, cuando existen cinco categorías bipolares, primero se asignan 0, 1, 2, 3 y 4 puntos a las categorías sucesivas de calificación. Al restar (5 ? 1)/2 = 2 de cada uno de esos valores obtenemos ?2, ?1. 0, 1 y 2, los cuales son las puntuaciones del reactivo para calificaciones asignadas en las cinco categorías sucesivas de la escala bipolar. Al igual que con las puntuaciones en la escala unipolar, las calificaciones resultantes del reactivo pueden sumarse luego para proporcionar una calificación parcial o total.
Diferencial semántico
Un tipo de escala numérica de calificación que se ha empleado con frecuencia en la investigación sobre psicología social y de la personalidad es el diferencial semántico. Osgood, Suci y Tannenbaum (1957) idearon este método para sus estudios de los significados connotativos (personales) que conceptos como PADRE, MADRE, ENFERMEDAD, PECADO, ODIO y AMOR tienen para diferentes personas. Cuando se presenta un instrumento de diferencial semántico, la persona califica una serie de conceptos en varias escalas de adjetivos bipolares de siete puntos.Por ejemplo, el concepto MADRE puede ser calificado colocando una marca en el segmento apropiado de la línea en cada una de las tres siguientes escalas:
MALO____:____:____:____:____:____:____ BUENO
DÉBIL____:____:____:____:____:____:____ FUERTE
LENTO____:____:____:____:____:____:____ RÁPIDO
Una vez que todos los conceptos de interés han sido calificados en las diversas escalas, las res-puestas a cada concepto se califican en varias dimensiones semánticas y se comparan con las respuestas a los conceptos restantes. Las principales dimensiones (semánticas) del significado connotativo que han sido determinadas por el análisis factorial de las calificaciones de una serie de conceptos en un gran número de esas escalas de adjetivos son evaluación, potencia y actividad. Luego puede elaborarse un espacio semántico al graficar las calificaciones de una persona sobre los conceptos calificados en cada una de esas tres dimensiones. Se supone que los conceptos que se mantienen cercanos entre sí en el espacio semántico tienen significados connotativos similares para el calificador.
Escala de calificación gráfica
Otro popular tipo de escala de calificación es la escala de calificación gráfica, un ejemplo de la cual es:¿Qué tan bien coopera esta persona en un grupo?
Nunca coopera
Por lo general no coopera
Coopera alrededor de la mitad del tiempo.
Por lo general coopera.
Siempre coopera.
El calificador escribe una X o coloca otra marca en cada una de una serie de líneas, como la del ejemplo precedente, que contienen palabras o frases descriptivas correspondientes a cierta característica o rasgo. Por lo regular, una descripción del menor grado de la característica se presenta en el extremo izquierdo de la línea, una descripción del grado más alto de la característica se presenta al extremo derecho, y las descripciones referentes a los grados intermedios de la característica se presentan en los puntos intermedios de la línea.
Escala de analogía visual
En los contextos clínicos a menudo es difícil determinar la intensidad de la experiencia subjetiva de un paciente (de dolor, ansiedad, anhelo de una sustancia y situaciones similares). La escala de analogía visual es una técnica empleada para estimar la intensidad de dichas experiencias (Wewers y Low, 1990). Por ejemplo, puede indicarse al paciente que señale o marque el lugar en la línea que corresponde a la intensidad de la ansiedad o dolor que experimenta en ese momento. Puede pedirse a un niño pequeño que señale la ilustración de un rostro, en una serie graduada de rostros sonrientes y ceñudos, que mejor indique cómo se siente. Las siguientes escalas son ejemplos de escalas de analogía visual con anclas numéricas.
Imagen escala de la analogía visual.
Es posible aplicar de manera periódica escalas de analogía visual como ésta para medir cambios en los sentimientos o estados de ánimo (por ejemplo, las Escalas Stern de Analogía Visual del Estado de Ánimo) a lo largo del tiempo, pero tienen limitaciones.Esta técnica es quizá más precisa que pedir simplemente a los pacientes que digan en sus propias palabras cómo se sienten, pero algunos pacientes tienen dificultad para entender el procedimiento y representar experiencias subjetivas como el dolor, la ansiedad y la depresión en es-calas de analogía visual.
Escala de calificación estándar
En una escala de calificación estándar, el calificador proporciona o se le proporciona un conjunto de estándares para evaluar a las personas que se califican (los calificados). Ejemplo de una escala de calificación estándar es la escala persona a persona, la cual se elabora para calificar a individuos en un rasgo especificado, como la capacidad de liderazgo. Se pide al calificador pensaren cinco personas que se localizan en diferentes puntos a lo largo de un continuo hipotético de capacidad de liderazgo. Luego el calificador compara a cada calificado con esos cinco individuos e indica cuál de ellos se parece más al calificado en la capacidad de liderazgo.
Escalas con respaldo conductual
Desarrolladas por Smith y Kendall (1963) y basadas en la técnica de incidentes críticos de Flanagan (1954), las escalas con respaldo conductual representan un intento por lograr que la terminología de las escalas de calificación sea más descriptiva de la conducta real y, por ende, más objetiva. Como es comprensible, términos como ansiedad, autoconfianza, agresividad y otros sustantivos y adjetivos usados en las escalas de calificación tradicionales orientadas a los rasgos pueden ser interpretados de manera diferente por calificadores distintos. Esto es cierto en particular cuando los calificadores reciben poca o ninguna capacitación sobre cómo interpretar los términos. En el formato 16.4 se presenta una ilustración irónica de una escala con respaldo conductual para calificar los factores de desempeño de cinco empleados.
FORMATO 16.4 Guía para la valoración del desempeño de los empleados
La elaboración de una escala de calificación con respaldo conductual comienza por convocar a un grupo de individuos que posean conocimiento experto sobre un trabajo o situación en particular. Luego, por medio del análisis y la deliberación, esos individuos intentan alcanzar un consenso sobre una serie de incidentes críticos conductualmente descriptivos, a partir de los cuales pueda elaborarse una escala de calificación objetiva y muy confiable. Las descripciones conductuales que sobreviven a repetidas evaluaciones por parte del grupo o de otros grupos pueden prepararse entonces como una serie de reactivos a ser calificados. Podríamos esperar que el énfasis en la conducta observable y el esfuerzo concentrado del grupo por idear escalas con respaldo conductual consiguieran que éstas fueran superiores en lo psicométrico a otros tipos de escalas de calificación. Además, el hecho de que el proceso de elaboración de la escala requiera participación y consenso de grupo, y por ende mayor probabilidad de aceptación por el grupo, podría parecer una ventaja. Sin embargo, los resultados de la investigación indican que las escalas de calificación con respaldo conductual no por fuerza son superiores a las escalas de calificación gráfica (Kinicki y Bannister, 1988).
Dos variaciones de las escalas con respaldo conductual son las escalas de expectativa conductual (BES) y las escalas de observación conductual (BOS). En las escalas BES, las conductas cruciales se califican en términos de expectativas más que como conductas reales. Las calificaciones en las escalas BOS se asignan en términos de la frecuencia (nunca, rara vez, en ocasiones, por lo general, siempre) con que cada una de un conjunto de conductas críticas es observada durante un periodo especificado. Algunos investigadores han concluido que en contextos de empleo el método BOS es preferible al BARS (Wiersma y Latham, 1986).
Escala de elección forzada
En una escala de calificación de elección forzada se presentan al calificador dos o más descripciones y se le pide indicar cuál caracteriza mejor a la persona calificada. Si hay tres o más descripciones, también puede pedirse a los calificadores indicar cuál es la menos descriptiva del calificado. Por ejemplo, en un reactivo que contiene cuatro descripciones, dos son igualmente deseables y dos igualmente indeseables. Se pide al calificador seleccionar la afirmación más descriptiva y la menos descriptiva del calificado. Sólo una afirmación deseable y una indeseable discriminan en realidad entre los calificados altos y bajos en el criterio, pero se supone que los calificadores no saben cuáles son esas afirmaciones. Ejemplo hipotético de un reactivo de elección forzada de cuatro afirmaciones para calificar el liderazgo es:
____ Asume la responsabilidad con facilidad
.____ No sabe cómo o cuándo delegar.
____ Tiene muchas sugerencias constructivas que ofrecer
.____ No escucha las sugerencias de otros.(Lector: ¿puede señalar cuál afirmación se identifica como “deseable” y cuál como “indeseable”?)
Los calificadores en ocasiones encuentran que el formato de elección forzada es engorroso, pero se considera más justo que la técnica de calificación persona a persona. La técnica de elección forzada también tiene la ventaja de controlar ciertos errores en la calificación, como los errores constantes, el efecto de halo, el error de contraste y el de proximidad.
PROBLEMAS CON LAS CALIFICACIONES
Al asignar calificaciones puede cometerse una variedad de errores, entre los cuales se encuentran los errores constantes, el efecto de halo, el error de contraste y el de proximidad. No todos los calificadores son igualmente proclives a cometer esos errores; como con cualquier otro método de evaluación, eso depende de la capacidad de observación y de la experiencia y personalidad del calificador, y presumiblemente de influencias hereditarias en sus habilidades interpersonales, capacidad de percepción y libertad de sesgos de juicio.
Errores en la calificación
Los errores constantes ocurren cuando las calificaciones asignadas en la categoría promedio son más altas (error de generosidad o indulgencia), más bajas (error de severidad) o más frecuentes (error de tendencia central) de lo que deben ser. Todos los calificadores son susceptibles al error de ambigüedad de no lograr interpretar los reactivos de manera correcta porque están mal planteados, porque se proporciona información insuficiente o porque las anclas de la escala no se describen o se colocan de manera apropiada.
Otro tipo de error de calificación, el efecto de halo, ocurre cuando los calificadores muestran la tendencia a responder con base en una impresión general del calificado o a generalizar en exceso dando calificaciones favorables a todos los rasgos sólo porque el calificado sobresale en uno o dos. El efecto de halo también puede ser negativo, en cuyo caso una mala característica afecta las calificaciones en todas las otras características. En relación con el efecto de halo,existe el error lógico de asignar calificaciones similares en características que el calificador percibe como lógicamente relacionadas.
El término error de contraste ha sido empleado al menos en dos sentidos. En un sentido se refiere a la tendencia a asignar calificaciones más altas de lo justificado si el calificado inmediatamente precedente recibió una calificación muy baja, o a asignar una calificación más baja de lo justificado si el calificado anterior recibió una calificación muy alta. En un segundo sentido, el error de contraste se refiere a la tendencia de un calificador a comparar o contrastar al calificado consigo mismo al asignar calificaciones en ciertas conductas o rasgos.
Un error de proximidad ocurre cuando el calificador tiende a asignar calificaciones similares a una persona en reactivos que están colocados juntos en la página impresa. De igual modo, si una persona recibe una calificación consistentemente alta, baja o promedio en la mayoría de un conjunto de reactivos que están cercanos en la página impresa, puede recibir calificaciones similares en otros reactivos localizados cerca de ellos. Otro factor de proximidad, el error de desempeño más reciente ocurre cuando un calificado es juzgado sobre la base de su conducta más reciente, en lugar de sobre una muestra más representativa de la conducta.
Los errores en la calificación también pueden ocurrir cuando los calificadores poseen información inadecuada acerca de las personas calificadas. En consecuencia, los calificadores pueden recibir una clara influencia de comunicaciones irrelevantes o incorrectas acerca del calificado y atribuir mucha importancia a detalles insignificantes concernientes al mismo. Al enfrentarse a un conocimiento insuficiente acerca del calificado, los calificadores pueden retroceder hacia estereotipos acerca de la naturaleza humana, recordar sólo la información que confirma sus creencias acerca del calificado y de la gente en general, y a ser más dirigidos por sus sentimientos que por la información correcta. Los calificadores también pueden cometer el error fundamental de atribución de interpretar que la conducta del calificado en la situación de calificación se debe a factores internos o disposicionales más que a la propia naturaleza de la situación de calificación.
Mejoramiento de las calificaciones
No es fácil formular juicios confiables y válidos acerca de la gente en la mejor de las circunstancias, y sobre todo cuando las conductas o características están mal definidas o son muy subjetivas. No sólo es probable que los sesgos personales afecten las calificaciones, sino que a menudo los calificadores no tienen la familiaridad suficiente con los calificados como para emitir juicios precisos. La capacitación sobre cómo asignar las calificaciones más objetivas —estar al tanto delos varios tipos de errores que pueden ocurrir en la calificación, familiarizarse con las personas y los rasgos que van a ser calificados, y omitir los reactivos que el calificador sienta no está preparado para juzgar— puede mejorar la precisión de las calificaciones (Stamoulis y Hauenstein,1993; Sulsky y Day, 1994). La combinación de las respuestas de varios calificadores también puede equilibrar los sesgos de respuesta de los calificadores individuales. Es posible obtener mayor confiabilidad y validez de las calificaciones al diseñar los reactivos con más cuidado y plantearlos en la terminología conductual precisa; al disponerlos en las hojas de calificación deforma que puedan ser leídos y calificados con mayor facilidad y precisión, y al asegurarse de que los reactivos individuales y el formato de calificación como un todo no sean excesivamente largos.
La investigación sobre calificaciones del trabajo ha demostrado que las calificaciones más confiables son las dadas por los pares del calificado (Imada, 1982; Wexley y Klimoski,1984). Las calificaciones de subordinados, superiores, pares y la persona no siempre concuerdan, pero la combinación de las calificaciones de esas cuatro fuentes puede resultar en una mayor confiabilidad y validez que de cualquiera de las fuentes por sí mismas (Harris y Schaubroeck,1988). Por último, una atención cuidadosa al diseño de las escalas de calificación, definiendo los puntos (anclas) con claridad mediante la descripción conductual precisa de las características a ser calificadas, contribuye a garantizar la validez de las calificaciones.
ESCALAS DE CALIFICACIÓN ESTANDARIZADAS
La gran mayoría de las escalas de calificación no son estandarizadas, son instrumentos elaborados con propósitos especiales, diseñados para investigaciones particulares. No obstante, en el mercado pueden encontrarse muchas escalas estandarizadas para calificar la conducta y los rasgos de personalidad de niños y adultos. Las escalas para calificar el estado de desarrollo y las conductas de los niños con retraso mental, discapacidad de aprendizaje, perturbación emocional e impedimentos físicos son muy populares. También son de gran uso las escalas para calificar la ansiedad, la depresión, la hostilidad y otros síntomas clínicos.
Los investigadores en el campo del desarrollo infantil, la educación especial (por ejemplo,autismo, TDAH, deterioros del habla y el lenguaje, retraso mental), y la psicología escolar en particular, han elaborado docenas de instrumentos de calificación para evaluar los cambios conductuales que resultan de intervenciones educativas, terapéuticas y de otros programas específicos. Muchos de esos instrumentos están orientados hacia la evaluación conductual, mientras que otros tienen una orientación rasgo-factor y algunos más fueron desarrollados en un contexto psicodinámico, psiquiátrico y, por ende, contienen terminología asociada. Además, muchas entrevistas estandarizadas e instrumentos de observación involucran la calificación de la conducta y la personalidad, de ahí que se constituyan en parte de escalas de calificación.
Se dispone de informes basados en la computadora para muchas escalas de calificación y listas de verificación distribuidas de manera comercial. Además, una serie de escalas de calificación y listas de verificación pueden ser aplicadas por computadora. Por ejemplo, existen versiones aplicadas por computadora de escalas de calificación administradas por clínicos, algunas de las cuales emplean respuesta por voz interactiva (IVR), para la evaluación de la ansiedad, la depresión, el trastorno obsesivo-compulsivo y la fobia social. En su revisión de las escalas de calificación clínica aplicadas por computadora, Kobak, Greist, Jefferson y Katzelnick (1996) concluyeron que los pacientes eran más honestos, por lo general, con la computadora que con otros métodos de presentación, y que a menudo la preferían cuando revelaban información delicada acerca de suicidio, abuso de alcohol o drogas, conducta sexual y síntomas relacionados conel VIH. Los revisores concluyeron que, cuando se usan con directrices éticas establecidas, las computadoras son confiables, económicas, accesibles y permiten un uso eficiente del tiempo en la evaluación de los síntomas psiquiátricos.
CLASIFICACIONES Q Y LA PRUEBA REP
Las clasificaciones Q son similares a las escalas de calificación, pero también poseen ciertos rasgos de las listas de verificación. La técnica de clasificación Q, iniciada por Stephenson (1953),requiere que el individuo clasifique un conjunto de afirmaciones descriptivas en una serie de pilas que van de lo “más característico” a lo “menos característico” de sí mismo o de un conocido. Se pide a la persona que ordene las afirmaciones de modo que un número especificado de éstas quede en cada pila y produzca una distribución normal de afirmaciones entre las pilas.
Las afirmaciones de las clasificaciones Q pueden prepararse de manera específica para cierta investigación, pero se dispone de grupos de afirmaciones estándar. Un conjunto distribuido de manera comercial, la Clasificación Q de California, revisada (Conjunto para los Adultos),consta de 100 tarjetas que contienen afirmaciones descriptivas de personalidad; también puede encontrarse en Consulting Psychologist Press un Conjunto para Niños.
Ciertas investigaciones sobre los cambios en el autoconcepto resultantes de la psicoterapia o de otras intervenciones han requerido que los sujetos de la investigación realicen clasificaciones Q previas y posteriores de una serie de afirmaciones que describen sus sentimientos y actitudes (por ejemplo, Rogers y Dymond, 1954). Cuando las clasificaciones del yo verdadero y del yo ideal son más parecidas después de la intervención de lo que eran antes de ésta, puede concluirse que la experiencia de intervención fue efectiva.
En lugar de pedir a las personas que clasifiquen las afirmaciones, puede pedírseles que clasifiquen a un conjunto de individuos en varias categorías. Un ejemplo de este enfoque es la Prueba de Repertorio de Construcción de Papeles (Rep). De acuerdo con Kelly (1955), las personas se parecen a los científicos en que conceptualizan o categorizan sus experiencias de una manera que les parece lógica. Por desgracia, mucha gente percibe o construye el mundo de manera incorrecta y, por ende, desarrolla un sistema erróneo de constructos. El objetivo de la prueba Rep es identificar el sistema de constructos personales que una persona utiliza para interpretar sus experiencias. Al presentar la prueba Rep, el examinado clasifica a las personas que son importantes para él de ciertas maneras en varias categorías conceptuales que selecciona por sí mismo. El desempeño en la prueba Rep es analizado al advertir cuántos constructos son usados por el individuo, cuáles son éstos, qué características de la gente son enfatizadas por esos constructos (físicos, sociales, etc.), y qué personas son más parecidas o más diferentes al sujeto. La interpretación de los resultados de la prueba Rep en términos del sistema de constructos personales del individuo, el cual sirve como marco interno de referencia para percibir y entender el mundo,es un proceso laborioso y subjetivo. Este hecho, aunado a la escasa evidencia en favor de la validez de la prueba Rep, ha dado por resultado un uso infrecuente de ésta en los programas clínicos y de investigación.
RESUMEN
Las listas de verificación y las escalas de calificación se utilizan en contextos educativos, ocupacionales y clínicos para determinar si la gente posee ciertas características, rasgos o conductas deseables o indeseables. Para llenar una lista de verificación es necesario enfrentar una serie de decisiones dicotómicas (sí/no, cierto/falso, etc.), mientras que responder a escalas de calificación requiere una decisión evaluativa de categorías múltiples. Entre los muchos propósitos cumplidos por las listas de verificación y las escalas de calificación se encuentra proporcionar un registro objetivo de los resultados de observaciones y entrevistas. Esos instrumentos también pueden emplearse para determinar si ocurren cambios en una conducta como resultado de un tratamiento en particular, un programa educativo u otro procedimiento de intervención.
Las listas de verificación generalmente son muy sencillas de elaborar, pero resultan más objetivas cuando los reactivos tratan con conductas específicas. Aunque muchas listas de verificación son instrumentos caseros diseñados para una investigación específica o un propósito práctico, en el mercado se dispone de docenas de ellas. Las listas de verificación de problemas,conducta adaptativa, desarrollo, síntomas psiquiátricos y muchos otros rasgos se han usado de manera amplia con propósitos de diagnóstico e investigación en contextos educativos, clínico se industrial-organizacionales.
Tres estrategias que se emplean al elaborar escalas de calificación son la racional-teórica,la de consistencia-interna y la de grupos criterio. Las escalas de calificación válidas requieren que calificadores objetivos y sin sesgos emitan juicios (calificaciones) acerca de conductas, rasgos de personalidad y otras características de los individuos (calificados). Se ha utilizado una variedad de formatos al elaborar escalas de calificación, incluyendo los de tipo numérico, estándar (persona a persona), gráfico, diferencial semántico, con respaldo conductual, de elección forzada y de analogía visual. Cada tipo de escala tiene ventajas y desventajas, y cada escala es más útil para algunos propósitos que para otros.
Entre los muchos errores que se cometen al elaborar escalas de calificación están el error de ambigüedad, errores constantes (de indulgencia, severidad y tendencia central), el error de contraste, el error lógico, el error de proximidad y el efecto de halo. El procedimiento de calificación de elección forzada, en el cual se requiere que el calificador elija entre dos descripciones igualmente deseables y quizá también entre dos descripciones igualmente indeseables, controla algunos de esos errores, pero su uso es engorroso y a muchos calificadores les disgusta. Las calificaciones pueden ser transformadas a calificaciones estándar como un control estadístico para prevenir los errores constantes, pero quizá el procedimiento más efectivo para reducir los efectos de cualquier tipo de error en la calificación sea capacitar con cuidado a los calificadores y familiarizarlos con los diversos errores que pueden cometerse.
Cuando las escalas de calificación se elaboran con cuidado, se hacen tan objetivas como sea posible, y se capacita a los calificadores de manera concienzuda, pueden obtenerse coeficientes de confiabilidad del orden de .80 o incluso de .90. Promediar las calificaciones de varios calificadores también mejora el coeficiente de confiabilidad de una escala de calificación.
Las clasificaciones Q son escalas de calificación modificadas en las cuales los individuos clasifican un conjunto de 100 tarjetas, o algo así, que contienen descripciones de personalidad en nueve pilas para formar una distribución normal de las afirmaciones entre las pilas. El procedimiento de clasificación Q ha sido empleado en estudios concernientes a la efectividad de la consejería psicológica y en otros contextos de investigación y aplicados. La Prueba de Repertorio de Construcción de Papeles (prueba Rep) fue diseñada por George Kelly para identificar el sistema de constructos personales de una persona a fin de determinar qué aspectos de la gente son enfatizados en el constructo y qué personas son más similares o diferentes de quien responde. La prueba Rep no ha sido usada de manera amplia con propósitos clínicos o de investigación,y en gran medida se desconoce su validez.
PREGUNTAS Y ACTIVIDADES
1. Consulte un diccionario o un compendio especializado y seleccione una muestra de 50 adjetivos referentes a rasgos o características personales. Forme una mezcla de términos positivos y menos positivos que no sean sinónimos o antónimos. Haga múltiples copias de la lista alfabetizada de los términos. Coloque una línea corta delante de cada adjetivo y presente la lista a una muestra de personas. Pídales que marquen cada adjetivo que crean las describe de manera general. Resuma los resultados comparándolos con lo que ya sabe acerca de las personas a partir de otros informes y observaciones.
2. Elabore una lista de verificación de 10 reactivos de conductas que sean sintomáticas de la depresión,y una segunda lista de verificación de conductas que sean sintomáticas de la ansiedad. Haga copias de estas dos listas y aplíquelas a doce personas. Califique las listas de verificación contando el número de reactivos marcados por quienes respondieron. Calcule e interprete la correlación entre las calificaciones de las personas en las dos listas de verificación.
3. Un problema con la literatura sobre la investigación de la conducta tipo A es que diferentes métodos de evaluación (por ejemplo, entrevista y cuestionario) no arrojan los mismos resultados. Aun-que cuestionarios como la Encuesta de Actividad Jenkins son más eficientes que las entrevistas,Rosenman (1986) y otros han rechazado dichas medidas de autorreporte porque se supone que las personalidades tipo A tienen poco insight sobre su propia conducta. Una forma de probar esta hipótesis es comparar las calificaciones que la persona asigna a su propia conducta con calificaciones de ese comportamiento formuladas por observadores no sesgados. Con esto en mente, seleccione a unos cuantos individuos que parezcan ajustarse a la siguiente descripción de la personalidad tipo A:
Un patrón de personalidad caracterizado por una combinación de conductas, incluyendo agresividad, competitividad, hostilidad, acciones rápidas y esfuerzo constante.
Aplique la lista de verificación del formato 16.1 a cada persona, y luego solicite a alguien que la conozca bien que llene la misma lista de verificación para describir a esa persona. Use un procedimiento estadístico apropiado para comparar las autocalificaciones con las calificaciones de los otros.
4. Califíquese en cada una de las siguientes características en una escala de 1 (“Considerablemente muy por abajo del promedio”) a 10 (“Considerablemente muy por arriba del promedio”).
____ 1. habilidad para llevarse bien con los demás
____ 2. habilidad atlética
____ 3. cooperatividad
____ 4. creatividad
____ 5. nivel de energía
____ 6. espíritu de servicio
____ 7. inteligencia
____ 8. habilidad de liderazgo
____ 9. paciencia
____ 10. sensatez
____ 11. responsabilidad
____ 12. sinceridad
____ 13. previsión
____ 14. tolerancia
____ 15. integridad
Use el siguiente procedimiento para evaluar sus respuestas: sume sus calificaciones en las 15 características y divida la suma entre 15 para obtener la calificación promedio. Una calificación media“promedio” es 5.5, pero si usted es como la mayoría de los estudiantes su promedio será mayor. Es-te fenómeno de “mejor que el promedio”, el cual se relaciona con el grupo de respuesta de “deseabilidad social”, es una tendencia en que la mayoría de la gente se ve como mejor que el promedio.
5. En una escala de 1 a 10, donde 1 es la menor calificación y 10 la calificación más alta, califique cada uno de los siguientes adjetivos de acuerdo con qué tan descriptivos son de (a) su yo verdadero (la forma en que usted es en realidad), (b) su yo ideal (la forma en que le gustaría ser), y (c) otra gente en general.
Tabla actividad en imagen en la carpeta del libro
Evalúe sus respuestas mediante el siguiente procedimiento: calcule la suma de los valores absolutos de las diferencias entre las calificaciones asignadas a (a) su yo verdadero y su yo ideal, (b) su yo verdadero y los yo de la otra gente en general y (c) su yo ideal y los yo de la otra gente en general.Calcule el porcentaje del coeficiente de congruencia para cada una de las tres comparaciones dividiendo la suma entre 180 y restando el cociente resultante de 1. Entre más cercano sea el coeficiente de congruencia a 1.00, más similares son los dos yo. Interprete sus resultados en términos de la teoría del yo de Rogers o de la teoría del aprendizaje social.
6. Ordene, del 1 al 12, cada uno de los siguientes conjuntos de tres adjetivos en términos de qué tan descriptivo de su personalidad es cada conjunto. Un rango de 1 significa que los tres adjetivos lo describen de manera plena, y un rango de 12 que no lo describen.
____ 1. iniciador, entusiasta y valeroso
____ 2. estable, obstinado y bien organizado
____ 3. intelectual, adaptable y listo
____ 4. sensible, nutriente y compasivo
____ 5. extrovertido, generoso y autoritario
____ 6. crítico, exigente e inteligente
____ 7. concertador, justo y sociable
____ 8. reservado, fuerte y apasionado
____ 9. honesto, impulsivo y optimista
____ 10. ambicioso, trabajador y cauteloso
____ 11. original, receptivo e independiente
____ 12. gentil, sensible y creativo
De acuerdo con la astrología, las características de personalidad de un individuo son determinadas por el signo zodiacal de su fecha de nacimiento. Los 12 signos del zodiaco y las fechas correspondientes son las siguientes:
1. Aries: 21 de marzo a 19 de abril
2. Tauro: 20 de abril a 20 de mayo
3. Géminis: 21 de mayo a 21 de junio
4. Cáncer: 22 de junio a 22 de julio
5. Leo: 23 de julio a 22 de agosto
6. Virgo: 23 de agosto a 22 de septiembre
7. Libra: 23 de septiembre a 22 de octubre
8. Escorpión: 23 de octubre a 21 de noviembre
9. Sagitario: 22 de noviembre a 21 de diciembre
10. Capricornio: 22 de diciembre a 19 de enero
11. Acuario: 20 de enero a 18 de febrero
12. Piscis: 19 de febrero a 20 de marzo
¿Corresponde el número de su signo zodiacal con el número de la tríada de reactivos a la que le dio el rango de 1? Compare sus resultados con los de sus compañeros de clase, amigos y familiares. ¿Es ésta una prueba justa en relación con la validez del proceso de analizar la personalidad en términos de los signos del zodiaco? ¿Por qué sí o por qué no? ¿Cree usted en la astrología? Defienda su respuesta. [Adaptado de Balch, W. R. (1980). Testing the validity of astrology in class. Teaching of Psychology, 7(4), pp. 247-250.]