328 Pdcomccria Teoría de los rt-sfs psicológicos y e\u003cluca;ivos

$Page 1: 328 Pdcomccria Teoría de los rt-sfs psicológicos y e\u003cluca;ivos$
328 Pdcomccria Teoría de los rt-sfs psicológicos y e<luca;ivos

- .-

SUBIECT IDENTIFICATION

WEiüHT SUBTEST TRIED RIGHT PERCENT ABILITY S.E.

1 1 .o0 DOCUA 21 16 0,7619 1 - 0,0610 0,7707

2 1 .O0 DOCUA 2 1 I I 0,5238 / -1,1467 0.6920 1 -

\ En la columna TRIED indica el número de iterns intentados, en RIGHT el número

de asertos, PERCENT expresa la proporción de ,\ciertos, ABILITY la estimación de ML ir la a p b d y SE a error típico de estimación de la aptitud, que como puede verse es distinto e n cada nivel de aptitud. I

~ A P ~ T U L O 1 2 7

LA VALIDEZ DE LOS TESTS

En los capítulos anteriores se trataron diversos modelos de puntuaciones (!e los tests que permitían establecer las conexiones entre una puntuación observada X y una puntuación verdadera V. En la TCT se examinaba la fuerza de la relación lineal. ex- presada a través del coeficiente de fiabilidad; en la TG la proporción de varianza observada explicada por la vananza de las puntuaciones del universch. Cuando el coeficiente de fiabilidad o el de generalizabilidad son altos, puede considerarse que las puntuaciones verdaderas y las observadas se corresponden. Ahora bien, esta cxres- pondencia iio indica que la puntuación pueda interpretarse como un indicador de la cantidad del constructo que se pretende iiiedir. En la TRI se obtiene una puntuacióii en aptitud (8) para cada sujeto y a efectos de interpretación puede dtscribirse de í'ornia

, análoga a la puntuación verdadera. En sí misinas, puntuación verdadera, puiitu:ición del universo o aptitud latente no son más que eii~idades nuniéricas sin signific;v.lo iii-

trínseco. Para interpretar la puntuación de un tcst como una niedida del coiistruc!~) latente (recuerde el lector el proceso de medida descrito en el capítulcl 1 eii la figui;i l . 1 y especialmente en la figura 1.2), se necesitan pruebas de su i d i í l t 7 . En este capiiulo explicaremos este concepto y presentaremos dentro de un marco geiicral los dií'ei.trites procedimien~os utilizados en la comprobación de la validez de las puiituacioncs del test. En capítulos posteriores, explicaremos las técnicas esladísticas iclóneas p m ;iii;i-

l lizar íilgninos de los tipos de validez preseiitndos.

I

,

1 12.1. El concepto de validez y su evolución histórico

La validez siempre ha sido considerada el aspecto central de la Psicoiiietría : (Angoff, 1988), pero podríamos decir sin riesgo de equivocarnos que es también el : más diflcil de definir. lo 9ue ha llevado a una gran ~roliferación de nombres o etiaue-

tas diferentes para represe'ntarlo, tal como p e d e cohprobarse en la relaci6n exhaisti- va que hace Messick (1980).

Como con otros muchos conceptos de la Psicología, una breve revisión de la evo- luci6-n histórica del término. puede ayudamos a aclarar el significado del concepto, que ha cambiado considerablemente en los últimos 40 años (Angoff. 1988).

Convencionalmente la validez se define como "el grado en que un test mide lo qucpretende medir'. definición que no ha cambiado si la comparamos con una de las definiciones antiguas. como la de Garren: " la validez se refiere al grado en que un test o un conjunto de operaciones mide lo que dice medir" (1 937, p.324). El problema se encuenha a la hora de operacionalizar dicho grado de relación y es ahí donde ha habido una gran evolución histórica.

Durante muchos años prim6 una aproximación pragmática, empfrica, e incluso ateónca, motivada por la perspectiva utilitaria de las aplicaciones de los tests y el ope- racionalismo dominantmn la filosofía de la cicncia. Una breve revisión de las principales definiciones de validez dadas antes de 1950, nos confirmará esta impresión. Así, Bingham define la validez cn términos puramente operacionales como " l a correla- ción entre los pi~ntrraciones de un test y o1,pririu otra medida objetiva de lo que el test in!ento medir" (1937. p.2 14). Guilford la define de un niodo muy similar: "de una forma muy general. un tesr es válido para aqtrello con lo que correlaciona" (1946, p.49). Cureton (19-50) también define la validez como la correlacióri entre las puntuaciones observadas del test con las verdaderas del criterio, pero ya introduce algunos matices teóricos. distinguiéndola del poder predictivo del test, al que considera como correlación entre puntuaciones verdaderas y observadas del test y del criterio; diferenciando este a su vez de la relevarrcia. a la que define como correlación entre puntuaciones verdaderas de ambos. En la práctica, y tal como señala Angoff (1988). fue el uso de la validez en su sentido predictivo la que dominó la escena psicométrica hasta los años cincuenta y cita como ejemplo el ambicioso programa de la Air Force A~iarion Psycliolo,py g?. F l a n a p , 19-18).

Durante este mismo periodo se fue introduciendo otro tipo de validación por crite- nos. la valide: coricirrrenle IAPA: XERA. 1954), considerada como la correlación del test con un criterio. difiriendo de la concepción predictiva anterior en que la recogida de las puntuaciones de ambos se realizaba simultáneamente. Desde este punto de vista. se aceptaba como evidencia de la validez de un test la correlación de éste con alguna d i d a aceptable del raspo en cuestión.

Oa característica distintiva de la aproximación con~elacional (correlación test- a-irerio) fue el uso de criterios conductuales y la conceptualización de los criterios en rérminos de conductas observables.

Pronto se vio que esta comxptualización de la validez ligada a criterios extemos resul- taba demasiado restrictiva, y3 que, aunque directamente aplicable en contextos de selec- ción con finalidad esmcialmnte predictiva, no servía para otros muchos tests en 10s que ellas mismos constitu>.en su propio criterio. como es el caso de los tests de rendimiento, competencias, trastornos de conducta. etc. Esto llevó a una primera ampliación del con- L T ~ O & validea definida ahora además como "el grado en que su contenido representa una niunrm sufu$actoria del dominio". apareciendo el concepto de validez de contenido.

Cñm tipo de validez que fue popular durante los años cuarenta fue el de validez aporenie (Mosier. 1947), aunque nunca se le concedió mucho interés teórico en la Psicanetda

Capítulo 12. L a validez de los tests 33 1

Un cambio importante fue el introducido en los Standards for Psychological urid Educational Tests (APA, AERA, 1954), en los que se habla de 4 aspectos de la validez: contenido, predictiva, concurrente y de constructo, introduciendo esta última por primera vez como un nuevo tipo. Los Standards de 1964 y 197 1 combinarori la concurrente y la predictiva en validez referida al criterio.

No fue casual que los Standards hablasen por primera vez de la validez de constructo, ya que L. J. Cronbach fue el presidente del Comité y Meehl uno de sus mieni- bros y al año siguiente apareció el importantisimo artículo de ambos autores (Cronbach y Meehl, 1955) sobre la validez de constructo y comienza a percibirse ésta como el aspecto fundamental e inclusivo de los restantes aspectos de la validez. La concepci6n teórica del constructo dicta la naturaleza de los datos a recoger para la va- lidación y la interpretación de las puntuaciones. A su vez, los datos resultantes del estudio de validación se usarán para validar, revisar o rechazar la teoría misma. En este sentido, ya Gulliksen (1950) hablaba de la validez intrinseca, según la cual se postula la existencia de constructos alternativos y se examinan los datos de varias medidas. estudiando sus patrones de covariación Desde el punto de vista de Cronbach y Meehl. todos los datos que provienen de la teoría son útiles para la validez de construclo: dis- tribuciones de grupos, matrices de correlaciones internas (de items) y externas (de tests), criterios extemos, datos de desarrollo y cambio, análisis de contenidos, etc. Dentro de esta nueva concepción, parece obvio que la validez no puede expresarse por un coeficiente único, sino que requiere muchas líneas de evidencia, no todas cuaniiia- tivas. Todas las medidas que proporcionen datos que puedan considerarse expresiones comportamentales del constructo, incluyendo tanto tests como criterios, pueden usarse en la validación de coristructo.

La validez de constructo tuvo un importante avance metodológico pocos años des- pués con la aparición del artículo de Campbell y Fiske (1959), en el que ofrecieroii pruebas conceptuales y empíricas para la validación de constructo, basadas en rnetli- das correlacionales, y diferenciando dos importantes tipos de evidencia de la vdidez de constructo: validez convergente y validez di.rcriniiriari~e.

La triple clasificación de la validez tuvo consecuencias téoricamenie no deseables ya que fue interpretada por los autores y us~iarios de los tests en el sentido de que los tests podían validarse por medio de uno o más de los tres procedimientos gener;ilrs. Ademds comienzan a proliferar las denomiiiaciones de validez con nombres ligados n los procedimientos empíricos utilizados en su determinación. Se hacía necesario dc nuevo la revisión del concepto desde una perspectiva integradora y unificada.

Aunquy no podemos olvidar los esfuerzos de otros autores en este sentido (Cronbach, 1982, 1984, 1988; Guion, 1977, 1980; Loevinger, 1957; Tenopyr, 1977), un autor con una significación especial en la integración del concepto de validez fue Messick (1975, 1981. 1988, 1989), que integra las diferentes aproximaciones a la validez dentro de la validez de constructo.

La conclusión de todos estos autores es que hay una única validez, la validez de constmcto. tal como se refleja en las palabras de Messick: "la validez de construc~o es el concepto unificador de validez que integra consideraciones de contenido y de criterio, en un marco general para probar hipótesis racionales acerca de relaciones teóricamente relevantes" (1980, p.1015). Afiade además que la validez representa la

332 Psicomcwía: Teoríu de los rcsrs psicoldgicos y educativos

interpretación de los tests basada en la evidencia proporcionada por sus puntuaciones. Messick seaala en el mismo artlculo que la validez de contenido mostrarla la relevancia & los conienidos y las valideces predictiva y concurrente, serían utilidadpredicti- va y urilidad en el diagnóstico, respectivamente. Messick (1980) sugiere que algunas de las otras formas de validez referidas en la literatura psicom6trica: convergente y discriminante- predictiva y concurrente, factorial, etc., serán consideradas estrategias de diserío y ck. análisis de datos. utilizadas para probar las conexiones conceptuales entre la medida y el constructo.

Como puede observar el lector a partir de esta breve exposicidn hist<)rica, los trabajos que siguieron al artículo conceptual de Cronbach y Meehl. tuvieron un importante papel ~Uarificador del concepto y de los procedimientos de la validez. Cuando deseamos medir una chcterística psicológica de los sujetos, en primer !ugar se define ésta y a continuación se establecen operaciones diseñadas para proporcionar des- cripciones cuantitativas del grado en que un individuo la posee o manifiesta. Una cuestión fundamental que debemos planteamos es el grado en que las propiedades medidas por dicho co~rjrcirto de operaciones se corresponden de hecho a lo caracterís- tica &tinida -i. son apropiadas para las infeivircias y acciones basadas eii las puntua- cionrs de los rcsrs. Es decir. antes de aceptar un conjunto de operaciones para la medida & un r a s p . es necesario saber si miden lo que pretenden medir y cuhles son las consecuencia' potenciales de la interpretación de las puntuaciones.

Es impownie destacar. como hace Messick (1989) que la validez es una cuestión de gndo y que no es definitiva. pudiendo ser modificada por nuevas evidencias, consecuencias sch-iales potenciales. etc: es decir, la validación de un test es un proceso continuo. numa acabado.

,, Esu pers-ctivn unilicadora de la valide^ aparece recogida en los Standards for \ E(/IICJI~OIIUI r;nd Psylrolopical Testiirg (APA. AERA, 1985) que dan la siguiente defi- i, nicih de la alidez: "ln \dide: se rvfieiu u Itr orlec~~ocirjii, sigilificaciArr y utilidad de \las inf'rerrciw esl~ec(/icos heclros ( 1 par.tir (Ir los prrrltrracioires de los tests ... una gran ~ w i t d u d <Ir r,~frr.crrc.ic~.s prrcdeti Iroccrse o prir.lir de las plrnnrociones de irii determinado test y /I(IF nlr~clrus ~ ~ J I . I I I < I . C de (rcrrr)~rrI(tr. eiv'(lcriciu qrre sop:wteir Irira irfciriicia parti- ciilar: Lo i.al¿dr:. iro oh.sl(rtite. es lrrr coilcepto r~rritwio y sienilwe se i.ejiwe al grado en \ que Id eiqidemi.ia soporr<i las irlffiv~~ci(rs hecliu~ desde los ~ I I I I I I I U C ~ O ~ I ~ S los tests. Se i d i h las itfc.rcwius /)(ira pir~pdsilos esp~~citrles. no el test nrismo ... Liricl ididación iclral inclr-e iwios 1il)os de ei.i(lerrcio. qrre c~orrrpreirtleir los trrs tradicionales (contenido. mnstrrrcw 3 critrrioi. .. Los jrricios prnj'esiorroles guior.áir los decisiorics respecto a los ~ idenc iaq niós inipor-/antes o lo Irr: del rtso prrtendido del test" (p.9).

Son múltiples las preguntas a las que intentan dar respuesta las puntuaciones de los tests e inmmentos de medida psicológica y también múltiples las fuentes de evl- dencia para la validación. pero la validez es un concepto unitario, que siempre se m- fiere al grado en que la evidencia empírica y las bases tedricas soportan la adecuación de la interpretaciones y acciones basadas en las puntuaciones de los tests.

Esta nueva definición & la validez tiene importantes implicaciones. En primer lugar. debemm destacar el Cnfasis en las puntuaciones' y no en los tests o instrumentos~ ya qne estos oo tienen fiabilidades ni valideces, únicamente las tienen las puntuacio-

Capírulo 12: La validez de los rests 333

En segundo lugar, y como sucede con la fiabilidad que no es de un test "per se",

1 sino de unas medidas que representan a las puntuaciones verdaderas, y que en la perspectiva de la TG depende del objeto y de las facetas, los tests o instrumentos tampoco tienen una validez, sino que utilizamos las puntuaciones de los tests para un propósito particular, para hacer inferencias concretas; por tanto, diferentes tipos de inferencias de las puntuaciones de los tests pueden requerir distintas evidencias, es decir, datos, hechos, justificaciones racionales distintas, que ciinenten las inferencias extraídas de las puntuaciones. En otras palabras, suponiendo un conjunto de preguntas específicas a las que el psicdlogo pretende responder usando el instrumento de medida, ¿hasta

1 qué. punto son adecuadas las respuestas proporcionadas por las puntuaciones de los tests? La ventaja de esta definición es que liga la validez a unas necesidades específi- cas. Podemos buscar en el contenido del test, con relación al dominio o contenido de referencia; podemos examinar los procesos que subyacen a las respuestas a los items del test; podemos preguntarnos acerca de la relación entre las puntuaciones de los tests y otras medidas externas. Estas variedades de evidencia no son alternativas, sino complementarias. Desde este punto de vista es desde el que suele hablarse de tipos cle validez. Por ejemplo, ¿hasta que punto es útil un test para predecir el éxito en un pues- to de trabajo?; Les válido el test para determinar el nivel de conocimientos de un suje- to adquiridos en un curso?; ¿hasta que punto el test mide el grado de sociabilidad del sujeto? ... Puede haber docenas de preguntas similares y los metodos usados para responder a ellas pueden diferir. La naturaleza de la validez varía en función de la cues-

anea- tidn específica considerada. Un procedimiento de medida puede resultar sirniili' mente válido e inválido; es decir, sus puntuaciones pueden ser válidas para deterrnina-

1 dos usos o inferencias, pero no para otros. En tercer lugar, mientras quc la fiabilidad de una puntuación observada dcrivntl~i

de un procedimiento de medida, puede describirse nuiiiéricainente por medio tlc iiii

coeficiente de fiabilidad, error típico de medida o una función de información, la vali- , dez no puede resumirse de forma adecuada por un índice nuiiiérico; no hay ti11 Único

coeficiente de validez. Los diversos estadísticos denominados coeficietites (le ~~rl idez

l descritos en los manuales de los tests, trabajos de invesiigación. eic., son descripiores

i numéricos de lafirerza o grado de algunas de las evidencias empíricas de la validez.

Finalniente, puesto que la validez es el grado de adecuación de las piiriiiiaciones de un test para un uso particular, la i~1lirlrrcir5ir de los tests es el proceso dc :iciiiiiul:i-

1 cidn de pruebas y evidencias que soporten dichos usos e inferencias. El proceso tle va- I lidación puede estar formado por muchos subprocesos independientes.

Ep resumen, y como señala Cronbach (1984) "la metlifiiial de la validocidir rs lo explicacidn y la con~prensióii y por toiito ésto nos lleva a coiisiderni. que lodo ~~nlida- ción es i~alidacióir de constrircto" (p. 126). En la misma obra Cronbach destaca que las tradicionales tres formas de validez no pueden considerarse alternativas, sino esirate- gias de investigación diferentes.

Otra consideración importante que tiene que ver con la validez es la de las consecuencias sociales del test, ya que el uso de los tests está generalizado en todos los ám- bitos de la vida cotidiana y en este sentido, Cronbach (1988) señala que "...debe ligar conceptos, evidencia, consecuencias sociales y personales y valores ... y los validado-

nes -&ivadas d e ellos. res tienen la obligación de revisar si una práctica tiene o no las consecuencias apro- .;&$

334 ;?ricometrla: Teoría de los tests psicolCgicos y ediccutivos ''..--- .

piahs para individuos e instituciones, y especialmente evitar las consecuencias ad- versas" (p.6).

Estas últimas consideraciones han llevado a considerar como parte del proceso de validación otros aspectos hoy muy importantes en la Psicometría, tales como el sesgo de los i tem y de los tests.

De todo lo anterior se deduce, tal como señala Messick (1989) que el proceso de interpretación de los consmctos sitúa a las puntuaciones de los tests tanto en un contexto te6rico de relaciones implicadas con el constructo y otros consmctos, como en un contexto de valores. Las pruebas empíricas del primer tipo de relaciones contribu- yen a poner las bases evidenciales para la interpretación de los tests: las valoraciones del segundo tipo proporcionan las bases consecuenciales para la interpretación de los tests. Así pues, en palabks de este autor, la validación de los tests radica sobre cuatro bases, presentadas en la tabla 12.1.

TABLA 12.1. Facetas de la validez de un test.

Interpretación del test Uso del test

Bases de evidencia Validez de Cons~nicto Validez Consiructo + RelevanciaAJtilidad

Bases de consecuencias lrnplicaciones de valor Consecuencias sociales

Estas cuatro bases son 1) resumen inductivo de la evidencia convergente y discriminante de que las puntuaciones del test tienen una inierpretación de constructo, 2) evaluación de las implicaciones de valor de la interpretación del test, 3) evidencia de la relevancia del constructo y de su utilidad en aplicaciones particulares y 4) estima- ción de las consecuencias sociales potenciales del uso propuesto del test y de las reales cuando se usa.

Una distinción similar entre interpretación y uso fue establecida ya por Cronbach (197 l), cuando diferenciaba entre uso del test para describir una persona y para tomar decisiones acerca de ella.

A continuación presentamos las categorías de la validez. siguiendo el esquema tradicional. que como.hemos visto encaja dentro del marco unificador: contenido, criterio y consmcto. Las tres son aproximaciones a la dimensión "bases de evidencia" de la tabla La segunda dimensión, aunque muy importante, no será abordada aquí, pues está más ligada a otras materias como Evaluación Psicológica, Diagnóstico, etc. Unicarnenta trataremos ciertos aspectos estadísticos bajo el capítulo "Evaluacidn del funcionamiento diferencial de los i t em y tests".

Insistimos de nuevo en que estas hirs categorías o aproximaciones a la validez son diferentes w c t o s de un único concepto y que todas ellas se aglutinan bajc la validez de constructo. No obstante, por razones didácticas e hisdricas, como cada una aborda

Capírulo 12: La validez de los resrs 335 I

facetas diferentes y se basa en diseños y análisis de datos distintos, las abordamos por separado. Presentamos a continuación una breve definición de cada una de estas cate-

r gorías, antes de pasar a considerar cada una en detalle:

/o) Validez de contenido, que expresa el grado en que el contenido de un test constituye una muestra representativa de los elementos del constructo que pretende evaluar.

b) Validez relativa a un criterio. En situaciones en las que el usuario del test desea extraer inferencias acerca de algunas conductas en situaciones reales y de importancia práctica. Expresa las relaciones del constructo con otros constructos. operacionalizada normalmente en términos de correlaciones y regresiones del test con otras medidas.

c ) Validez de constructo. Cuando el usuario del test desea hacer inferencias acerca de conductas o atributos que pueden agruparse bajo la "etiqueta" de un constructo psicológico particular. Integra toda la evidencia que permite la in- terpretación de las puntuaciones de los tests.

Cuando se selecciona un test para un propósito particular, el usuario debe tener claro el tipo de validez que es adecuada para dicho propósito. Diferentes tipos de vali- dación soportan diferentes tipos de inferencias, que no son intercambiables. Además, para ciertas inferencias, son necesarios varios tipos de validez. No obstante. la validez de constructo subsume la relevancia y representatividad de los contenidos, así como las relaciones con los criterios, ya que nnibas dan significado a las puntuaciones de los tests (Loevinger, 1957; Messick, 1980, 1989).

A continuación se presentan estas categorías de la validez insistiendo en las preguntas a las que pretende responder cada una. En capítulos posteriores se iraiarán las técnicas de diseño y de análisis de datos específicas.

12.2. Validez de contenido

12.2.1. Concepto

Convencionalmente, la validez de contenido se define en términos de la adecua- ción muestra1 de los items de un test. en cumto muestras de un dominio mis amplio

I de items representativos del constructo/conducta. El propósito de un estudio de vali- . dación de contenido será pues establecer el grado en que el conjunto de items del test

l ,I representa adecuadamente un dominio de conductas de interks específico. Por ejemplo, en un test de vocabulario, el usuario raramente estará interesado en el conoci-

: miento por parte del sujeto de las palabras concretas del test. Suen (1990) considera insuficiente esta definición, ya que no tiene en cuenta la posibilidad de la medida con facetas múltiples (como la hace la TG) y da una definición más generalizada como

336 Psicometria: Ttoría de los restspsicoldgicos y educativos

- .-

Capítulo 12: Lo validez de los tests 337

"tipo de evidencia que apoya el uso de muestius de los niveles de las facetas como adecuadas y 1 epresentativas del universo".

Históricamente, la noción de validez de contenido ha sido conceptualizada de tres formas distintas, aunque relacionadas, influidas por el paradigma dominante de la Psicologia: grado en el que el contenido del test representa una muestra adecuada del contenido del dominio de interés (APA, 1954, 1966); grado en el que las conductas exhibidas en el test constituyen una muestra representativa de las conductas del dominio (APA, 1974); grado en que los procesos empleados por los sujetos para llegar a la respuesta son típicos de los procesos subyacentes a las respuestas del dominio (APA, 1985).

En la priictica, la validación de contenido supone el examen sistemltico del contenido del test. para determiliar si es una muestra relevante y representativa del dominio comportamental que se pretende medir. La APA en los Standards de 1985 señala que los mCtoJos clasificados en la categoría validación de contenido suelen estar interesados en el constructo que mide el test, asl como en el cvntenido del mismo, por lo que reconoce la dificultad de separar la validez de contenido de la de constructo. Este procedimiento de validación se usa normalmente con los tests de rendimiento, diseña- dos para medx el grado en que los sujetos dominan alguna destreza particular o temas de estudio. Podríamos suponer que la mera inspección del contenido del test bastana para establecer su validez para este propósito, sin embargo, no es tan simplc como parece. La principal dificultad es determinar qué representa un muestre0 adecuado de los items del dominio. El dominio de conductas a evaluar debe ser sistemáticamente analizado para estar seguros de que todos sus aspectos importantes están cubiertos por los items del test y'en las proporciones adecuadas. Por ejemplo. un test puede estar SO-

brecargado en aquellos aspectos para los que es más flcil la redacción de items objetivos. El dominio bajo consicleración debe ser completamente descrito de antemano, antes de la construcción del test e incluirá todas las dimensiones, facetas y objetivos principales.

Es impo~ante destacar que bajo la validacih de contenido hay dos aspectos de las muestras: la relevancia y la representatividad (Messick, 1975). Los iteins del test deben ser relevantes para el uso que se dará a las puntuaciones y representativos del dominio de iwms de interbs. Una puntuación es relevante para el uso pretendido cuando todos los items del test están dentro del domiiiio de interés. Por ejeniplo, si el objetivo de un test es evaluar la ciipricidad mateiiiáiica general de los sujetos. todos 10s items deben ser de maten~áticiis. Sin eiiibago, si el test pretende medir los conocimientos de un sujeto después de un curso de matemáticas, solamente los iteins rela- cionados con los objetivos del curso serán relevantes. Una vez demostrada la relevancia, puede tenerse confiaiizii en la validez de contenido de la inferencia si puede de- mostrarse adcrnás que los items constituyen una muestra representativa del universo 0

dominio. El concepto de representatividad hace referencia a que los items constituyen una muestra aleatoria del universo, pero esta definición es poco realista, ya que no existe un marco muestrnl, ya que el universo entero de items no es identificable Y una interpretación más práctica de la representatividad es que "los items represcrltan 0 re- producen las caracterfsticas esenciales del universo en sus proporciones" (Lennon* 1965).

En la validación de contenido deben seguirse las siguientes fases:

1) Definición del universo de observaciones admisibles. 2) Identificación de expertos en dicho universo. 3) Juicio de los expertos acerca del grado en que el contenido del instrumento es

relevante y representativo de dicho universo, por medio de un procedimiento estructurado que permita emparejar los items con el dominio.

4) Un procedimiento para resumir los datos resultantes de la fase anterior.

En una primera fase se establecen las e.specificaciones del test, con arreglo a las cuales se coristruirán los itenis. Estas especificaciones mostrarán:

- Áreas de contenido que se deben cubrir. - Objetivos instruccionales (en los tests educativos). - Procesos que se evaluarin. - Importancia relativa de los diferentes tópicos y procesos.

Una forma conveniente de establecer estas especificaciones es por medio de una tabla de doble entrada con los procesos en las columnas y los tópicos en las filas. No todas las casillas de la tabla necesitan tener items, ya que algunos contenidos pueden ser irrelevantes para ciertos procesos.

La validación de contenido suele eniplearse fundamentalmente con tests educativos y en ocasiones con la evaluación coiiductual; raramente se utiliza para la niedida de rasgos o atributos cognitivos o afectivos. El procedimiento habitual para la defini- ción del dominio suelen ser listas de objetivos de instrucción o de categorías tle conductas, aunque tambiEn pueden ser faceias de un rasgo o atributo.

Además de seguir las fases anteriormeiitc señaladas. en la planificación tic un cs- tudio de validez de contenido es preciso ioiiiar las siguientes decisiones prdciic;is.

1) iSe pntrdei.ardti o i r 1 1 los ohjeliws. ctrle,qoríus, c~tc.? El piocetlimieiiio iiiás co- mún es asumir que todos tendrán el iiiistiio peso, no obsianie. a veces no será así. es-

t pecialmente en los tests de reiidimientos acadéiiiicos, doiide no todos los objciivos t endrh el niismo peso. En estas ocasioiies. se pide a un conjunto de jueces que asig- nen pesos a los distintos objetivos.

l

2) Esl iwt~rra de la lureo de em/~ui~rjuri~ien~o ilems-ohjeliiws. Existen varios pro- : cedimientos para realizar esta tarea. El procedimiento más común es dar a los jueces

una lista de objetivos (categorías, facetas; etc.) y presentarles cada item en una ficha - . separada; el juez compararácada item con la lista y registrará el resultado en una hoja de respuestas, indicando al lado de cada item el número del objetivo. Generalmente el emparejamiento se registrará como una dicotomía. Hambleton (1980) propone una es-

338 Psiconienia: Teoría de los tesis psicol6gicos y educativos

cala de 5 puntos para expresar el grado de emparejamiento, en la que 1 indica un mal ajuste y 5 uno excelente. Se calcula la media o mediana para cada item en los diferentes jueces y este resumen global indicará el grado de emparejamiento entre item y objetivo.

3 ) Aspectos del item que serán c.xaminados. A los jueces se les presentarán des- cripciones claras de las caracteristicas de los items y del dominio que tienen que considerar. Algunas frecuentes son: la materia, proceso cogiiitivo, nivel de complejidad de la respuesta requerida, modo de respuesta, formato de presentación, etc.

4 ) Resunien de los resultados. Normalmente en la validación de contenido, las decisiones son más cualitativas que cuantitativas; no obstante se han propuesto algunos índices cuantitati~o?~ara resumir las decisiones de los jueces sobre los items. Los más frecuentes son los siguientes:

a i Porcentaje de items que se emparejan a los objetivos. bi Po~enta je de items que se emparejan a objetivos con una elevada calificación

media. ci Correlación entre el peso dado al objetivo y el número de items que miden el

objetivo. d i fndice de congruencia item-objetivo e / Po~enta je de objetivos no evaluados por ninguno de los items del test.

Puesto que los diferentes lndices estiín basados en diferentes lógicas, no suelen llevar a las mismas conclusiones acerca del grado de ajuste entre un conjunto de items y un dominio de contenido.

Los dos primeros índices requieren un iiúmero de items elevado (100 o más). El tercer índice está afectado por la varianza en el número de items que evalúan cada objetivo y los pesos.

El cuarto indice descrito por Hambleton y Rovinelli (1977) puede usarse para evaluar el grado en que un item tiene validez de contenido para un conjunto de objetivos. La fórmula se basa en el supuesto de que en el caso ideal, un item se emparejará a un solo objetivo del conjunto. En la recolección de datos se le pide al ji~ez que empareje cada item con cada objetivo y le asigne al itein + 1 si mide el objetivo. O si no lo hace y - 1 si no está seguro. El índice de congrueiicia del item al objetivo se calcula mediante la fórmula:

don&: N: número de objetivos pit: media de los jueces para el item i y el objetivo k p,: media de los jueces para el item i en todos los objetivos

Capítulo 12.' Lo vulidez de los lests 339

El valor más alto posible de congruencia del item es 1,00, y sólo puede alcanzarse cuando un item es emparejado solo a uri objetivo por todos los jueces.

El porcentaje de objetivos no cubierto por un conjunto dado de items es un índice de hasta qué punto el dominio entero de contenidos está representado por los items.

Aunque la validación de contenido es esencialmente un proceso de juicio, algunos autores siigieren utilizar técnicas estadisticas para resumir cuantitativamente la evidencia de la validez de contenido. Nunnally (1978) y Tucker (1962) sugieren usar análisis factorial y Bohrnstedt (1970) el análisis de conglomerados. En la práctica, se utilizan los procedimientos de juicio antes señalados.

12.2.3. Pt~blemas con la validación de contenido

Un problema de los procedimientos propuestos anteriormente es que, aunque es posible que todos los items se ajusten a los objetivos, éstos pueden no representar adecuadamente el dominio de rendimiento para el que se escribió el test. Cronbach (1971) propuso un método para eliminar este problema denominado el experimento de la construcción duplicada. Dos equipos independientes reciben la misma defini- ción del contenido, reglas de muestre0 del dominio y criterios para la interpretación de los datos. Se pide a cada equipo que desarrolle un test para un dominio especificado. Una vez desarrollados los dos tests se aplican al mismo conjunto de sujetos y se calcula la media de las diferencias al cuadrado en sus puntuaciones en los dos tests. Desde la TC'C, teóricamente, las dos formas deberían ser similares y:

Una medida de la similaridad de los dos tests la da la razón de los dos términos de la igualdad anterior, sustituyendo las varianzas error por sus estimadores:

A medida que la razón se aproxime a 1, más similares serán los dos tests. A veces la validez de contenido se confunde con otros términos que representan

J . otros rasgos del test, tales como la validez aparente, validez curricular y validez ins- [12.11 ! 2 truccional.

La vulidez aparente no representa forma alguna de validez en sentido técnico; se refiere no a lo que el test mide, sino a lo que superficialmente parece medir. Este aspecto es deseable en algunos tipos de tests. Anastasi (1988) habla de que cuando tests normalmente utilizados con niños se aplican a adultos, Cstos normalmente expresan críticas, resistencias y escasa motivación a causa de su falta de validez aparente. Si el

340 Psicomerría: 7 eorfo de los resrr psicol6gicos y educarivos <. .

Capírulo 12: Lo validez de los resrs 34 1

contenido de los tests resulta irrelevante, sin sentido, infantil. etc., el resultado ser6 una pobre cooperación por parte de los sujetos.

Nevo (1985) insiste en la investigación sobre la validez a.parente dada su importancia en las actitudes hacia el test y propone técnicas cuantitativas de evaluación pi- diendo a potenciales examinandos y otras personas no expertas en Psicologfa que eva- Iúen lo adecuado de los items del test para la finalidad pretendida.

La validez aparente puede a veces mejorarse reformulando los items del test a otros ttnninos que parezcan relevantes a la situación particular.

En ocasiones no es deseable que el test tenga validez aparente. ya que los sujetos pueden intuir fácilmente lo que pretende medir el test e inducirles al falseamiento de las respuestas.

La validez cur r icukr se refiere al grado en que los items son relevantes para los objetivos del curriculum tal como son formal u oficialmente descritos. La validez ins- truccional indica si los profesores han proporcionado instrucción en los contenidos y destrezas medidos por los items del test.

12.2.4. Aplicaciones (le la volidet de contenido

Aunque la validez de contenido es importante para todos los tipos de tests, es ab- solutamente necesaria en la valoración de los tests de rendimiento educativo y ocupa- cional, ya que permite responder a las dos cuestiones básicas sefialadas al principio, la relevancia y le representatividad:

Es especialmente importante para los tests referidos al criterio: que describiremos más adelante. ya que es el principal requisito para su mlidación.

También suele aplicarse a niuchos tests ocup;icionales diseñadcs para la selección y clasificación de empleados, especialmente cuando el test represciita una iiiuestra de tareas en el puesto de tr;ibajo e intenta poner (le relieve las destrezds y conocimientos requeridos para el puesto. En estos casos, debe realizarse un delallado análisis de puestos p a n justificar el parecido en!re las actividades del puesto y el test. Ejemplos de la aplicación de esta técnica pueden encontrarse en Schoenfeldt, Acker y Perlson (1976) y Primoff y Eyoe (1987).

1 .

12.3. La validez referida a un criterio - (..# \ c t N / -

12.3.1. Concepto

(' En muchos casos el usuario de un test quiere hacer inferencias de las puntuaciones, del test a la conducta del sujeto en algún criterio de rendimiento externo al propio test.?

El criterio suele ser una variable o característica de interés reafi(p.ej. rendimientos académicos, rendimientos laborales, duración y10 éxito de una terapia, predjs-n. de u ~ o ~ n d ~ c _ t a d e - n ~ g ~ , ~ ~ t ~ . ) . En estos casos el test es de interés solamen&n la medida en que sus puntu ciones correlacionen con el criterio y puedan considerarsc un buen sustituto de ést$El cr/terio es una medida directa e independiente de lo q i e el test intenta predecir o inferir.,Por ejemplo, para un test de aptitud mecánica, el criierio puede ser el rendimiento posterior de los sujetos como maquinistas; para un ii:st de aptitudes escolares, el criterio pueden ser las notas; para un test de neuroticismo. pueden ser otras informaciones o diagnósticos disponibles acerca de los sujetos.

, Antes de usar las puntuaciones del test para tomar decisiones, debe existir un!! evidencia de que hay una relación entre las puntuaciones del test y las del criterio. E;te tipo de evidencia se obtiene a travCs de unestudio de validación~referida a ~ r i i o i t t ~ t ~ i .

El diseño general de un estudio de validación referida a un criterio sigue los siguientes pasos:

1) Identificar un criterio relevante y un método para medirlo. 2) Identificar una muestra de sujetos representativa de la población en la que será

usado el test. 3) Administrar el test y obtener una puntuación para cada sujeto. 1 4) Cuando hay datos disponibles del criterio, obtener una medida de Cste para ca-

l da sujeto. Si no hay datos del criterio en el momento en que se aplica el teit. dejar transcurrir un tiempo y recoger después los datos del criterio.

5 ) Determinar el grado de la relación o asociación entre el test y el criterio.

12.3.2. La tcmporulidad del c.i.itci%~

La evidencia relacionada al criterio suele considerarse desde dos perspectivas distintas, una en términos de reliiciones predictivas y la otra concurrentes. que iiicitleii eii el diseño de la recogida de los datos eii cuanto al momento de recogida.

La validez pirdictiva se refiere a1 griido en que las puntuaciones del iesi picdiceii medidas del criterio tomadas posterioriiiente. es decir, los conductiis t'iituii~s del s:.jc(c) en el criterio.

La volic/et~concrri~~~e~~te)se refiere al grado en que I;is putitunciones del test correlacionan con las del criterio, medidas al iiiisnio tiempo, es decir, con la sitii:icicíii iiciii;il del individuo en el criterio.

f L a a d e e de una uotra f o m ~ d e rel;ición.&p~nde!~ I;i funcióii o propósito d&est: selección, clasificación, rendimiento e n una materia, certificaci6n o djign6s- tico para la intervención, La validación concurrente no es simplemente un sustituto f i - D w d i c t i v a , como se consideró durante mucho tiempo, sino que para algunos usos del test es el procedimiento adecuado.

En las decisiones de selección, las personas son aceptadas o rechazadas para un tratamiento (puesto de trabajo, escuela, programa de formación, etc.). En las decisjo- nes de cIagificaci6nhay-dos o más categorías o tratamientos y todas las personas son asignadas a una categoría Cuando los tratamientos alternativos representan unz se- L-- -- ---..-.- -. d

312 Psicomeirlo; Teoria de los i ~ ' s r s psi<i~ló~icos y educulivos

cuencia ordenada como los diferentes cursos escolares, se habla de colocación. Otra diferenciación importante de las decisiones de lo\ t i @ =refiere a su-uso predictivo o d-rcaso estamos i n t e r e s a d o ~ n _ ~ - ~ r - ~ ~ I I ~ e t o responderá bien al tratamiento: enel segundo caso, se necesita idenificar c o n o c i m i ~ t u s @!suje- t o ~ o ~ , ~ ~ ~ d o s de__~-~~i@Mde tra&miento~Asuyez, la identifica- ci63ñd~necesidade<es s e @ r a b . e & + prescr$ci«n de t r a t ~ n t o s S y Y s tests pueden- validarse=m&<epara dichospro@s&i. Cuando el uso previsto es predictivo, esGaSadecuada la-vadez przc t iva , - - pero -- cuando es de_dia@6$@0, lo es más la coprcente.

I\lo obstante. la validación predictiva es más dicícil de llevar a cabo, puesto que requiere un tiempo de espera, perdihdose con frecuencia sujetos de la muestra. Por tal motivo. suele sustituirs~un diseño predictivo por otro concurrente. En algunas situaciones esta práctica puede ser peligrosa. A veces. el predictor (test) puede estar in- fluido por experiencias posteriores del sujeto.

Finalmente, algunas veceszs!cmos interesados la s e g ~ c d a d con la que pode- mosegimarel grado en que unindividuo poseyó un rasgo determinado eri el pasado. En estas circunstancias hablaríamos de wlidez posrdictiva o retrospectiva.

La distinción entre estos diseños de validacih y su aplicación según la pregunta O

inferencia a realizar. puede observarse fácilmente en las dos preguntas siguientes, referidas a un cuestionario de rimtornos depresivos:

- ¿Tiene el sujeto un trastorno depresivo en la actualidad? (Concurrente). - LTendrA el sujeto en el futuro un trastorno depresivo? (Predictiva).

123.3. Los problenius de lo 1~11idez rdafivci o1 criterio

Para establecer la validez de un test con respcclo a un criterio, los criterios deben cumplir una serie de requisitos, tales como ser relevantes, fiables, libres de sesgos y distorsiones y fáciles de obtener (Smitti. 1976). Hay otras cuestiones más complejas tales como si el criterio es uno o múhiple. si será global o una combinación ponderada de varios elementos. si es dinámicc o estable y si es final, intermedio o inmediato. Esta última cuestión es la que ha recibido niás aicrición en la literatura psicométrica, desde que Thorndike (1949) expresó que: "el cr.iro.io iílrirno es la n~etafinal de cual- cpier tipo particidar & seleccióri o fornioción" (p. 12 1 ). Frente a ellos se encuentran los criterios inmedioros que son aspectos del rendiiniento evaluados en las situaciones aplicadas, para tomar decisiones, y son del tipo de registros de producción, califica- ciones de los supervisore's, notas obtenidas en iiii programa o curso, etc. Una distin- ción similar es la establecida por Astin (1964) entre criterios conceptuales y medidas del criterio. Estas distinciones han llevado a la pregunta de jcómo evaluar el criterio conceptual o el criterio iíltimo?". Kavanagh et al . , (1971), consideran que esta pregunta puede subsumirse en la validación de constructo del criterio. Esta consideración prermite establecer los riesgos de la medición de los criterios, que no son más que las amenzas a la validez de constructo (Cook y Campbell, 1979). Bajo este punto de vista comentaremos brevemente cuáles son estos peligros y riesgos:

Copírulo 12 La volider de los ~ c s r s 343 - ."

1) Sesgos en el criterio, que incluye problemas como la contaminación con otros factores, varianza irrelevante para el constructo, desigualdad de las unidades de la escala, combinación inadecuada de subcriterios, etc., Messick (1989) señala que todos estos problemas pueden considerarse bajo la etiqueta general de "uirrhuci(jn inadecuada de pesos o ponderaciones". Así, c m un criterio contaminado se dan pesos positivos a elementos que deberían tener un peso de cero; en la desigualdad de las unidades de la escala se asignan pesos diferentes a distintas partes del continuo del criterio; en la distorsión del criterio, los pesos que reciben los distintos elementos no son los adecuados.

Estos aspectos que introducen sesgos en los criterios pueden tener diferentes efectos y normalmente afectan a las correlaciones con el test así como a la fiabilidad del criterio.

2 ) Criterios múltiples vs. criterios únicos. Desde los inicios de la Psicomeiría y hasta los años sesenta, los teóricos de la validez perseguían la meta de encontrar criterios últimos en ttrminos de una única medida global, establecida como combinación lineal de diferentes criterios parciales. El problema fundamental de los defensores de esta medida global es que raramente la medida del criterio proporciona un único Fac- tor general, ni parece que tenga mucho sentido combinar diferentes aspectos independientes en un compuesto único, como si se tratara de un fenómeno unitario.

Por otra parte, los defensores de la niultidimensionalidad de los criterios defien- den la idea de que la diversidad de criterios apoya que el éxito no es igual para diferentes personas en el mismo puesto o programa educativo, ni para la misma persona en diferentes aspectos del puesto de trabajo o cuiso escolar. Por otra parte, diferentes personas pueden alcanzar los mismos niveles de rendimiento global por diferentes estrategias. Esta consideración les lleva a defender la evaluación de los criterios con ine- didas inúltiples (Cronbach y Snow, 1977; Ghiselli, 1960).

Esta aproximación tiene su ejemplo más representativo eii la denominada 1 ~ 1 k l ~ z sintética (Mossholfer y Harvey, 1984). en la que un criterio global se analizri en dimensiones múltiples o componentes, ciiyas relaciones con ei test son evaluadas de forma separada, siendo combinadas después en una predicción compuesta, con pesos diferenciales, según las aplicaciones.

Otra importante aplicación conceptunl de la niultidimensionalidad del criierio es la que permite explicar los cambios en las correlaciones entre test y criierio con el tiempo. Despues de los trabajos de Fleishmnii (Fleishman y Fruchter, 1960; Fleishman y Hempel, 1954). se ha constatado que las correlaciones entre test y criterio, así como la estructura factorial cambia como función de la experiencia de los sujetos en el puesto. Esta cualidad dinámica de los criterios coiicuerda con los irabajos más recien- tes de la psicología cognitiva realizados con experlos y novutos. Estos cambios en las

1 correlaciones de los tests con los criterios no so11 exclusivas de los tests de doininios cognitivos, sino que tambitn se han encontrado con variables no cognitivas, como se puso de relieve en el trabajo de Helmreich, Sawin y Carsud (1986) en e'que encontra- ron ausencia de correlación entre medidas de motivación de logro y orientación inter- personal y el rendimiento en el trabajo durante los tres primeros meses, pero correlaciones significativas y estables a partir del sexto mes.

344 Psicomeniu: Teoria de los tests psicoldgicos y educativos

\

Hay varios problemas potenciales que pueden afectar a lvs nmltados de este tipo de validación. Los más comunes son: identificación y medida del criterio, tamaiios muestrales insuficientes, contaminación del criterio, falta de fiabilidad de las medidas de predictor y10 criterio y restricción del rango de variabilidad.

3) Validacidn de constructo de los criterios. Guion (1976) aboga por la valida- ción de constructo de los criterios, dando prioridad a las dimensiones críticas que dife- rencian entre buenos y malos rendimientos, así como la detección de variables modu- ladoras que intervienen en las relaciones predictor-criterio. Dentro de este marco, Frederiksen (1986) propuso la similaridad de constructos del predictor y del criterio.

1) Del coeficiente de vulidez a la utilidad en la toma de decisiones. La utilidad de un test para la seieccióh u otras aplicaciones depende del grado de la relación entre predictor y criterio, pero a menudo también de otros aspectos como la tasa de base en la población, la razón de selección, los costos del test, etc. Por este motivo se va im- poniendo la idea de hablar de utilidad del test, un témino mucho más descriptivo que el de validez. La utilidad se refiere a los beneficios relativos derivados de utilizar el test en la toma de decisiones. En la visión tradicional de la validez de criterio, los es- tadísticos usuales son el coeficiente de detenninación o su complemento, proporción de variación del criterio no explicada por el test o algunos otros índices derivados CO-

mo el coeficiente de valor predictivo, que se presentan en el capítulo siguiente. En todos los casos, los diferentes índices son función de p., o relación lineal entre las puntuaciones del test y del criterio. Desde el punto de vista de la utilidad, se parte del SU-

puesto de que diferentes tipos de errores pueden tener distinta importancia en la toma de decisiones. Este cambio de énfasis lleva a considerar criterios discretos, tales como Cxito y fracaso. Para establecer la potencia de la decisión, los costos y beneficios de- bcn expresarse en una escala común de unidades de utilidad. Recientemente se han desarrollado numerosos avances en este sentido, a los que nos referiremos en un apartado posterior.

5) val id^ de o-iretYo y sesgos eir las drcisioires. Un problema ligado a la dimen- sión ronsecrterrcios del tiso de los tests, pero para cuyo análisis se han propuesto procedimientos e.;tadísticos, es el del sesgo y10 ittrl~ucro atli~ei.so frente a ciertos grupos sociales, especialmente grave cuando distintos grupos muestran consistentemente diferentes puntuaciones niedias en predictores. criterios o en- ambos. En estas circunstancias, el problema llega a adquirir unas repercusiones sociales alarmantes y se cues- tiona el uso de los tests para la toma de decisiones, ya que un uso adecuado de 10s tesis implicaría que las decisiones de selección fuesen igualmente adecuadas y en cieno sentido, independientes de la pertenencia a un grupo. En respuesta a este problema, se formularon diferentes modelos de selección no sesgada (Cleary, 1968; C o k 197 1; Darlington, 197 1; Linn, 1973, 1976; Thorndike, 197 1; Petersen y Novick, 1976).

6) Problemas de los estimadores del coeficiente de validez. El coeficiente de validez de un test. operacionalizado como el coeficiente de correlación entre las puntua-

Capí/rtlo t2: La vatictez de los resis 34.5

ciones del test y las del criterio, presenta varios problemas ligados a la naturaleza dc la correlación. Afortunadamente, algunos de estos problemas tienen solución, ya qiic bajo ciertos supuestos, la psicometría permite corregir dichas estimaciones de! coco ficiente de validez. Estos problemas y sus soluciones serán tratados en u n tema postc- rior, limitándonos aquí a indicar su naturaleza.

- Fiabilidad delpredicror y del crirerio. Bajos coeficientes de fiabilidad del test y del criterio rebajan los valores del coeficiente de validez. De hecho, el valor miíximo que puede alcanzar la correlación de una variable con otra, es igual ;i

su fndice de fiabilidad. Pueden estimarse los cambios que se producirán en el coeficiente de validez, iritroduciendo cambios en el(los) coeficiente(s) de f i i i -

bilidad. - Restriccidn del rango o reduccidn de la variabilidad. Por tratarse de u n coei.i-

ciente de correlación, el coeficiente de validez puede ver reducido su valoi con restricciones en la variabilidad del test, del criterio o de ambas. Afortunadamente. los supuestos de la homoscedasticidad y de la igualdad dc las pendientes de las rectas de regresión, permitirán obtener estimaciones del coeficiente de validez en condiciones de variabilidad no reducida. Esta situa- ción suele darse sobre todo en la validación de los tests de selección de personal, en que se seleccionan normalmente sólo sujetos con puntuaciones altas eii el test.

- Dicoromizacionrs en el test, crirerio o en ambos también reducen los valorc.\ del coeficiente de validez.

7) Generalizacidn de la validez. El concepto de validez referida al criterio de u n test, prácticamente ha sido eliminada de las revistas científicas (Landy, 1992), impo- niéndose cada vez más los estudios denominados de generaliiacióti de la valid~i, ira- tados con procedimientos de meta-análisis (Landy y Shankster, 1994). Schmidt (1992) critica los estudios tradicionales de validación de criterio, señalando que han perdido de vista la tradición de los estudios acumulativos, presentando el meta-análisis conic un procedimiento más valioso para obtener un buen partido de los datos.

Cuando los tests estandarizados de aptitud se correlacionan con el rendimiento en puestos de trabajo, con frecuencia se encuentra que los coeficientes de validez de diferentes estudios muestran una gran variabilidad (Ghiselli, 1956, 1966). Algo similar sucede cuando los criterios son cursos escolares (Bennett, Seashore y Wesman, 1984). Estos resultados condujeron a un fuerte pesimismo de cara a la generalización de 1;i

validez de los tests a otros contextos o situaciones. Hasta mediados los años setenta, esta especificidad situacional fue considerada una grave limitación de la utilidad de los tests psicológicos en la selección de personal (Guion, 1983). Schmidt, Hunter y cols. desarrollaron procedimientos estadísticos para corregir algunos de los problemas que reducían la generalización de la validez. Las muestras industriales disponibles para la validación de tests son generalmente demasiado pequeñas para proporcionar resultados estables de la correlación predictor-criterio (generalmente entre 40-60 casos) y además están afectadas de fuertes problemas de restricción del rango. El grupo de

autores citados, a cuyos trabajos nos referiremos más adelante, proponen una serie de técnicas estadísticas para corregir estos probleinas de falta de generalización.

12.3.4. Algunos criterios comunes

Un test puede ser validado frente a tantos criterios como usos posibles pueda tener. Cualquier mCtodo para la evaluación de la conducta en cualquier situación puede proporcionar una medida de criterio para algún propósito particular. No obstante, los criterios más citados en los manuales de los tests pueden clasificarse en unas pocas categorías. Entre los criterios más frecuentemente empleados en la validación de los tests de inteligencia se enqentra algún indicador de rendimiento académico; por este motivo se ha considerado a veces a estos tests como una medida de aptitud acadtmi- ca. Los criterios habituales suelen ser: notas escolares, puntuaciones en tests de rendimiento, registros de promoción y graduaciones, honores y menciones especiales y evaluaciones (ratings) de los profesores sobre la inteligencia de los sujetos. Estos mismos criterios suelen ser los utilizados en los diferentes tests de aptitudes aplicables a sujetos escolarizados de diferentes niveles.

Una variante de los indicadores anteriores empleada frecuentemente en contextos extraescolares son los años de educación que el sujeto ha completado, ya que se espera que, en general, los individuos más inteligentes continúen su escolaridad más tiempo, mientras que las menos inteligentes abandonan antes la escuela. Es evidente que este criterio está muy contaminado por otros aspectos eccnómicos, sociales y motiva- cionales.

Con los tests de aptitrrdes especificas u n criterio usual es el rerrdimiento en cursos de formación especializados. Varios tests de aptitudes profesionales han sido validados en ttrminos del rendimiento de los sujetos en facultades de Medicina, Dere- cho. Ingeniería, etc. Un ejemplo típico de esta técnica de validación lo constituye el exhaustivo estudio de validación de los tests de selección de pilotos del ejercito de los EEUU. en los que el criterio fue el rendimiento en los cursos básicos de vuelo (Flana- gan, 1948).

Otros criterios específicos son los tests de rcndimiento tras un curso de formacion, notas asignadas, evaluaciones de los instructores, completar el programa frente a haber sido eliminado de él, etc.

Para muchos propósitos, el tipo más satisfactorio de medida del criterio son los registros de seguimiento del rendimiento real del sujeto eti el puesto de trabajo. La mayor parte de las medidas de rendimiento en el puesto, aunque no representan criterios últimos, al menos proporcionan buenos criterios intermedios para muchos propósitos de los tests.

La validación por el método de los grupos contrastados en cuanto a niveles de rendimiento es otro procedimiento muy utilizado. siendo en este caso el criterio una variable categbrica. En la validación empírica de los tests referidos al criterio se han empleado diversas adaptaciones de este mttodo. También es el procedimiento utilizado en la validación de tests para el diagndstico de trastornos, así como en la selección de items para estos tests.

Finalmente, las correlaciones entre un nuevo test y un test disponible y del que se dispone de evidencia de validez, son frecuentemente citadas como prueba de la validez de un test nuevo.

12.3.5. Procedimientos estadísticos utilizados en la validacidn referida a un criterio

Existen diferentes procedimientos cuantitativos, la mayor parte estadísticos, para obtener estimaciones numtricas de la evidencia de validez de un test. Los más frecuentes son de naturaleza correlacional. Sin ánimo de exhaustividad, presentamos a continuación una clasificación de las tCcnicas usuales, en función del diseño de recogida de datos par;] la validación. La mayor parte de estas técnicas serán tratadas en capítulos

a ) Un único test predictor y un solo criterio: se utilizan los procedimientos de la correlación y regresión lineal simple, así como otros índices derivados de este modelo. Cuando las puntuaciones en el criterio no son cuantitativas, se utiliza- rá el coeficiente de correlación adecuado según la naturaleza de las variables implicadas (biserial, biserial puntual, phi, tetrac6rica, eta, etc.). Una explica- ción de estos coeficientes específicos se proporciona en el capítulo dedicado al análisis de los items.

h) Varios predictores y un solo criterio: cuando se trata de validar una batería de tests, se utilizan los procedimientos de la correlación y regresión lineal múiii- ple. Cuando hay múltiples tests predictores y u n criterio cualitativo, suele utilizarse el análisis discriminante. Si el criterio es dicoiómico, como sucede coi1 frecuencia en la validación de algunos tests clínicos, se utiliza la regresión lo- gística. En este libro explicamos la correlación y regresión lineal múltiples en el capítulo 14, ya que es la técnica más utilizada en la validación de baterías de tests. Como Cste es un texto de Psicometría y no de Análisis Multivariante,

I no podemos entrar en la explicación de todas las técnicas estadísiicas utilizadas en la validación, sino únicamente en las más típicas y por tal moiivo no se

1 tratará aqui del Análisis Discriminante. No obstante, el lector interesado puede encontrar en castellano una buena explicación de la técnica en Cuadras (1 98 1 )

I y una descripción más aplicada, con un ejemplo concreto de un tesi de "srree- ning" de trastornos, con todos los cálculos descritos en Rivas, Rius y Martínez

l Arias (1989). La regresión logística se aplica a un ejemplo de análisis del fun- l

cionamiento diferencial de ltems en el tema 19 y el lector podrá hacerse una idea del funcionamiento de la técnica.

c) Varios predictores cuantitativos y varios criterios cuantitativos: regresión lineal multivariante y correlación canónica. Estas técnicas raramente se utilizan en la práctica de la validación de tests, ya que son complejas y frecuentemente conducen a resultados difíciles de interpretar. No obstante. el lector interesado

- - . puede consultar algunos textos generaies de Análisis Multivariante, como el ya citado de Cuadras.

d) Procedimientos basados en la teoria de la decisidn: validez y utilidad en las decisiones. Los procedimientos propuestos se basan en diferentes métodos pa-

348 Psicomrnía: Teoría de los tests psicoldgicos y educativos

ra optimizar las decisiohGrealizadas con el test: técnicas maximin, minimax y especialmente la Teoría de la Utilidad Esperada Multiatributo. Se utilizan poco en la práctica, aunque se han propuesto interesantes modelos teóricos (véase Van der Linden, 1990, para una revisión). Al final de este capitulo se presenta una breve introducción a estos modelos.

12.4. La validación de constructo

La psicologia se caracteriza por el estudio de la conducta y de los atributos que caracterizan la conducta be1 individuo. Estos atributos psicolbgicos y otros procesos mentales, no pueden medirse directamente como hacemos con rasgos fisicos tales como la dtura o el peso; son constructos o conceptos hipotéticos que forman parte de las teorías que intentan explicar la coriducta humana. El grado en que un individuo posee uno de estos atributos, solamente puede inferirse a partir de la observación de su conducta. Este carácter no observable de la mayor parte de las variables psicológi- cas. hace especialmente difícil el diseño de tests o instrumentos para su medida. Pensemos, p. ej., en constructos como "inteligencia", "creatividad", "dependencia de campo", "extroversión-introversión", etc. En el capitulo 1 ya se consideraron estas pe- culiaridades de la medición psicológica y el lector se habrá hecho una idea de las difi- cultades de su medida.

Como hemos hecho notar repetidamente en este tema, la validación de constmcto, entendida como las evidencias que apoyan que las conductas observables del test son indicadores del constructo. es el aspecto esencial de la validez y permite unificar las otras categorías.

En la figura 12.1. tomada de Messick ( 1989) pueden apreciarse los componentes de la validez de constructo.

En la figura puede apreciarse cómo el contenido (en cuanto a relevancia y representatividad) es uno de los aspectos de la validez de constmcto. También puede observarse en la trama de relaciones con otros constructos, como la validez relativa al crite- n o forma parte del proceso de validación.

La figura también es representativa de lo que se denomina vali&z nomológica (Campbell, 1960). cuya función básica es mostrar que la teoría del constmcto medido proporciona bases lógicas para establecer conexiones empiricamente demostrables entre las puntuaciones de los tests y las medidas de otros constructos. El test gana en credibilidad en la medida en que las consistencias de las putituaciones reflejan implicaciones teóricas del constnicto y el constructo la gana en la medida en que el test establece e s a predicciones. Embretson (1983) utiliza un concepto similar, amplitud no- motdtica, que se refiere a la red empírica de relaciones del test con medidas de otros construd& y conductas criterio.

En el proceso de la validación de constructo, es importante destacar que la puntua- ción del test no se identifica con el constructo (Messick, 1989), sino que el constnicto puede manifestarse a travb de múltiples indicadores. La validación de constmcto

Copítulo 12: Lo volidez dc los tests 349

Dominio del iest 7-- Dominio externo al test

~ ~ o m ~ o n e n t e exierno d Figura 12.1. Componentes de la validez de constmcto. (Adaptado de Messick, 1989.)

la acumulación de evidencias que apoyan que la puntuación del test es una de sus ma- nifestaciones. Cuando se establece la validez de constructo, pueden hacerse infereri- cias o interpretaciones del test.

12.4.2. Procedimientos paro /a vu/i~/uricidtl de constructo

Como ya se ha señalado, la exjstencia de una sólida teoría del constructo es central para el proceso de validación. Esta debe permitir especificar tanto la estnictura in- tema del mismo y su manifestación se manifiesta en indicadores (Validez del rasgo, Campbell. 1960). como sus relaciones con otras variables (Validez Nonio16gicai El

. proceso comenzará siempre estableciendo deducciones de la teoría, y se seguirár, las siguientes fases:

1) Formular una o más hipótesis acerca de las relaciones entre los elementos del constructo, de este con otros constructos de la teotia y con otros constructos externos. Estas hipótesis estarán basadas en la teoría que fundamenta al constructo.

2) Seleccionar items o tests (indicadores observables) que representen manifesia- ciones concretas del constnicto. - .

3) Recogida de datos empíricos para poder poner a prueba las hipótesis. 4) Establecer la consistencia entre los datos y las hipótesis y examinar hasta qué

punto los resultados podrían explicarse mediante explicaciones alternativas o hipótesis rivales.

350 Psicometría: Teoría de los tests psicd6giros .Y e<lirímivos

Como puede observarse, la validación de la teoría acerca de la naturaleza del x m s n c t o y del test usado para su medida, van indisolublemente unidas. Si las rela- Lionzs hipotetizadas por la teoría se confinnan, el constructo y el test son útiles.

La complejidad de la trama de relaciones hace que en la validación de constructo no se trtilice un procedimiento único, sino que suelen seguirse múltiples procedimien- m. Otra característica importante es que esta validación no es estática, sino que es un proceso continuo (Messick, 1989). ya que normalmente se van integrando nuevos ; O I W ~ C ~ O S O relaciones con otros constructos en la teona.

Sin ánimo de exhaustividad, prcsentamos a continuación los procedimientos utilizados con más frecuencia en la validación de constructo. solos o en combinación.

1 ) Diferenciación entre shrlm

Lin criterio empleado con frecuencia en la validación de tests de inteligencia es la Jifr-rnciación entrr grupos de edades. Puesto que se espera que las habilidades cog- niti-.-as aumenten con la edad, las puntuaciones de los tests deben mostrar estos au- menros si el test es válido.

Este criterio de diferenciación con la edad no es aplicable a otras funciones que no mwstran estos consistentes cambios; por ejemplo es de utilidad limitada en la medi- ción de constmctos de persoilalidad.

Estos análisis d,e desarrollo tambiCn son básicos para la validación de constructo de e~zalas ordinales. como las basadas en la Tcori'a de los Estudios de Piaget O Esta- dio: del desarrollo tnoral de Kohlberg. Un supuesto fundamental de estas escalas es el patríin secuencial del desarrollo, especificado en la leoria.

En otrarmasiones. la validación se basa en la aplicación de diseños experimentales. cuando la teoría del constructo especifica cambios en la posición en el constructo ligxios a ciertas intervenciones. Un problema frecuente con esta aproximación a la val>dación del instrumento es que el no cumplimiento de las hipótesis puede deberse a un fallo en la teoría. en el instrumento o en la implenlentación de la intervención.

2 ) Correlacione~ c m o ~ r m medidas del mn.s/riccto

A veces se utilizan las correlaciones entre u n nuevo test y otros tests ya validados como evidencia de que el nuevo test mide el mismo constructo. Las correlaciones con otnx tests tambikn se emplean a veces para demostrar que el test está libre de factores irrelevantes.

3 ) Análisis factorial

Esta aproximación fue desarrollada como un medio de identificar rasgos psicológi- cas y es especialmente relevante para la validación de constructo. desde el punto de vista & la vaiidez del rasgo. Básicamente, es una técnica estadística para analizar las inter-

C~pltulo 12: Lo isalidez de los tests 35 1

correlaciones entre datos observable>. iiiiplica obtener p medidas de los mismos examinados (items del test U otras variables). calcular la matriz de correlaciones i, x p) entre estas medidas y usar las tCcnicas del análisis factorial para encontrar uri número reducido de variables no observables, denominadas factores, que explican la covariación del conjunto original de variables. En el capítulo 16 explicaremos con más detalle esta téc- nica, pero indicaremos aquísu posible aplicación a la validación de constructo.

En los diseños de validez del rasgo, se parte de la matriz de correlaciones entre los p items del test, y se buscan agrupaciones de los items predecibles desde la teoría. Las variaciones en las respuestas a items que van juntos, pueden atribuirse a variaciones entre los examinados en un factor latente. Este factor, que no es directamente observable, puede considerarse un constructo definido por el conjunto particular de observaciones empíricas (los items).

Despues de que los factores son identificados, pueden utilizarse para describir la composición factorial de un test. Cada uno de los factores se caracterizará en términos de las variables que determinan sus puntuaciones.

En otros casos se parte de una matriz de correlaciones entre las puntuaciones de p tests, entre los que suele encontrarse el que es objeto de validación. Por ejemplo, si se aplican 20 tests a 300 personas. el primer paso será calcular las correlaciones de cada test con todos los demás. Una inspección de la matriz resultante de 190 correlaciones puede revelar algunos grupos de tests, sugiriendo la presencia de algunos rasgos comunes.

En la misma línea del análisis factorial. especialmente en el dominio de la perso- nalidad, se dice a veces que el test ha sido validado por el procedimiento de la consistencia interna. La característica del método es que el criterio es la puntuación total eri el mismo test. Se busca que cada item diferencie en la misma dirección en la que lo hace el test entero. Esta es una aproximación incorrecta a la validación, ya que como se ha estudiado en el capítulo 7, las medidas de consistencia interna lo son de homo- geneidad de los items o de los subtests, pero su contribución a la validez es limitada.

4 ) Matrices multimétodo-mul/ira.i,qo / Campbell y Fiske (1959) describen esta aproximación como m5s interesada en la

"adecuacidn de tests como medrdas de u t ~ constructo, que en la adecuacrón del constructo". Para aplicar esta técnica debemos disponer de dos o más modos de medir el constructo de interés. Además se le pide al investigador que identifique otros constructos diferentes que puedan ser medidos por los mismos métodos utilizados con el constructo de interés. Se selecciona una muestra de N sujetos a los que se les aplican todas las medidas de cada constructo y cada método. Se calculan las correlaciones entre todas las medidas y se presentan en forma de una matriz (generalmente triangular ,

, inferior), denominada Matriz Multimhtodo-Multirrasgo. Los diferentes coeficientes de correlación de la matriz pueden clasificarse en uno de los tres tipos siguientes:

a ) Coeficientes de fiabilidad: correlaciones entre medidas del mismo constructo usando el mismo mCtodo de medida. Deberán ser muy elevadas.

352 Psirometría: Teoría de los tesis psico16gicos y educotiws

b) Coeficientes de validez convergente: correlaciones entre medidas del mismo constructo usando diferentes métodos. Normalmente deberán ser altas, pero deberá tenerse en cuenta la posible atenuación debida a la falta de fiabilidad de los instrumentos de medida.

C ) Coeficientes de validez discriminante: correlaciones entre medidas de diferen- . tes constructos, usando el mismo método de medida (correlaciones heterorras-

go-monométodo) o correlaciones entre diferentes constructos' usando distintos mCtodos (correlaciones heterorrasgo-heteromktodo). Serán bajas y considerablemente menores que los coeficientes de fiabilidad y de validez convergente.

Eii la tabla 12.2 se presentan las hipotéticas correlaciones entre tres rasgos, cada uno rnedido por dos rnéiodos diferentes:.

TABLA 12.2. Matriz de correlaciones multi-m6todo/multi-rasgo. --

Método I Método 2

A I 81 C I A 2 BZ C2

Método 1: Autoinfonne A l . Lidemgo ($95) Bl. Sociabilidad j0.28'[email protected]) C , . Popularidad ' 10 L 2: 58 - - - - - e 0,39----10.92) - _ - - - - - - Mt!odo 2. Evaluación de los compañeros. A2. Lidemgo 0,76 0.32 0.57 $0,951 B2. Sociabilidad 0.30 0,65 0.40 ; 0 3 P - - - SJ0.76) C2. Popularidad 0,40 0 .3 1 0,60 :455, - - - - -@5::: (0,741 -

Los coeficientes de fiabilidad están entre paréntesis. Los coeficientes Irelrrorrus- go-r;ionométodo están dentro de triángulos con líneas sólidas. Los coeficientes de validez convergente. que son las correlaciones de las puntuaci,ones del mismo rasgo, medido con diferentes métodos esthn destacadas en negrilla. Estas deben ser estadfstica- mente significativas y suficientemente elevadas. Estas correlaciones además serán mayores que las que aparezcan en el trihngulo heterorrasgo-heteromktodo. que se re- fieren a vafiables que no tienen nada en común. Tambikn serán mayores que las correlaciones de los triángulos heterorrasgo/monométodo. Si se da esta última circunstan- cia, se tendrán pruebas de la validez discriminante.

La falta de convergencia entre rridtodos indicará que hay demasiada varianza espe- cífica ligada al método o que los métodos no están midiendo los mismos constructos.

Campbell y Fiske recomendaron este procedimiento como un instrumento heuris- tico, no como un procedimiento analítico y, por lo tanto, se basaron en la inspección visual de la matriz. Si observamos la tabla 12.2, puede verse que los tres coeficientes

Capínt10 12: La validez de los tesn 353

de validez convergente son los más altos de la tabla (excluidos los valores de la diago- nal de fiabilidad). Con respecto a la validez discriminante, hay algunas coi~elacionc\ entre Al y C I y en!re A2 con C i . que son muy elevadas y es posible que no sean signi- ficativamente distintas de C , y C,, lo que puede hacer surgir algunas hipótesis rivales. que convendría explorar con más detalle.

Hoy, la tkcnica más utilizada para el análisis de estas matrices son los procedimientos de Aná1isi.r Factorial Cotfirmutorio (Kenny y Kashy, 1992; Joreskog y Sor- bom, 1993; Marsi?. 1989, 1990). El lector interesado puede consultar el artículo dc Schmitt y Stults ()986), para una revisión de las aplicaciones.

5 ) Vulidacidn hasndu en la Teoria de la Generalizahilidad

Otro tipo de evidencia para la validación de constructo puede basarse en la TG. viendo si las obseivaciones para un individuo sobre un constructo son invariantca frente a diferentes métodos de medida. Esto puede tratarse desde el modelo de los componentes de Iu variunzu de la TG. Se asume que cada medida tomada por un suje- to representa una muestra aleatoria del conjunto de posibles medidas que se podrían haber obtenido. El universo puede variar en dimensiones múltiples o facetas que pueden ser los diferentes mktodos de medida. La identificación de las facetas adecuada5 dependerá de la teoría particular del constructo y del universo al que se harán las inferencia~. Sea por ejemplo el constructo "destrezas de comprensión lectora". Es posible medir este constructo usando una gran variedad de formatos de item (elección múlii- ple, verdadero-falso, abiertos, emparejamiento, etc.). Pensamos que el constructo ex más generalizable si las puntuaciones del sujeto son independientes del tipo de forma- to que usemos. Podemos diseñar un estudio G usando diferentes formatos de itein y de modo que todos los examinados se:in evaluados en los mismos n formutos mediante un diseño cruzado.

A Finales de Icis años setenta conienzó el acercamiento entre I í i Psicología Cognitiva y la Psicometría, intentando proporcionar la primera a la seguncln una coni- prensión de los ccmtructos evaluados por los tests de inteligencia y aptitudes. Algunos psicólogos comenzaron a aplicar procedimientos experimentales típicos de la Psicologla cognitiw y de simulación de procesos a la exploración de lo que niiden los tests de inteligencia (Neisser, 19'76; Sternberg, 1977, 1981,' 1982, 1985). Las implicaciones de estos trabajos para la validación de constructo están muy bien expuestas en los trabajos de Embretson (1983, 1986, 1992).

Prominente entre estos métodos es el análisis de prorocolos verhales (Ericsson y Simon, 1984; Fredenksen, 1985) en los que se les pide a los sujetos que piensen en voz alta mientras realizan la tarea o que la reconstruyan retrospectivamente. Una téc- nica frecuentemente asociada a la anterior es la simulación por compurador de los procesos identificados con el análisis de protocolos o del análisis de la teoría.

Otra aproximación para tareas realizadas en tiempos cortos y difícilmente capta- blcs por introspección es el análisis cronomérrico (Stemberg, 1977) que contrasta los tiempos de respuesta entre tareas que difieren en carga de procesamiento.

Los modelos matemáticos de ejecución de las tareas tambiCn se usan con frecuen- c i i empleando medidas de los procesos subyacentes.para explicar la probabilidad de ura respuesta correcta como función de la dificultad del item y la posición del sujeto et. el rasgo. Los modelos multicomponentes son una combinación de los dos tipos de modelos anteriores (Embretson, 1984; Fischer, 197 1; Fischer y Formann, 1982).

Una aproximación diferente es la de los correlatos cognitivos (Pellegrino y Ghser. 1979), aproximación en la que se forman grupos contrastados de sujetos con izas y bajos rendimientos en el test y que son comparados en tareas sencillas de labo- r ~ n r i o .

Hay además otros p)ocedimientos menos frecuentes, tales como el at~ílisis de ra- : , :ws en él que se les pide a los sujetos que justifiquen la elección de la respuesta. TxnbiCn se ha propuesto el arrálisis de los niovimientos oculares, muchas veces en combinación con el análisis de los protocolos verbales.

En estas diferentes aplicaciones se ha detectado con frecuencia que distintos suje- ti,s realizan las tareas de diferente forma e incluso el mismo individuo puede cambiar de item a item o de ocasión a ocasión, es decir. los individuos difieren consistente- rn-nte en sus esrrate~icrs estilos de rcolizacitjti de lo tarcu.

12.5. Ejemplos d e preguntas e inferencias típicas de las distintas estrategias de validación

A lo largo de este capítulo se ha insistido en la validez de constructo como el tipo l e validez que garantiza la interpretabilidad de las puntuaciones de los tests y como ;i;lutinantc de los restantes tipos de validez, a través de una red como la presentada en 11 figura 12.1. Se ha destacado además la vrilidez de un test como grado de adecua- i ~ S n de 1% inferencias que se establecerán con sus puntuaciones. Desde este punto de

:Sta y bajo el marco teórico unificador de la validez de constructo. hay ciertas estra- te-sias de \didación niás o menos iniportantes según el tipo de inferencias realizadas a p n i r de las puntuaciones y del propósito del test. En la tabla 12.3. presentamos de forma resumida las estrategias de validación más adecuadas según el tipo de pregunta 2 la que pretendamos responder con las puntuaciones del test. Consideramos como c?emplo un hipotético test de Matemáticas.

1í-6. Validez y utilidad de los tests

En los temas que siguen se tratarán diferentes procedimientos estadísticos para diferentes cuestiones de la validez de los tests, tanto de criterio como de constructo. Todos los mttodos y conceptos presentados están ligados a modelos lineales correla- cjonales. La necesidad de dedicarles temas especificas se debe a la importancia que tienen estos modelos tanto en la teoría psicomCtrica. como en las aplicaciones. No

Col~itulo 12: Lo validez de 10s resrs 35.5

'. . . . - . . TABLA 12.3. Validación de un hipotCtico test de Matemáticas en función del propósito de su aplicación.

Propósiio del Tesi Pregunfu típica Validuciciri

Medir el rendimiento iCubto ha aprendido Contenido de alumnos de 8 de EGB Enrique en el curso?

Test de aptitud para ¿Cómo rendir& Enrique Criterial-predictiva predecir el nivel en en el futuro BUP?

. matem&ticas de BUP

Técnica para el diag- ¿Muestra la ejecución Criterial-coricurrenie nóstico de dificultad de Enrique algún tipo de en el aprendizaje de disfunciones específicas? las matemhticas

El test como medida ¿Permite el test caracterizar de razonamienio los procesos y estrategias de matem&tico solución de problemas de

Enrique'?

Constructo

obstante, al exponer en este tema los problemas de los criterios y la evolución de csic concepto de validez, mencionamos la noción de utilidad en las decisioiies. Tambi6ri se mencionaron procedimientos ligados al concepto de utilidad, al coincniar los méto- dos utilizados en la validez de criterio. Parece pues que el concepto de utilidad en I:i>

decisiones va adquiriendo cada vez mis importancia en la Psicometría. Por razones tlc espacio y por la escasa utilización que tienen por el momento en las aplicaciones. no podemos dedicarle un tema completo a estos conceptos, pero en este apartado intenia- mos iniciar al lector en esta importante cuestión.

Consideraremos únicamente la predicción de criterios discretos, caso al que en la practica se reducen la mayor parte de las decisiones y, en particular, a criterios dicotó- micos. Esta situación, cuando la decisión con el test es admitir vs. no admitir, queda bien reflejada en la tabla 12.4

TABLA 12.4. La5 decisiones de selcccióii

Decisión con el Tcst

Admitido No adniitido

Alto Situación en el criterio de Bajo rendimiento

A + D C + B N

Las diversas situaciones de la tabla quedan reflejadas en la figura 12.2.

A + C

B + D

A ( V P )

D ( F P )

C (FN)

B (VN)

356 Psicomcrrlo: Teoría de los tests psirolrlgicos y edircotivos Capitrrlo 12; Lo vulidez rlc los ~esrs 357

A partir de- la tabla podemos sacar algunos conceptos importantes que utilizare- mos al tratar de la utilidad. En primer lugar podemos ver que de las decisiones de la

l 1

selección se derivan 4 resultados posibles, denotados por las letras A , B. C y D. I

Utilizando tenninología de la Teoría de la Detección de Sehales. estos resultados son los sigbientes:

1) A: Aceptados en el test y con rzndimiento satisfactorio en el criterio, grupo al que se denomina Verdaderos Positivos (VP). I

2) B: Rechazados en el test y con bajo rendimiento eR el criterio, grupo denomi- I

nado de Verdaderos Negativos (VN). I

3) D: Aceptados en el test y con rendimiento insatisfactorio en el criterio o Falsos Positivos (FP).

4) C: Rechazados e p el test y con rendimiento satisfacforio en el criterio o Falsos Negativos(FN).

Algunos otros datos de la tabla también serán importuntcs a la hora de valorar los resultados de la selección.

Otros conceptos importantes que serán de ~itilidad mis delante son los siguientes:

- (A + C)/N es Iii proporción de aspirantes que podría11 tcner éxito cii el criterio. A esta proporción se la denomina tusri d e host o ro:cíti úc i i l o t ~ e i d ~ ~ r l .

- (A + D)/N es la proporción de iispirnntes adniitidos, que recibe el nombre de raxi t i d e selec~Ycíti.

- Al(,-\ +D) es la proporción de sujetos scleccionodos que tendrúii iiii reiidimien- to satisfactorio en el criterio y se la suclc denoniinai ~.ozcitt ( le c$cwio.

Alios

Criterio

Bajo

Verd;ideros posiiivos

Verdaderos negativos

Falsos positivos

Rechazar Xc Aceptar

Predictor

Figura 12.2. Resuliados de las decisiones de selección.

Observando la figura podemos ver que, en general, la proporción relativa de predicciones coiTectas y de errores es función de tres factores:

1) El punto de corte en el criterio, que define las dos categorías de rendimiento satisfactorio y no satisfactorio. En principio, la mayor seguridad se obtendría con una división del 50%, ya que la varianza de una variable dicotómica se maximiza si p = q = OJO. La proporción de sujetos superiores en el criterio t s la tasa de base, antes definida.

2) El punto de corte en el test predictor, que esta bajo control del dccisor. Cuando éste se cambia, también lo hacen los valores de las cuatro casillas. N o obstante. cambios únicamente en este factor, suelen reducir la frecuencia de un tipo de error a expensas de otro. El punto de corte en el test viene determinado por la razdn de selección.

3) La proporción de aciertos y errores es también función del grado de asocia- ción entre el predictor y el criterio. A mayor correlación, mayor porcentaje de casos en las casillas A y B y menos en C y D.

Si movemos punto de corte y tasa de base, estos cambios afectan de t o m a dit'i:- rente a los dos tipos de errores. Cambiar el punto de corte hacia la derecho, reduce la proporción de falsos positivos a expensas de aumentar los falsos negativos.

Taylor y Russell (1939) construyeron unas tablas, que se presentan en el Apéndice 4, y que tienen en cuenta estos tres factores, para diferentes razones de selccción. LI-

sas de base y coeficientes de validez. Estas tablas permiten tratar solanlente con u11 ! i -

po de error, los falsos positivos y un tipo de predicción, la correcta, los verdaderos pc- sitivos. A partir de estos tres factorespueden calcularse indicadores de la utilidad tlc la selección, en cuanto mejora en la eficacia de la predicción con respecto a l azar o a otro predictor determinado. Los valores de la tabla pueden interpretarse coirio protja- bilidad de éxito en el criterio. En el Apéndice 4 se presentan reproducidas rilgunas de las tablas de Taylor y Russell, donde el lector podrá comprobar la relación enire lo5 tres aspectos. Si seleccionamos la tabla de tasa de base = 0,50, y fijarno\ el coeficienrc de correlación en un valor bajo, p,, = 0,35, puede observarse conio la probabilidad tlc éxito es alta si IÍI razón de selección cs baja (la razón de selección sc expresa en I::\ cabeceras de las coluninas de la tabla) y como a medida que la razón de sclcccióri : I U -

menta, la probabilidad de éxito disminuye. Si se mantienen estos valores fijados y I ; i

tasa de base cambia, el lector podrá observar como también se alteran las pi.obabili(l:i- des de éxito.

Los intentos de pasar de la validez correlacional a la utilidad iniciados por Taylor y Russell, fueron continuados por Brodgen (1949) y Cronbach y Gleser (1965).

Brodgen hizo un planteamiento muy simple basado en la regresión lineal simple, que el lector conoce de los cursos de estadística y que se explica con detalle en el ca- ~ i tu10 13.

La ecuación 12.4 representa la ecuación de regresión de Y sobre X; en ella A es la ordenada en el origen y px, oYIoX es la pendiente B:


Documents

328 Pdcomccria Teoría de los rt-sfs psicológicos y e\u003cluca;ivos