114
MEDICIÓN EN CIENCIAS SOCIALES

MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Embed Size (px)

Citation preview

Page 1: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

MEDICIÓN EN CIENCIAS SOCIALES

Page 2: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

INDICE

I. MEDICION EN CIENCIAS SOCIALES

1.1 Introducción 1.2 Definiciones de Medición 1.3 Propiedades de los Números Usados en la Medición 1.4 Postulados Básicos de la Medición y de sus Números 1.4.1 Principio de Identidad 1.4.2 Principio de Orden 1.4.3 Principio de Aditividad 1.5 La Medición como Indice 1.6 De los Conceptos a los Indices Empíricos 1.7 Definiciones Conceptuales, Consensuales, Indicativas y Operacionales 1.8 Guía de Estudio 1.9 Autoevaluación 1.9.1 Preguntas 1.9.2 Respuestas

II. MODELOS DE ESCALAMIENTO 2.1 Escalamiento de Estímulos 2.2 Escalamiento de Personas 2.2.1 Medidas de Muchos Reactivos 2.2.2 Modelos Deterministas 2.2.3 Modelos Probabilísticos 2.2.4 Modelo Lineal 2.3 Guía de Estudio 2.4 Autoevaluación 2.4.1 Preguntas 2.4.2 Respuestas

III. INTRODUCCION A LOS MODELOS DE MEDICION 3.1 Teoría de la Medición del Error 3.2 Modelo Dominio Muestra 3.3 Modelo de las Pruebas Paralelas 3.4 Guía de Estudio 3.5 Autoevaluación 3.5.1 Preguntas 3.5.2 Respuestas

IV. PRIMEROS PASOS EN LA ELABORACION DE UN INSTRUMENTO 4.1 Elaboración de Reactivos 4.1.1 Tipos de Preguntas o Reactivos 4.1.1.1 Preguntas Abiertas 4.1.1.2 Método de Caso o Historias Libres 4.1.1.3 Preguntas Dicotómicas 4.1.1.4 Listas de Chequeo 4.1.1.5 Ordenación de Reactivos 4.1.1.6 Reactivos de Opción Múltiple 4.1.2 Fraseo de las Preguntas o Reactivos 4.1.3 Secuencia de las Preguntas 4.2 Número de Reactivos y de Sujetos 4.3 Análisis de Reactivos 4.3.1 Método Correlacional 4.3.2 Grupos Contrastados 4.3.3 Forma de la Distribución

Page 3: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los Reactivos Individuales 4.4.2 Nivel de Medición del Conjunto de Reactivos 4.4.3 Instrucciones 4.5 Piloteo del Instrumento 4.6 Guía de Estudio 4.7 Autoevaluación 4.7.1 Preguntas 4.7.2 Respuestas

V. INSTRUMENTOS HOMOGENEOS: ESCALAMIENTO DE REACTIVOS O ESTIMULOS 5.1 Modelos Discriminativos 5.1.1 Método de Pares Comparados 5.1.1.1 Definición del Atributo o Variable 5.1.1.2 Elaboración de los Reactivos 5.1.1.3 Selección de los Jueces 5.1.1.4 Instrucciones para los Jueces 5.1.1.5 Escala Final. Instrucciones de Respuesta y Calificación 5.1.2 Procedimientos Empíricos 5.2 Estimaciones Subjetivas 5.2.1 Método de Intervalos Aparentemente Iguales 5.2.1.1 Definición del Atributo o Variable 5.2.1.2 Elaboración de los Reactivos 5.2.1.3 Selección de los Jueces 5.2.1.4 Instrucciones para los Jueces 5.2.1.5 Valores Escalares y Valores Q 5.2.1.6 Selección de las Afirmaciones Definitivas 5.2.1.7 Aplicación y Calificación del Instrumento Final 5.3 Guía de Estudio 5.4 Autoevaluación 5.4.1 Preguntas 5.4.2 Respuestas

VI. INSTRUMENTOS HOMOGENEOS: ESCALAMIENTO DE PERSONAS 6.1 Instrumentos con Dos Opciones de Respuesta 6.2 Instrumentos con más de Dos Opciones de Respuesta 6.3 Valores de las Opciones de Respuesta 6.4 Rangos Sumarizados: Técnica de Likert 6.4.1 Elaboración de las Afirmaciones 6.4.2 Selección de los Jueces 6.4.3 Instrucciones para los Jueces 6.4.4 Análisis de Reactivos 6.4.5 Escala Final. Aplicación y Calificación 6.4.6 Interpretación de las Calificaciones 6.4.6.1 Transformación a Puntajes T 6.4.6.2 Transformación a Puntajes z 6.5 Guía de Estudio 6.6 Autoevaluación 6.6.1 Preguntas 6.6.2 Respuestas

VII. INSTRUMENTOS HETEROGENEOS 7.1 Uso del Análisis Factorial para la Construcción de Instrumentos 7.2 Fundamentos Básicos del Análisis Factorial 7.2.1 Preparación de la Matriz de Intercorrelaciones 7.2.2 Extracción de Factores Iniciales 7.2.3 Rotación a Factores Terminales

Page 4: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

7.3 Tipos de Análisis Factorial 7.3.1 Factores Definidos 7.3.2 Factores Inferidos 7.4 Procedimiento General 7.5 Métodos de Análisis Factorial 7.5.1 Método Alfa 7.6 Métodos de Rotación 7.6.1 Métodos Ortogonales de Rotación 7.6.2 Método Oblicuo de Rotación 7.7 Opciones Adicionales del Programa de Análisis Factorial del SPSS 7.8 Interpretación de Resultados 7.9 Ejemplo Numérico 7.10 Guía de Estudio 7.ll Autoevaluación 7.11.1 Preguntas 7.11.2 Respuestas

VIII. CONFIABILIDAD DE LOS INSTRUMENTOS 8.1 Concepto de Confiabilidad 8.2 Tipos de Confiabilidad 8.2.1 Estabilidad Temporal 8.2.2 Homogeneidad o Equivalencia de Formas 8.2.3 Consistencia Interna 8.2.3.1 Mitades 8.2.3.2 Instrumentos con Dos Opciones de Respuesta 8.2.3.3 Instrumentos con Tres o Más Opciones de Respuesta 8.3 Guía de Estudio 8.4 Autoevaluación 8.4.1 Preguntas 8.4.2 Respuestas

IX. VALIDEZ DE LOS INSTRUMENTOS 9.1. Concepto de Validez 9.2 Tipos de Validez 9.2.1 de Face 9.2.2 de Contenido 9.2.2.1 Juicios Dicotómicos 9.2.2.2 Juicios Graduados 9.2.3 Concurrente 9.2.3.1 Criterio Externo 9.2.3.2 Grupos Contrastados 9.2.4 Predictiva 9.2.4.1 Regresión Simple 9.2.4.2 Regresión Múltiple 9.2.5 De Construcción 9.2.5.1 Correlación con Criterios Externos, de Acuerdo a la Teoría 9.2.5.2 Grupos Contrastados 9.2.5.3 Validez Factorial 9.2.5.3.1 Varianza Explicada 9.2.5.3.2 Validez Relevante 9.2.5.3.3 Estructura Factorial 9.3 Guía de Estudio 9.4 Autoevaluación 9.4.1 Preguntas 9.4.2 Respuestas

X. PRESENTACION DEL INSTRUMENTO FINAL 10.1 Manual del Instrumento

Page 5: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

10.1.1 Introducción 10.1.2 Características Psicométricas 10.1.2.1 Confiabilidad 10.1.2.2 Validez 10.1.3 Estandarización 10.1.3.1 Muestras de Estudio 10.1.3.2 Normas de Calificación e Interpretación 10.1.3.2.1. Valores Escalares 10.1.3.2.2. Puntajes Factoriales 10.1.3.2.3. Baremos 10.1.3.2.3.1 Stens 10.1.3.2.3.2. Puntajes T 10.1.3.2.3.3. Puntajes z 10.1.3.2.3.4. Otras Consideraciones 10.1.4 Aplicación 10.2 Limitaciones y Sugerencias de Uso

Page 6: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

I. MEDICIÓN EN CIENCIAS SOCIALES 1.1 Introducción La ciencia intenta explicar y predecir fenómenos observables en términos de algunas leyes

generales. En las ciencias que han alcanzado mayores avances, tales leyes se expresan en términos de las relaciones cuantitativas de las propiedades fundamentales de los objetos bajo medición. Las propiedades son esencialmente los aspectos observables o caracteríi'sticos de los objetos sometidos a medición.

La mayor parte de los eventos u objetos que estudian los científicos varían en su magnitud.

En los esfuerzos realizados para representar el hecho de que los eventos y objetos varían en magnitud, los científicos utilizan los números porque éstos conforman un sistema entendible de conceptos que implican la misma magnitud. En otras palabras, los números y las operaciones matemáticas asociadas con ellos, pueden considerarse como una analogía general o modelo de las relaciones existentes entre los eventos que ocurren naturalmente. Esta generalidad se obtiene porque los mismos números son utilizados para representar las magnitudes de diferentes tipos de eventos. De hecho, uno de los propósitos de manejar números es el de proveer un lenguaje común y universal para describir las magnitudes de diferentes objetos. El manejar un lenguaje numérico permite hacer distinciones finas en situaciones donde sólo se puede percibir en forma general o vaga a los hechos; es decir, permite hacer distinciones muy finas de magnitudes, que de otra forma serían imposibles. O como dijo Guilford (1954), la medición permite precisión, objetividad y descripción comunicables que pueden manejarse fácilmente a nivel del pensamiento, ya que medir significa describir datos en términos de números.

La precisión es uno de los instrumentos más importantes que posee un investigador. La

objetividad es una de las principales metas de la ciencia, y en términos operacionales significa acuerdo interpersonal. Este acuerdo interpersonal se refiere a las observaciones de la naturaleza y a las conclusiones a las que se puede llegar. Libera de prejuicios particulares y permite la comunicación significativa entre los individuos.

La medición en psicología surge de dos fuentes principales: a) la tradición psicofísica que

trató de establecer la relación que existi'a entre los estímulos físicos y las sensaciones despertadas por éstos en el hombre, para lo cual desarrolló los llamados métodos psicofísicos: el de error promedio; el de los cambios mínimos, y el de los estímulos constantes; b) la tradición de las pruebas mentales o "tests" que tiene sus inicios a finales del siglo pasado y principios de este, con investigadores como Galton, James Mckeen Cattell, Binet, Terman, Otis, Thurstone, etc.

La medición en psicología tiene por objeto registrar diferencias entre individuos o entre

reacciones del mismo individuo en diferentes ocasiones utilizando instrumentos especiales denominados pruebas psicológicas o "tests".

1.2 Definiciones de Medición El concepto de medición ha sido definido de diversas maneras. A continuación se presentan

algunas definiciones. Bertrand Russell define el "medir magnitudes como cualquier método por medio del cual se

establece una correspondencia única y recíproca entre todas o algunas de las magnitudes de algún tipo y todos o algunos de los números, integrales racionales o reales" (Russell, 1938, p.176).

Page 7: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Stevens define medir como el hecho de asignar números a objetos y eventos de acuerdo a ciertas reglas (Stevens, 1951, p. 22).

Para Guilford (1954) y Torgerson (1967) medir significa describir datos en términos de

números. Nunnally (1967) establece que medir consiste en un conjunto de reglas para asignar números

a objetos de manera tal que se representen cantidades de atributos. Torgerson (1967) manifiesta que la medición de una propiedad implica asignar números a los

sistemas que representan esta propiedad. Para poder representar esta propiedad se debe obtener una relación isomórfica entre ciertas características del sistema numérico y las relaciones entre las varias cantidades de la propiedad a medirse. Lo importante del procedimiento es asignar los números de manera tal que reflejen esta equivalencia de formas entre las características de los números y las relaciones correspondientes entre las cantidades.

De esta manera, medir quiere decir introducir a las matemáticas en la ciencia, aumentando

así su cientificidad. Las matemáticas son un lenguaje universal que cualquier ciencia o tecnología puede usar para su conveniencia. Son también un sistema deductivo, un conjunto de reglas para la manipulación de símbolos internamente consistentes que hace referencia a símbolos, no al sistema real. Los números sólo son un conjunto de símbolos específicos y la medición siempre se refiere a números.

Por medio de la medición se trata de averiguar qué tanto de cualquier atributo existe, y tiene

como propósito el cuantificar los atributos de objetos y personas reales. Esto se logra mediante la realización de una operación: es decir, hacer algo de acuerdo a un conjunto de reglas para obtener medidas. Su validez o utilidad va a depender del carácter de los datos empíricos.

Los cientíi'ficos desarrollan medidas estableciendo reglas para la cuantificación de los

atributos de objetos reales: toman prestados sistemas matemáticos para examinar las relaciones internas de los datos obtenidos con un instrumento de medición, y para relacionar diferentes medidas, unas con otras.

1.3 Propiedades de los Números Usados en la Medición De entre las propiedades que tienen los números, las más importantes para la medición son

tres: la de identidad, la de ordinalidad y la de aditividad o sumación. Los números, salvo en los casos de igualdad (principio de identidad), pueden colocarse en un

orden incontrovertible a lo largo de una escala lineal (principio de ordinalidad). Aditividad o sumación quiere decir que la operación de sumar produce resultados

internamente consistentes. Las operaciones aritméticas básicas (suma, resta, multiplicación y división) consisten en realidad de sumas o restas adicionadas o sucesivas.

Cuando se mide, no necesariamente se debe satisfacer todas las propiedades de los

números; para ciertos casos es suficiente que se satisfaga la propiedad de orden. Cuando no se puede cumplir el principio de aditividad, los números que se emplean en la medición son de significado limitado, y no se pueden aplicar todas las operaciones aritméticas fundamentales.

1.4 Postulados Básicos de la Medición y de sus Números

Page 8: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Los postulados básicos de la medición y de los números empleados en ella son, según Guilford (1954):

1.4.1. Principio de Identidad a)ya sea que a = b o a =/ b b) si a = b, entonces b = a c) si a = b y b = c entonces a = c 1.4.2. Principio de Orden a) Si a > b, entonces b > a (asimetría) b) Si a > b y b > c, entonces a > c (transitividad) 1.4.3. Principio de Aditividad a) si a = p y b > O, entonces a + b > p (sumación) b) a + b = b + a (el orden de los elementos no altera el resultado) c) si a = p, y b = q, entonces a + b = p + q

(números idénticos pueden ser substituidos por otros) orden de las combinaciones no afecta el resultado)

d) (a + b) + c = a + (b + c) (el orden de las combinaciones no afecta el resultado) 1.5 La Medición como Indice El investigador deberá enfrentarse en algún momento en su trabajo con el problema de la

construcción de variables; es decir, con la traducción de los conceptos y nociones en operaciones de investigación definidas. El término variable procede de las matemáticas y de la física teórica y se refiere a una medida o clasificación sometida a determinadas reglas formales. En las ciencias sociales puede ser el resultado de la división de conjuntos de acuerdo con uno o varios criterios específicos: por ejemplo, sexo, nivel de educación y, edad. La primera corresponde a una clasificación nominal, y la segunda una clasificación ordenada; sólo la tercera es cuantitativa y del mismo tipo que las variables, utilizadas por la física.

Las variables - que son los elementos de las ciencias sociales -- son a veces la traducción en

términos operativos de nociones usadas corrientemente (inteligencia, costo de la vida, moral). En otros casos proceden de consideraciones teóricas (introversión, integración, cohesión). Pero, sea cual fuera su origen, son obtenidas siempre mediante la aplicación, a los conceptos y nociones, de un método definido o inmutable. Se tratará de ejemplificar las reglas generales de traducción que permiten pasar del vocabulario de los conceptos al de las variables.

Un concepto supone necesariamente una definición rigurosa y una noción contiene tan sólo

un conjunto de imágenes no sistematizadas. El primer problema, por lo tanto, consiste en transformar una noción en concepto; es decir, en obtener una definición mucho más precisa. El problema consiste en distinguir las dimensiones específicas de la representación original y en encontrar indicadores para cada una de estas dimensiones.

El conjunto de este tipo de análisis permite simplificar la connotación del concepto primitivo, facilitando asi' un acuerdo intersubjetivo acerca de su contenido.

Page 9: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Evidentemente no existe ningún límite imperativo al proceso de especificación: toda dimensión puede dar lugar a nuevas subdivisiones. Pero es fácil intuir que un análisis excesivamente refinado puede conducir a la especificación de dimensiones redundantes, y en última instancia, a la utilización de indicadores que habrían podido ser obtenidos directamente a partir de las nociones.

Las ventajas de un análisis dimensional previo a la selección de los indicadores, es que

permite poner de manifiesto la existencia, en la literatura, de afirmaciones contradictorias referidas a la noción, y muestra claramente la función esencial de la cuantificación: depurar la connotación de las nociones tomadas del lenguaje corriente, a fin de eliminar las proposiciones contradictorias.

Sea cual fuere el nivel de análisis, hay que enfrentarse en algún momento de la investigación

con el problema de la elección de indicadores. Aunque es cierto que es posible discutir indefinidamente acerca de la validez de una medida,

la investigación empírica proporciona un resultado que limita el alcance de tales discusiones: la constatación de que índices formados a partir de indicadores distintos conducen muchas veces a resultados similares (a esto se le conoce como interconfiabilidad de los índices).

La regla de la interconfiabilidad de los índices desempeña en la práctica un papel muy

importante: Permite responder a la cuestión de la validez interna. Esta podría formularse como sigue: ¿Cómo saber si se mide efectivamente lo que se pretende medir? Sin embargo, no se debe caer en el error de asimilar la significación del concepto a la significación del instrumento de medida (como lo hiciera Binet en 1905 al decir que "la inteligencia es lo que mide mi prueba"). Si las dimensiones son definidas con una precisión suficiente y útil, los índices elaborados deben proporcionar resultados idénticos, incluso en aquellos casos en que procedan de indicadores distintos. Debido a esto es que Guttman (1946) elaboró la idea de universo de contenido, según la cual todo conjunto finito de indicadores debe ser considerado como una muestra tomada de un conjunto infinito.

Debe de aceptarse sin embargo, que la elección de indicadores se ve limitada por las fuentes

de información disponibles, y por lo tanto se recomienda que antes de iniciar la elección de los indicadores y la construcción de los índices, se procede a un análisis metodológico recapitulativo de las fuentes de información y de los tipos de índices utilizados en el campo objeto de estudio.

De esta manera, se debe percatar el investigador que el procedimiento de medición de una

variable, noción o concepto no es más que la construcción o elaboración de un índice constituido por un conjunto de indicadores. El investigador nunca mide al concepto, noción o variable en sí, ya que éste es tan solo una construcción hipotética; lo que hace es indicarla, señalar la magnitud en la que existen o se dan en un determinado sujeto (individuo, grupo, o sociedad) los indicadores de esa variable, noción o concepto.

1.6 De los Conceptos a los Índices Empíricos Ninguna ciencia aborda su objeto específico en su plenitud correcta. Todas las ciencias

seleccionan determinadas propiedades de su objeto e intentan establecer entre ellas relaciones recíprocas. El descubrimiento de tales relaciones constituye el fin último de toda investigación científica.

En las ciencias sociales la elección de las propiedades estratégicas constituye, en si' misma, un problema esencial. Estas propiedades reciben a veces el nombre de propiedades o atributos,

Page 10: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

pero a menudo se recurre al término matemático de variable. Por su parte la atribución de determinadas propiedades al objeto recibe el nombre de descripción, clasificación o medida.

Se examinará en forma muy general el camino recorrido por el investigador para caracterizar

al objeto de su estudio. Se verá que casi siempre hay que seguir un proceso más o menos típico. Este proceso que permite expresar los conceptos en términos de índices empíricos comprende cuatro fases principales: la representación literaria del concepto, la especificación de las dimensiones, la elección de los indicadores observables, y la síntesis de los indicadores o elaboración de índices.

La primer fase se refiere a la actividad intelectual y al análisis de la literatura relacionada con

el objeto de estudio, de manera que el investigador puede tener un primer esbozo, una construcción abstracta, una imagen.

La segunda fase consiste en analizar los componentes de esta primera noción. A estos

componentes se les ha llamado aspectos o dimensiones. Dichos componentes se pueden deducir analíticamente a partir del concepto general que las engloba, o empíricamente a partir de la estructura de sus intercorrelaciones.

Un concepto corresponde casi siempre a un conjunto complejo de fenómenos, y no a un

fenómeno simple y directamente observable. Por regla general, la complejidad de los conceptos empleados en las ciencias sociales es tal que su traducción operativa exige una pluralidad de dimensiones.

La tercera fase consiste en seleccionar los indicadores de las dimensiones definidas. Uno de

los principales resultados a los que se enfrenta el investigador es el hecho de que el indicador esta' relacionado con el concepto tan sólo en términos de probabilidad y no de certeza, y debido a esto, es absolutamente necesario utilizar, en la medida de lo posible, un gran número de indicadores.

La cuarta fase consiste en sintetizar los datos elementales obtenidos para construir un

instrumento de medición o índice del concepto. Este índice o instrumento de medición podrá ser monodimensional o multidimensional. En cualquier caso, requieren de la determinación de su validez y confiabilidad.

1.7 Definiciones Conceptuales, Consensuales, Indicativas y Operacionales Como se puede observar, los pasos iniciales referidos a la representación literaria y la

especificación de las dimensiones del concepto, es una parte delicada del proceso de elaboración de índices o instrumentos de medición.

Cuando se revisa la literatura referida a la variable que se habrá de medir, el investigador se

puede encontrar con que es posible llegar a tener una definición conceptual, en la que se hayan aclarado sus elementos o dimensiones constitutivas, asi' como sus relaciones de interdependencia.

En ocasiones, el investigador se topa con diferentes definiciones para una variable: en este

caso, podría optar por alguna de ellas y elaborarla hasta llegar a tener una definición conceptual que satisfaga su punto de vista teórico-metodológico; o bien puede tratar de desarrollar una definición nueva, que represente de manera adecuada el consenso, aunque sea parcial, que se dé entre las diferentes definiciones revisadas. En este caso, el investigador tendría una definición consensual; es decir, una definición que representa o manifiesta el acuerdo encontrado entre diversos teóricos.

Page 11: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

En ocasiones el investigador puede tan solo o desea tan solo llegar a una definición indicativa. Esta es aquella que define a la variable haciendo referencia al índice que la mide.

Por último, en ocasiones el investigador puede o desea plantear definiciones operacionales.

Estas, como se recordará, hacen referencia a las operaciones o conductas que realiza el sujeto ante un conjunto de situaciones estímulo estandarizados que el investigador le presenta.

En la medida en que se tenga una variable o concepto más sencillo, es más fácil llegar a una

definición operacional. En términos generales, los investigadores se preocupan por poder llevar a sus conceptos o variables a traducciones de operaciones de investigación definidas. Una definición indicativa es en ocasiones el nivel definitorio más alto que se puede alcanzar, pero es también un excelente punto de partida para la elaboración de instrumentos de medición o índices.

1.8 Guía de Estudio 1. Señale la importancia que tiene la medición en las ciencias sociales. 2. Identifique las dos fuentes principales de la tradición de la medición en la psicología. 3. Mencione algunas definiciones de medición, y adopte alguna, de manera

fundamentada. 4. Explique las propiedades de los números usados en la medición: identidad, ordinalidad

y aditividad. 5. Explique los postulados de las propiedades numéricas. 6. Señale y explique los pasos lógicos para construir índices: noción, concepto, variable,

indicador, índice. 7. Explique los pasos operativos que se siguen para transformar a los conceptos en

índices: representación iteraria, dimensiones, indicadores, índices. 8. Distinga entre las definiciones conceptuales, consensuales, indicativas y

operacionales. 1.9 Autoevaluación 1.9.1 Preguntas

1. ¿Qué permite hacer un lenguaje numérico? 2. ¿Cuál es el objetivo de la medición en las ciencias sociales? 3. ¿Qué es una variable? 4. ¿Qué permite hacer la regla de la interconfiabilidad de los índices? 1.9.2 Respuestas 1. Hacer distinciones finas entre los eventos 2. Buscar diferencias entre individuos, o en el mismo individuo en diferentes

ocasiones. 3. Es la traducción de conceptos y nociones en operaciones definidas de

investigación. 4. Permite responder a la cuestión de la validez interna: si se mide efectivamente

lo que se pretende medir.

Page 12: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

II. MODELOS DE ESCALAMIENTO Se ha dicho que medir se refiere a asignar números a objetos o eventos de acuerdo a un

conjunto de reglas, para representar cantidades de atributo poseídas por los objetos o eventos. Se requiere tener un plan internamente consistente para desarrollar un nuevo instrumento de

medición. A este plan se le denomina modelo de escalamiento, y lo que resulta de él es una escala o instrumento de medición.

El propósito de cualquier modelo escalar es el de generar un continuo en el que se puedan

localizar personas u objetos; es decir, buscar una escala unidimensional donde poderlas colocar. Cuando se dice una escala unidimensional se refiere a que consista de un sólo atributo.

Cuando se habla de escalar y de métodos escalares, por lo general se hace referencia al

escalamiento de estímulos. Cuando se habla de escalar personas respecto a un atributo, por lo general se hace referencia a la medición o construcción de pruebas.

Para lograr escalas monodimensionales se requiere que los sujetos den respuesta frente a

ciertos estímulos. Las respuestas que se dan pueden ser de dos tipos: juicios y sentimientos. Los juicios se van a referir a aquellas respuestas que se puede comprobar en forma empírica, si son correctas o no. Los sentimientos se referirán a las reacciones, preferencias, actitudes, opiniones, intereses del sujeto, donde por supuesto no existe una respuesta correcta, y por lo tanto no se puede comprobar su adecuacidad o corrección en forma empírica.

El escalamiento de estímulos tiene que ver más bien con respuestas de sentimiento, mientras

que el escalamiento de personas por lo general, tiene que ver con respuestas de juicio. Estas respuestas pueden a su vez ser absolutas o relativas, dependiendo de la instrucción

que se le haya dado al sujeto para su emisión. También, dependiendo de las instrucciones se le puede pedir al sujeto que responda en forma nominal, ordinal, intervalar y de razón o proporción. Como ejemplo de respuestas a nivel ordinal se tiene el método de ordenación por rangos; como ejemplo de respuesta intervalar se tiene el método de intervalos aparentemente iguales; como ejemplo del de razón se tiene aquel en el que se le pide al sujeto que responda a las magnitudes absolutas de los estímulos.

Uno de los aspectos más importantes que se debe tomar en cuenta para la construcción de

una escala de medición es el de la especificación del atributo a medir; esto es, qué es lo que se quiere medir, cuál es la propiedad que pueden tener los objetos en diferentes cantidades y que se desea representar numéricamente. Especificar un atributo significa definir la propiedad.

2.1 Escalamiento de Estímulos Entre los métodos más conocidos para escalar estímulos se tienen dos tipos principales: a)

los modelos basados en estimaciones subjetivas, como por ejemplo el método de categorías sucesivas y el de intervalos aparentemente iguales (Thurstone y Chave, 1929). b) los modelos discriminativos, como por ejemplo el método de pares comparados (Thurstone, 1927 a, 1927 b).

Page 13: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Estos métodos difieren en las suposiciones teóricas que aceptan cada uno de los modelos, y en las instrucciones que se dan a los jueces o sujetos para emitir cierto tipo de respuestas frente a los estímulos o reactivos que componen el instrumento de medición.

2.2 Escalamiento de Personas Entre los modelos para escalar personas se tienen los siguientes: a) medidas de muchos

reactivos; b) modelos deterministas; c) modelos probabilísticos; d) el modelo lineal. Se verá cada uno de ellos brevemente (si se desea profundizar, se pueden consultar las obras de Edwards. 1957, Torgerson, 1967o' Guilford, 1954).

2.2.1 Medidas de Muchos Reactivos En este modelo se le pide al sujeto que dé una respuesta frente a un conjunto de reactivos.

Se trabaja con un conjunto de reactivos con objeto de resolver el problema de la especificidad del reactivo. Esta se refiere al hecho de que cada reactivo por separado tiene una correlación muy baja con el atributo en cuestión y presenta la tendencia a estar correlacionado con otros reactivos, por lo cual lo mejor es tener muchos reactivos. Si se contara con sólo uno, éste produciría respuestas que clasificarían a las personas en una de dos categorías: aprobado o reprobado, correcto o incorrecto, a favor o en contra, y se debe recordar que uno de los objetivos de la medición es el poder categorizar a las personas en tantas categorías como sean posibles, para encontrar la mayor diferenciación o discriminación entre ellas.

Por otro lado, si se contara únicamente con reactivos individuales, éstos serían poco

confiables debido al hecho de que existe considerable error de medición en cada reactivo, mientras que cuando se tiene a un conjunto de ellos, estos errores se anulan unos a otros.

2.2.2. Modelos Deterministas En términos generales estos modelos suponen que la probabilidad de dar una respuesta

dada frente a un reactivo esta' determinada por la cantidad de atributo poseído por el sujeto. La probabilidad de responder afirmativa o negativamente frente al reactivo cambia en forma brusca, de 0.00 a 1.00 en función de la cantidad de atributo poseído por el sujeto que responde al reactivo.

La característica operante de un reactivo de este tipo de modelos corresponde a la que se

presente en la siguiente figura (Figura 2.1) Figura 2.1.Caracteri'stica operante de un reactivo del modelo determinista. Desde el punto de vista teórico, cualquier dimensión o atributo puede ser considerado como

una variable latente. Esto es, cualquier variable que pueda conceptualizarse como subyaciendo o produciendo cierta conducta o respuesta. La conducta o respuesta observada es considerada entonces como alguna función de la variable latente. La probabilidad de aceptar o responder en forma afirmativa o correcta una afirmación o reactivo que se refiere a algún atributo se puede considerar como una función de una variable o atributo latente, el atributo poseído por el sujeto que responde a la afirmación o reactivo. La graficación de esta probabilidad en relación con los valores supuestos o conocidos de la variable latente es lo que se llama característica operante del reactivo.

El análisis de escalograma de Guttman (1944) y la escala de distancia social de Bogardus

(1923) son ejemplos de modelos deterministas de escalamiento de personas.

Page 14: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

2.2.3 Modelos Probabilísticos En este tipo de modelos la suposición básica indica que los instrumentos están formados por

reactivos cuyas características operantes son como la que aparece en la Figura 2.2. En este caso, se supone que a medida que aumenta la cantidad de atributo poseído por el

sujeto, aumenta la probabilidad de que una afirmación o reactivo sea endosado (o respondido en forma afirmativa o correcta); pero en este caso, el aumento de la probabilidad es gradual, y no brusco como en el anterior.

Figura 2.2 Característica operante de un reactivo en el modelo probabilístico. 2.2.4 Modelo Lineal Las suposiciones de este modelo son las siguientes: a) cada reactivo tiene una característica

operante monotónica creciente (la probabilidad de endosamiento de una afirmación o reactivo aumenta en forma gradual a medida que aumenta la cantidad de atributo poseído por el sujeto, hasta llegar a un máximo y permanece allí o sigue aumentando sin disminuir nunca); pero sin tener todos los reactivos características operantes idénticas (Figura 2.3).

Figura 3. Características operantes de los reactivos a, b y c. b. La suma de las características operantes para un conjunto dado de reactivos o

afirmaciones es aproximadamente lineal (Figura 2.4). Figura 2.4. Suma del conjunto de características operantes de un conjunto de reactivos (x). c. El conjunto de reactivos como totalidad tienden a medir sólo el atributo en cuestión, lo que

implica que la calificación total en un conjunto particular de reactivos que sean contestados por un sujeto, resume toda la información acerca del atributo psicológico inherente en las calificaciones de los reactivos por separado.

Se dice que el modelo es lineal porque: a) se supone que la suma de las calificaciones de los

reactivos tiene una relación aproximadamente lineal con el atributo en cuestión; b) una simple suma de variables es una combinación lineal de variables, y una simple suma de calificaciones de reactivos, es una combinación lineal de esas calificaciones.

Si se observa a los instrumentos de medición en las Ciencias Sociales, se verá que en casi

todos los casos, éstos consisten en sumar calificaciones a lo largo de un conjunto de reactivos. El modelo lineal es aplicable tanto a los reactivos dicotómicos como a los de opción múltiple. La esencia del modelo es que no toma muy en serio a los reactivos individuales por ser demasiado específicos y contener mucho error de medición. Este modelo no hace suposiciones muy estrictas acerca de las características operantes que deben tener los reactivos, simplemente plantea la suposición de que existe una relación lineal entre la suma de estas características y el atributo subyacente que se pretende medir.

2.3 Guía de Estudio 1. ¿Qué es un modelo de escalamiento? 2. Distinga los tipos de escalamiento que existen 3. Identifique los principales métodos de escalamiento de personas.

Page 15: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

4. Identifique los principales métodos de escalamiento de estímulos. 2.4 Autoevaluación 2.4.1 Preguntas 1. ¿Qué son los modelos de escalamiento? 2. ¿Qué tipos de escalamiento existen? 3. ¿Qué tipos de respuesta se pueden dar ante los estímulos o preguntas? 4. ¿Qué relación existe entre el tipo de escalamiento y el tipo de respuestas? 5. ¿Por qué se construyen índices o instrumentos con muchos reactivos? 6. ¿Cuáles modelos de escalamiento de estímulos existen? 7. ¿Qué diferencia primordial existe entre el modelo determinista y el probabilístico de

escalamiento de personas? 2.4.2 Respuestas 1. Planes internamente consistentes para desarrollar un nuevo instrumento de medición. 2. Escalamiento de estímulos y escalamiento de personas. 3. Juicios y sentimientos. 4. El escalamiento de estímulos tiene que ver con las respuestas de sentimiento, y el

escalamiento de personas con las de juicio. 5. Para resolver el problema de la especificidad de los reactivos. 6. Los modelos basados en estimaciones subjetivas, y los basados en juicios

discriminativos. 7. El cambio de una respuesta negativa a una afirmativa es brusco en el primero y

gradual en el segundo, dependiendo de la cantidad de variable latente poseída por el Sujeto.

Page 16: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

III. INTRODUCCION A LOS MODELOS DE MEDICIÓN

3.1 Teoría de la Medición del Error Se puede partir de la suposición de que en cualquier medida que realice el hombre, se

encuentra alguna cantidad de error involucrado, aunque los instrumentos de medición sean muy precisos, como en el caso de los utilizados en las ciencias exactas, y con mucho mayor razón, en los casos de los instrumentos de medición de las llamadas ciencias sociales o conductuales.

El error de medición puede ser de dos tipos: sistemático y aleatorio. El error sistemático es

aquel que se comete cuando el instrumento de medición arroja datos que subestiman o sobrestiman la cantidad real de atributo poseído por los sujetos o eventos que se están midiendo. Si este es el caso, y las mediciones del atributo en cuestión se realizan con el mismo instrumento, el problema no es tan grave, ya que el error es constante y todos los eventos y objetos lo tienen en la misma cantidad; en este caso, aún se pueden obtener diferencias entre eventos o personas (propósito de la medición).

El error aleatorio se refiere al hecho de que algunas veces se sobrestima la cantidad de

atributo poseída por el evento u objeto, y otras se subestime; además estas sobre o subestimaciones no son iguales; es decir, el error de medición es el azar: algunas veces por encima, otras por debajo de la cantidad real, y nunca en la misma cuanti'a. Esto es lo que sucede con los instrumentos de medición que se emplean en las ciencias sociales. Esto trae como resultado que no se pueda estar seguro si las diferencias reportadas por un instrumento en cuanto a la cantidad de atributo poseído por el evento o sujeto son reales. Aunque los errores aleatorios nunca se puedan eliminar, se hacen esfuerzos para reducirlos hasta donde sea posible.

Se puede decir que un instrumento de medición es más confiable entre menor sea el error de

medición. La confiabilidad de un instrumento de medición es el grado hasta el cual las medidas sean repetibles; es decir, un mismo individuo al que se le aplican diferentes instrumentos que miden el mismo atributo arroja calificaciones semejantes; o el mismo instrumento aplicado en diferentes ocasiones arroja las mismas. o por lo menos semejantes, puntuaciones o calificaciones (cantidades de atributo poseído por el sujeto).

En 1904 Charles Spearman estableció los fundamentos de este modelo. Este es uno de los

más importantes en psicología y es uno de los más manejables. La teoría se puede derivar partiendo de sólo unas cuantas suposiciones acerca de la naturaleza de los datos.

Se supone que cada persona tiene una "calificación verdadera". la que obtendría si no

hubiese errores de medición. Si se aplica un instrumento de medición en varias ocasiones al mismo sujeto, las medidas obtenidas producirán diferentes calificaciones que vari'an al azar, y se podrían representar como aparece en la Figura 3.1.

f: frecuencia de obtención de las diferentes calificaciones de un mismo sujeto en distintas

ocasiones. Figura 3.1 Distribución de calificaciones de un mismo sujeto. Entre más grande sea la dispersión de las calificaciones alrededor de la calificación

verdadera (el promedio de las calificaciones obtenidas en las diversas ocasiones), más error tiene el instrumento de medición. La desviación estándar de la distribución de calificaciones para cada

Page 17: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

persona sería un índice de la cantidad de error poseído por el instrumento de medición. La desviación estándar típica se llama error estándar de medición, y es un índice de la cantidad de error involucrado en el instrumento.

Supóngase el procedimiento convencional de aplicar una prueba en el sentido de que se le

presentan al sujeto un número de reactivos que tiene que contestar. Cada respuesta se califica como buena o mala. La simple suma o la suma pesada de las respuestas correctas es tomada como calificación en la prueba. Supóngase que la calificación numérica está basada en contar uno o más puntos por cada respuesta correcta, y cero puntos por cada respuesta incorrecta. Lo que se trata de determinar es la exactitud de la calificación obtenida por el sujeto.

De acuerdo a Gulliksen (1950), las suposiciones básicas del modelo de la medición del error

son las siguientes: a) Xi = calificación observada ( obtenida) de la persona i en la prueba que esté siendo

considerada. Ti = calificación verdadera de la persona i en la prueba. Ei = componente de error para la misma persona. b) La calificación observada (X) tiene dos componentes: T, que representa la habilidad o

atributo real poseído por la persona; una cantidad relativamente estable de prueba a prueba, siempre y cuando las pruebas midan lo mismo. E, el componente de error, que se puede deber a: 1) factores que pueden hacer que una persona conteste en forma correcta a un reactivo cuya respuesta desconoce: 2) factores que hacen que conteste en forma incorrecta a un reactivo cuya respuesta si' conoce.

c) Xi = Ti = Eió Ei = Xi - Ti Esta suposición establece la relación entre la calificación de error y la verdadera: es la

ecuación que define lo que se quiere decir con error. Si se acepta el concepto de que existe una calificación verdadera que es diferente de la observada, se puede decir que la diferencia entre estos dos es el error.

Hasta ahora se tiene una ecuación con las incógnitas (T) y (E), que no se puede resolver

para determinar los valores T y E para la persona; si se aplicara la prueba a más personas sería lo mismo. Pero: si se tienen las medias de muchas personas, se tendían tres distribuciones de frecuencia: una distribución de X, una distribución de T, y otra de E.

Existen dos aproximaciones equivalentes al problema de la determinación de estas

distribuciones: La primera da una definición de calificación de error y se considera que T es simplemente la diferencia entre X y E. La segunda define a la calificación verdadera (T) y se deja que la diferencia entre la X y la T se llame error.

Existen, como ya se señaló, dos tipos de errores: errores de azar y errores sistemáticos o

constantes. Si las medidas son consistentemente mayores o menores de lo que deben ser, se habla de error constante. Si existen discrepancias en las mediciones, algunas veces grandes, otras pequeñas, algunas veces positivas y otras negativas, se habla de error al azar.

La teoría de las pruebas se refiere a la definición y estimación de los errores al azar.

Page 18: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

c) Como los errores son al azar, es fácil suponer que a lo largo de un número suficientemente grande de casos el error promedio de este tipo sera' cero, ya que al sumarlos se anulari'an unos a otros:

Me = 0

Y entre mayor sea el número de casos de la distribución, más cerca de la verdad estara' la

suposición. Por lo tanto, se puede definir a los errores al azar como aquellos que tienen un promedio de cero a lo largo de un gran número de casos.

d) A medida que el número de casos aumenta, la correlación entre las calificaciones

verdaderas y las de error se acerca a cero, ya que las calificaciones de error vari'an de azar y las verdaderas permanecen relativamente estables:

rET = 0 Esto también sera' más cierto entre mayor sea el número de casos. e) La correlación entre los errores de una prueba y su forma paralela o equivalente (que

miden lo mismo siendo diferentes) es: rE1E2 = 0 La correlación entre dos conjuntos de errores al azar es de cero o se acerca a cero en la

medida en que aumenta el número de casos. Partiendo de: Ti = Xi - Ei (3.1) sumando cada lado de la ecuación a lo largo de un gran número de casos se tiene: N N ΣTi = Σ(Xi - Ei) (3.2) i = 1 i = 1 quitando los paréntesis, omitiendo los subíndices y los límites (ya que todos son iguales), se

tiene: ΣT = ΣX - ΣE (3.3) si se divide entre el número de casos para obtener la media se tiene: MT = MX - ME (3.4) Pero se sabe que ME = 0, por lo que: MT = MX (3.5) Dentro de este modelo se define a la confiabilidad como la correlación entre las calificaciones

verdaderas y las observadas. Para obtener la correlación entre las calificaciones verdaderas y las observadas se empieza con la ecuación básica de la correlación entre calificaciones observadas y verdaderas:

Page 19: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

rXT = ΣXT (3.6) Nsxsr Substituyendo X = T + E, se tiene rXT= Σ(T + E) T (3.7) Nsxst

Quitando los paréntesis, se tiene: rXT = ΣT2 + ΣTE (3.8) Nsxst Dividiendo cada uno de los términos del numerador entre la N del denominador se tiene: rXT = st

2 + rTE sT sE (3.9) sX sT Como rET = 0, (3.9) queda: rXT = sT

2 (3.10) sX sT Simplificando (3.10) dividiéndola entre sT, queda: rXT = sT (3.11) sX La sT (varianza verdadera) es igual a sX rXhXg , si se substituye sT en (3.11), queda: rXT = sX rXhXg (3.12) sX Cancelando sX en numerador y denominador, queda: rXT = rXgXh (3.13) dónde Xg = a calificaciones observadas en la prueba g y Xh = calificaciones observadas en la

prueba h (siendo g y h pruebas paralelas). Este coeficiente es aplicable a la situación de pruebas paralelas (como arriba se indica); a la

confiabilidad por mitades (g = una mitad; h = otra mitad); a la confiabilidad pares y nones (g = pares; h = nones) o la confiabilidad test-retest (g = primera, h = segunda aplicación).

En este modelo la validez queda definida como la correlación entre las calificaciones

observadas de dos instrumentos que miden lo mismo; es decir, el instrumento del investigador, y aquel otro que emplea como criterio externo.

rTgTh = rXgXh (3.14)

Page 20: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

En este caso se esta hablando de la validez concurrente. 3.2 Modelo Dominio - Muestra Este modelo considera a cualquier medida particular como compuesto por una muestra al

azar de reactivos de una población o dominio hipotético de reactivos referentes a un atributo dado. De hecho esto no es cierto, ya que los reactivos que componen una prueba casi nunca se muestrean al azar, sino más bien son construidos ex profeso para la prueba lleva a predicciones bastante exactas en la práctica.

El propósito de cualquier instrumento de medición particular es el de calcular la calificación o

medida que se obtendría si se emplearan todos los reactivos del dominio. La calificación que cualquier sujeto obtuviera si le fueran aplicados todos los reactivos del dominio, sera' la calificación verdadera. En la medida en que cualquier muestra de reactivos (prueba) correlacione con las calificaciones verdaderas, será la confiabilidad de la muestra (prueba).

En este modelo, el número de reactivos de una prueba no tiene que estar determinado,

puede ser uno o muchos. El tipo de reactivo tampoco tiene importancia; es decir, puede ser abierto, dicotómico (por ejemplo: falso-verdadero) o de opción múltiple, etc.

Supóngase que se parte de una matriz infinitamente grande de correlaciones conteniendo

todas las intercorrelaciones entre los reactivos de un dominio. La correlación promedio (rij) de la matriz indica el grado en el que existe algo en común entre los reactivos del dominio. La dispersión de las correlaciones alrededor del promedio de correlaciones indica el grado en el que los reactivos vari'an en la posesión de ese algo (atributo que se desea medir) en común.

Si se supone que todos los reactivos tienen igual cantidad de atributo en común, la

correlación promedio de cada columna de la matriz hipotética sería la misma, y éstas serian iguales a la correlación promedio de la matriz total. Es decir, si la correlación promedio de cada reactivo contra todos los demás fuera la misma para todos ellos, éstas correlaciones serian iguales a la correlación promedio total de la matriz. La suposición no dice que todas las correlaciones de la matriz sean iguales, sino que la suma de correlaciones, o el promedio de las mismas, de cada reactivo contra todos los demás es la misma para todos los reactivos.

Aceptando la suposición anterior, se puede computar directamente la correlación de cualquier

reactivo particular con la suma de todos los reactivos del dominio en la siguiente forma: a) si todos los reactivos se expresan como calificaciones estándar, la fórmula de la

correlación del reactivo 1 con la suma de calificaciones en K reactivos es: 1Σz1 (z1+z2+z3+ ...zk) r1(1...k)= N (3.15) Σz1

2 1 (z1+z2+z3+...zk)2

N N b) el numerador de la fórmula (3.15) se puede transformar como sigue: 1 Σz1(z1 +z2 +z3 + ...zk = N 1 Σ (z1

2 + z1z2 + z1z3 + ... z1zk) =

Page 21: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

N 1 (Σz1

2 + Σz1z2 + Σz1z3 +...Σz1zk) (3.16) N c)dividiendo los términos dentro del paréntesis de (3.16) entre N (que es equivalente a

multiplicar por 1) queda: N r11 + r12 + r13 + ... r1k (3.17) Ya se sabe que la suma de productos de desviaciones estándar entre N es equivalente a una

correlación. Nótese que en esta simplificación de la fórmula no que incluidas s1, s2, s3 y sk, ya que las calificaciones en si' mismas están expresadas en términos de unidades Z, o sea, de desviación estándar.

d) Pero la correlación de 1 vs. 1 (algo contra si' mismo) es igual a la unidad, por lo que (3.17)

queda aún más simplificada: 1 + r12 + r13 + ... + r1k (3.18) e) Si se mantiene la suposición que dice que la correlación promedio de cada reactivo con los

otros es la misma, y además es igual a la correlación promedio de la matriz, la suma de las correlaciones del reactivo 1 con el restante K - 1 reactivos (quitando al reactivo 1), sería igual a (k- 1)rij, simplificándose entonces (3.18) de la siguiente manera:

1 + ( k - 1 )rij (3.19) f) Ahora bien, en el denominador de la ecuación (3.15), el término de la izquierda es la

desviación estándar de un conjunto de calificaciones dadas en términos de desviación estándar para la variable 1, y esta desviación es igual a la unidad, por lo que se pueda quitar de la fórmula sin que ésta se vea afectada.

g) También en el denominador de la fórmula (3.15), el término de la derecha que se

encuentra por de bajo del radical, es la varianza de la suma de K conjunto de calificaciones estándar, ya que una suma de desviaciones estándar entre N es igual a una varianza dentro de un radical.

h) Se sabe que la varianza de la suma de un conjunto de K calificaciones estándar es igual a

la suma de todos los elementos de la matriz de correlaciones de las calificaciones, ya que las correlaciones no son otra cosa que la expresión de la variabilidad de dos conjuntos de fenómenos (en este caso, calificaciones expresadas en unidades de desviación estándar, para K variables).

i) Existe un número K2 de elementos en cualquier matriz simétrica de correlaciones. De éstos, k son los elementos diagonales y k-k2 son los elementos fuera de la diagonal. Como en una matriz de correlaciones los elementos de la diagonal siempre son igual a 1 ( ya que representan la correlación de un conjunto de datos contra si' mismos), la suma de los elementos diagonales es igual a K. En vez de sumar los elementos fuera de la diagonal, se podría obtener el mismo valor multiplicando el promedio de los elementos de la diagonal por k2 -k, ya que se dijo que los prome-dios de correlación de cada columna son iguales entre si' (una de las suposiciones básicas del modelo). En esta forma, la segunda parte del denominador de (3.15), queda:

Page 22: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

k + (k2 - k)rij (3.20) j) reuniendo ahora el numerador y el denominador de la fórmula original (3.15),ésta quedara' : r1(1...k) = 1 + ( k - 1)rij (3.21) k + ( k2 - k)rij

k) quitando los paréntesis de (3.21) queda: r1(1...k) = 1 + krij - rij (3.22) k +k2rij -krij l) Si como el modelo supone, el dominio de reactivos es infinitamente grande, se puede ver

que sucede en la medida en que K se acerca al infinito. El primer paso es dividir cada término del numerador y del denominador de (3.22) entre k. Como los elementos en el denominador se encuentran bajo un radical, esto requerirá dividir cada término del denominador entre k2, dando por resultado:

r1(1...k) = 1/k + rij - rij/k (3.23) 1/k + rij - rij/k m) En la medida en que k se acerca al infinito, cualquier término dividido entre k se acerca a

cero, y como solo hay dos términos en la fórmula (3.23) que no están divididos entre k, la fórmula queda:

r1(1...k) = rij = rij (3.24) rij Por lo que la correlación del reactivo 1 con la suma de un número infinito de reactivos de un

dominio será igual a la raíz cuadrada del promedio de correlaciones entre los reactivos del dominio. Esto se mantiene solo bajo la suposición de que todos los reactivos tienen la misma correlación promedio con el resto de los reactivos. En este caso la correlación promedio del reactivo 1 con los otros reactivos será igual rij, y la ecuación original (3.15) se puede escribir así:

r1(1...k) = rij (3.25) dónde rij es la correlación promedio del reactivo 1 con todos los reactivos del dominio. n) Como a medida que k se acerca al infinito, la correlación del reactivo i con los k reactivos

se acerca a la correlación del reactivo 1 con la calificación verdadera, se pueden usar los siguientes símbolos:

r1(1...k) = r1t = rij (3.26) La correlación r1t de la variable 1 con la calificación verdadera del dominio (la suma de todos

los reactivos del dominio), será igual a la raíz cuadrada de la correlación promedio del reactivo 1 con todos los demás reactivos.

Por lo general los instrumentos de medición están compuestos por un gran número de

reactivos. El modelo se puede extender para aplicarse a pruebas en lugar de reactivos únicos. La

Page 23: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

matriz infinitamente grande de intercorrelaciones entre reactivos, puede pensarse que está dividida en grupos, cada uno conteniendo L reactivos. La suma de calificaciones en un grupo de reactivos constituiría una prueba. Si los reactivos estuvieran muestreados al azar para componer las pruebas, las correlaciones entre las diferentes pruebas tenderían a ser las mismas o iguales.

Estas colecciones de reactivos muestreados al azar se dice que constituyen pruebas

paralelas al azar, ya que sus medias, desviaciones estándar y correlaciones con las calificaciones verdaderas difieren sólo por azar.

Si se supone que la correlación promedio de cada prueba con la suma de todas las otras

pruebas es igual para todas las pruebas, se puede empezar con la fórmula (3.15) y poner las calificaciones de cada prueba completa (conjunto muestreado al azar de reactivos) en unidades de desviación estándar (z), en vez de para reactivos individuales. Los pasos a seguir para desarrollar y simplificar la fórmula serían los mismos que los vistos anteriormente, hasta llegar a:

r1t = rij, dónde: (3.27) 1 = calificación en la prueba 1 t = calificación verdadera en el dominio rij= correlación promedio de la prueba 1 contra todas las pruebas del dominio. Se debe recordar que las correlaciones promedio entre pruebas completas serán mayores

que las correlaciones promedio entre reactivos, y que por lo tanto, la correlación con la calificación verdadera en este caso, será más alta para pruebas completas.

La correlación promedio de una prueba o un reactivo, con todas las pruebas o reactivos del

domino se llama coeficiente de confiabilidad en este modelo. Este coeficiente se puede simbolizar como r11 para la variable 1, r22 para variable 2, etc. Entonces, la raíz cuadrada de r11 es igual a la correlación del reactivo o prueba 1 con las calificaciones verdaderas del dominio.

Si las suposiciones hechas previamente respecto de las correlaciones entre los elementos de

un dominio son correctas, la correlación de cualquier prueba con las calificaciones verdaderas es precisamente la raíz cuadrada de r11, que no es una estimación (cálculo aproximado), sino una determinación real. Por supuesto, en la práctica no se conoce con exactitud r11, ya que no es posible generar un número infinitamente grande de pruebas. Consecuentemente r11, y por lo tanto r1t pueden tan solo ser estimadas en la práctica. Una estimación de r11 se simbolizará como r11, que es el símbolo convencional del coeficiente de confiabilidad.

Obviamente, r11 es una mejor estimación de r11, cuando el primero se obtiene promediando las correlaciones de la prueba 1 con un gran número de pruebas del dominio. Si las pruebas se construyeran realmente seleccionando los reactivos al azar del dominio, la suposición básica al respecto de las correlaciones entre las prueba sería aproximadamente correcta. La correlación promedio de la prueba 1 con un número de otras pruebas sería entonces una estimación de la correlación promedio de la prueba 1 con todas las pruebas del dominio. Lo que ocurre generalmente es que en la práctica, la prueba 1 está siendo condicionada con sólo otra prueba (prueba 2) y la correlación se simboliza como r11, que se toma como una estimación de r11. Sin embargo, cuando sólo se toma una correlación como estimación de un número infinito de correlaciones hipotéticas, es adecuado preguntarse que tan eficientes son tales estimaciones.

Se ha tenido cuidado en demostrar que r1t es igual a la raíz cuadrada de r11, y también se ha

demostrado cómo se estima r1t a partir de la raíz cuadrada de r11 (el promedio de cualquier número de correlaciones entre la prueba 1 y otras pruebas del dominio, incluyendo el "promedio" de sólo

Page 24: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

una de tales correlaciones). Una vez que se ha obtenido una buena estimación de r11, y por lo tanto una buena estimación de r1t, se desarrollan importantes principios acerca de la medición.

Supóngase que está siendo usado un método preciso de estimar r11 en problemas

particulares. Suponiendo entonces que r11es igual a r11, r1t, es igual a la raíz cuadrada de r11. Con frecuencia se dice que las calificaciones de una prueba son calificaciones falibles,

debido a que existe un cierto grado de error de medición involucrado en ellas. En contraste, las calificaciones verdaderas son en este sentido, infalibles. Aunque r1t es la correlación entre un variable existente y una variable hipotética, más que una correlación entre dos variables existentes, se puede usar en derivaciones matemáticas en la misma forma en que se puede usar cualquier correlación. Se puede visualizar un diagrama de dispersión que muestre la relación entre las calificaciones falibles de cualquier prueba, y las calificaciones verdaderas. Este diagrama se ilustra en la Figura 3.2.

Entonces la línea de mejor ajuste para estimar las calificaciones verdaderas partiendo de las

falibles, se obtendría como sigue: z't = r1t z1 = r11 z1 (3.28) dónde: z't = estimación de las calificaciones verdaderas desviadas. z1 = calificación estándar de un instrumento de medición falible. r1t = correlación de la calificación falible con calificaciones verdaderas. r11 = coeficiente de confiabilidad para la variable 1. Figura 6. Relación entre las calificaciones falibles y las verdaderas: línea de regresión y

contorno de la dispersión de una relación hipotética entre las calificaciones observadas y las verdaderas.

Lo importante aquí es que r1t se puede colocar en las ecuaciones comunes de análisis de

correlación. Es particularmente importante el darse cuenta que, como la raíz cuadrada de cualquier correlación es igual a la varianza de una variable explicada (o dividida) por la varianza de otra variable, r1t

2es igual al porcentaje de varianza de calificación verdadera explicada por un instrumento de medición falible. Entonces, también se puede decir que r11 es igual al mismo porcentaje de varianza de calificación verdadera en el instrumento falible de medición. Este porcentaje adquiere más significado cuando la medida falible se expresa como calificación de desviación o calificación cruda, más que como calificación estándar. En los primeros dos casos antes mencionados, el coeficiente de confiabilidad se expresaría como sigue:

r11 = st

2 / s12 (3.29)

dónde: s1

2 = varianza de la variable 1 st

2 = varianza de las calificaciones verdaderas explicadas por la variable 1. Lo que esta ecuación demuestra es que r11 es igual a la cantidad de varianza de calificación

verdadera en un instrumento de medición (ó en una medida) dividida entre la varianza real de la medida (o instrumento de medición).

3.3 Modelo de las Pruebas Paralelas

Page 25: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

El modelo discutido anteriormente se refiere a pruebas paralelas seleccionadas al azar, que

se supone difieren en cierta cantidad de las calificaciones verdaderas en las medias, desviaciones estándar, y correlaciones, debido a los errores del azar en el muestreo de los reactivos. Se dijo que la mejor manera de estimar la confiabilidad es correlacionando una prueba con un número de otras pruebas del mismo dominio o población de contenido. Como en la realidad esto es poco práctico, por lo general se correlaciona una prueba con sólo otra prueba para obtener una estimación de la confiabilidad. Pero de hecho existe mucha inexactitud al permitir que una correlación represente al promedio de muchas correlaciones desconocidas. Esta situación permite preguntarse si la correlación entre solo dos pruebas puede ser considerada como una estimación precisa de la confiabilidad de cualquiera de las dos.

Si se supone que dos pruebas son realmente paralelas, a diferencia de suponer que lo son

en base a que fueron muestreadas de una población, el coeficiente de confiabilidad y medidas rela-cionadas se pueden derivar directamente sin necesidad de considerar la precisión de las estimaciones.

Dos pruebas son paralelas si: a) tienen desviaciones estándar iguales; b) tienen la misma

correlación con un conjunto de calificaciones verdaderas; c) la varianza que en cada prueba no queda explicada por las calificaciones verdaderas se debe al azar. En algunos casos es útil suponer también que las dos pruebas tienen medias iguales.

Partiendo de lo anterior, se puede decir que las calificaciones de dos pruebas paralelas se

pueden descomponer como sigue: x1 = t + e1 x2 = t + e2 (3.30) dónde: x1 = calificación desviada obtenida en la prueba 1 (calificación observada) x2 = calificación desviada obtenida en la prueba 2. t = calificaciones verdaderas en el dominio e1 = error en la prueba 1 e2 = error en la prueba 2 En realidad sólo las calificaciones falibles obtenidas en las dos pruebas son las que se tienen

a la mano. Por esta razón, la única forma de aprender algo acerca de las calificaciones verdaderas y las de error, sería a través de la correlación de las calificaciones obtenidas en las dos pruebas.

Partiendo de la tercera suposición anteriormente mencionada se pueden deducir los

siguientes principios: 1) Por definición, los errores al azar tienden a cancelarse unos a otros, y consecuentemente

se espera que la media de los errores en cada prueba sea de cero. 2) Como los errores al azar no correlacionan unos con otros, se espera que los errores de

una prueba correlacionen cero con los errores de otra prueba y que los errores de cualquiera de las pruebas correlacionen cero con las calificaciones verdaderas.

Con este modelo, se deducen los siguientes principios: sx1 = sx2 (3.31)

Page 26: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

r1t = r2t rte1 = 0 y rte2 = 0 re1e2 = 0 Me1 = 0 y Me2 = 0 Como las calificaciones de error no están correlacionadas con las calificaciones verdaderas,

se sigue que: sx1

2 = st2 + se1

2, y sx2

2 = st2 + se2

2 (3.32) Como la varianza de las calificaciones observadas son iguales en las pruebas, y las varianzas

de las calificaciones verdaderas también son iguales, se sigue que las varianzas de error también son iguales.

Una forma interesante de examinar la correlación entre dos pruebas paralelas es la siguiente: r12 = 1/N (Σ x1 x2) (3.33) sx1 sx2 En virtud de que x1 y x2 pueden ser expresadas como la suma de las calificaciones de error y

verdaderas, y en el denominador las dos desviaciones estándar son iguales, se puede escribir la ecuación (3.33) como sigue:

r12 = 1/N [Σ (t + e1)(t + e2)] = sx1

2 = 1/N (Σt2 + te1 +Σte2 + Σe1e2) s1

2 = st

2 + ste1 + ste2 + se1e2 s1

2 (3.34) Y como los errores no correlaciona con las calificaciones verdaderas, y tampoco entre ellos,

los tres términos de covarianza del numerador de (3.34) desaparecen, quedando: r12 = st

2 = r11 (3.35) s1

2 Esto significa que la correlación entre dos pruebas paralelas es igual a la proporción de la

varianza de calificación verdadera explicada por la varianza de cualquiera de las pruebas. La misma proporción se derivó del modelo dominio-muestra. Como la proporción es la misma para ambas pruebas, ésta se puede simbolizar como r11, r22, ó rxx más que como r12.

Se pueden utilizar diferentes métodos para probar que la correlación de la prueba 1 con las

calificaciones verdaderas es igual a la raíz cuadrada de la correlación entre las dos formas o

Page 27: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

pruebas paralelas. En las suposiciones y derivaciones planteadas hasta ahora en esta sección, está implícito que cuando se separan las calificaciones verdaderas de las obtenidas (u observadas) en las dos pruebas paralelas, las calificaciones residuales en las dos pruebas correlacionan cero, ya que son calificaciones de error, y éstos no están correlacionados. En esta forma, la correlación parcial tendría que ser cero, en cuyo caso el numerador de la correlación parcial tendría que ser cero, como sigue:

r11 - r1tr2t = 0 (3.36) Esto significa que a las calificaciones observadas (11) se les está quitando las calificaciones

verdaderas (1t y 2t), quedando únicamente las calificaciones de error. Como el modelo supone que ambas pruebas correlacionan lo mismo con las calificaciones

verdaderas, la ecuación (3.36) se pueden transformar como sigue: r11 = r1t

2 ó r1t = r11 (3.37) En algunas ocasiones ha surgido la pregunta respecto a la precisión de las estimaciones de

la confiabilidad que se hacen a partir del modelo dominio-muestra (y el de pruebas paralelas, que es un caso especial del modelo dominio-muestra). Tales estimaciones son precisas hasta el grado en el que diferentes muestras al azar de reactivos correlacionan en igual cantidad con las calificaciones verdaderas. Si un reactivo correlacionara exactamente lo mismo con todos los reactivos del dominio, la correlación con cualquiera de los reactivos sería una indicación precisa de la confiabilidad. Si todos los reactivos del dominio correlacionaran exactamente lo mismo unos con otros, todos los reactivos tendrían exactamente la misma correlación con las calificaciones verdaderas, que sería igual a la raíz cuadrada de la correlación típica.

En el grado en el que las correlaciones entre los reactivos del dominio varían, existe algún

error al azar relacionado con la correlación promedio encontrada en cualquier dominio particular de reactivos. Por ejemplo, si el reactivo 1 tuviera correlaciones con otros reactivos del dominio que fluctuaran de 0.10 a 0.30, la correlación promedio del reactivo 1 con un número de otros reactivos seleccionados al azar del dominio, daría una estimación relativamente precisa de la confiabilidad del reactivo 1. Mientras que si las correlaciones fluctuaran entre -0.30 y +0.60, la correlación promedio del reactivo 1 con los otros reactivos sería tan sólo una aproximación burda de su confiabilidad.

Relacionado con la precisión de las estimaciones de la confiabilidad se encuentra el

problema del doble muestreo. El que se refiere al muestreo de personas y el muestreo de reactivos. Como es imposible considerar ambos problemas en forma simultánea, se dice que la teoría de la medición es una teoría de "muestras grandes". Es decir, se supone que se está empleando a un número suficientemente grande de individuos para asegurar que esta fuente de error sea una consideración menor. La precisión requerida en la teoría de la medición no puede tolerar grandes dosis de error de muestreo debido a un pequeño número de sujetos. Consecuentemente, se supone que idealmente se emplean 30 reactivos y 10 sujetos por cada reactivo, o sea 300 sujetos, para que el error debido al muestreo de personas se reduzca al mínimo. En la teoría de la medición del error, la preocupación se encuentra en el muestreo de reactivos.

Un dominio de reactivos es de interés sólo si la correlación promedio entre ellos es positiva.

Si esta correlación es cero o cercana a cero, los reactivos como grupo no tienen nada en común, y no tiene sentido considerarlos como midiendo un atributo unitario.

Page 28: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Partiendo de la suposición de que la correlación promedio es positiva y suficientemente más alta que cero, el siguiente punto de interés es el de la homogeneidad de las correlaciones; se espera que éstas sean relativamente homogéneas. Cualquiera que sea el caso, habrá una distribución de correlaciones alrededor del valor promedio. Un modelo estadístico aproximado ayudará a evaluar la influencia de esa distribución sobre la precisión de las estimaciones de la confiabilidad. El modelo supone que las correlaciones se distribuyen normalmente alrededor del valor promedio y que son estadísticamente independientes unas de otras.

Ambas suposiciones antes anotadas, son ligeramente incorrectas. Si la correlación promedio

es positiva, la distribución al azar de las correlaciones alrededor del promedio tiende a alejarse de la normalidad; así mismo, las correlaciones de una matriz no son completamente independientes unas de otras. Sin embargo, cuando las correlaciones son tan bajas como por lo general lo son entre los reactivos de una prueba (típicamente fluctúan entre 0.10 y 0.40), éstas suposiciones se violan sólo ligeramente, y por lo tanto, el modelo probablemente funcionará correctamente en la práctica

Independientemente del número de reactivos muestreados de un dominio para constituir una

prueba, la confiabilidad de la prueba está en relación directa a la correlación promedio de esos reactivos. Las pruebas más largas (con mayor número de reactivos) tienen coeficientes de confiabilidad más altos que las cortas; pero en ambos casos, las confiabilidades de las pruebas se deducen del promedio de las correlaciones entre sus reactivos.

Aún cuando las pruebas tengan tan pocos como diez reactivos, las estimaciones de la

confiabilidad son bastante precisas. Cuando existen tantos reactivos como aparecen en la mayoría de las pruebas, el error de muestreo debido a la selección de reactivos es extraordinariamente pequeño. La razón de esta precisión es que a medida que aumenta el número de reactivos, el número de correlaciones entre reactivos aumenta en forma muy rápida. Por ejemplo, se dan 780 posibles correlaciones entre 40 reactivos, obteniéndose aproximadamente la misma precisión para estimar la correlación promedio que la que sería obtenida en una muestra de 780 sujetos en el estudio. Por lo tanto, en la mayoría de los problemas de medición existe muy poco error en la estimación de la confiabilidad que pudiera atribuirse al error aleatorio en la selección de los reactivos. Si se tienen dos pruebas, supuestamente del mismo dominio, y éstas correlacionan menos una con otra de lo predicho a partir de la correlación promedio entre los reactivos dentro de cada prueba, la diferencia estaría causada no por errores aleatorios en la selección de los reactivos, sino por errores de muestreo de sujetos, o por diferencias sistemáticas en la forma en que se obtuvieron los reactivos para ambas pruebas. Esto indicaría que las dos pruebas están representando dominios de contenido algo diferentes.

Si las suposiciones del modelo dominio-muestra se mantienen y el número de personas y de

reactivos de la prueba son relativamente grandes, prácticamente no hay error en la estimación de la correlación de un conjunto de reactivos con las calificaciones verdaderas; se puede hablar entonces de "determinar" más que de "estimar" varias estadísticas referentes a la medición del error.

3.4 Guía de Estudio 1. Distinguir entre el error sistemático y el error aleatorio. 2. Identificar los postulados básicos del modelo de la Medición del Error. 3. Señalar el postulado básico del modelo Dominio-Muestra. 4. Distinguir las condiciones básicas del modelo de las Pruebas Paralelas. 3.5 Autoevaluación

Page 29: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

3.5.1 Preguntas 1. ¿Qué se entiende por error sistemático y error aleatorio? 2. ¿Cuál es la definición de prueba o test? 3. ¿Cuándo se dice que un instrumento es confiable en el modelo del error? 4. Cuándo se dice que un instrumento es confiable en el modelo de las pruebas

paralelas? 5. ¿Cuándo se dice que un instrumento es confiable en el modelo de las pruebas

paralelas? 3.5.2 Respuestas 1. Error sistemático es el que se tiene cuando un instrumento tiende a sub o sobre

estimar los puntajes de manera consistente y con la misma magnitud. El error es aleatorio, cuando el instrumento sub y sobre estima, en diferentes cantidades, de manera inconsistente.

2. Una prueba o test es una muestra representativa de los reactivos de un dominio que indican a un atributo o variable.

3. Cuando a las calificaciones observadas se les quita su componente de error. 4. Cuando la correlación entre los reactivos de la muestra se comporta como la

correlación entre los reactivos del dominio. 5. Cuando existe correlación entre dos pruebas paralelas que corresponden a dos

muestras aleatorias del mismo tamaño obtenidas del mismo dominio de reactivos.

Page 30: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

IV. PRIMEROS PASOS EN LA ELABORACIÓN DE UN INSTRUMENTO

La función que tiene una pregunta en un instrumento es la de provocar o elicitar una comunicación particular. Se espera que la persona que responde tenga cierta información, o actitudes sobre el tema de nuestra investigación, y se quiere obtenerla con la mínima distorsión posible.

Supóngase que la pregunta o reactivo ha sido comprendida por el respondiente tal y como es

nuestra intención, y que tiene el conocimiento, hechos, opiniones o actitudes requeridos como respuesta. La pregunta ha alertado al respondiente en una dirección particular: ha buscado en su mente y ha encontrado lo que estamos buscando. Ahora empieza el proceso de responder. La actitud o información puede ser clara y estar bien organizada, o puede estar difusa o vaga. Puede ser profunda o superficial, latente o muy arraigada. Lo que viene a la mente primero, lo se encuentra más superficialmente, puede no ser una adecuada representación de la totalidad de sus pensamientos sobre el tema. Se tiene que llevar a cabo algún proceso de hacer consciente o darse cuenta, junto con cierto grado de auto análisis, retroalimentación, conceptualización de ideas, generalización a partir de hechos específicos, y así sucesivamente. El respondiente está tratando de formarse un percepto de sus propias ideas. El proceso de producir este percepto puede verse afectado por los propios deseos, un deseo de agradar al entrevistador, la necesidad de ser justo con uno mismo y con los demás, y probablemente, estará acompañado por mucha confusión. También juegan una parte importante los problemas de memoria y habilidad de recordar. Sin embargo, se puede decir que el respondiente tiene ya algún tipo de "visión interna" de su respuesta, aunque todavía no la ha comunicado. Para hacerlo, tiene que tener una cierta habilidad para comunicarse: debe ser capaz de poner en palabras sus pensamientos en forma adecuada. También debe desear comunicarse --- debe haber aceptado el papel de respondiente en la situación de prueba, entrevista o cuestionamiento. Debe haber encontrado motivos que no sólo le permitan dedicar tiempo y esfuerzo en responder, sino que en ocasiones también le permitan comunicar, si fuera necesario, información privada o tabú. Sin embargo, su disponibilidad puede ser fácilmente desviada debido a diversas formas de censura interna, rapport pobre, el deseo de mantener una fachada social, y las expectativas de respuesta que la misma pregunta sugiere. En otras palabras, es bastante difícil obtener una respuesta relativamente no prejuiciada aún de un respondiente deseoso, dispuesto y claro que ha entendido correctamente lo que deseamos, sin que nuestra tarea se convierta en prácticamente imposible dirigiendo esta "línea de pensamiento" por el lado equivocado por medio de preguntas mal hechas.

De alguna manera, el problema de hacer preguntas es un problema de muestreo. Se está

muestreando un universo particular de contenido en la mente del respondiente. No se pretende obtener la totalidad del universo de contenido, sino solo lo suficiente para permitir obtener una idea clara de sus aspectos sobresalientes, su dirección, profundidad o intensidad generales, y quizá la presencia o ausencia de reactivos específicos. Las preguntas o reactivos debe ser adecuadas para este proceso de muestreo; deben ser imparciales; deben hacer que sea fácil que el respondiente conteste en forma completa. Esto significa primero que nada, que su contenido debe ser correcto; segundo, el lenguaje o palabras empleadas deben ser adecuadas y, tercero, el contexto, la secuencia, y las categorías de respuesta (si las hay), deben ayudar al que responde sin sesgar sus respuestas.

Los objetivos básicos en el diseño de instrumentos son: 1) obtener información relevante a

los propósitos de la investigación: 2) recoger esta información con la máxima confiabilidad y validez. Estas metas pueden denominarse respectivamente, relevancia y exactitud. Para asegurar la relevancia, el investigador debe tener muy claro el tipo de datos que requiere su estudio.

Page 31: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Específicamente el investigador debe explicar las razones que lo llevan a incluir cada una de las preguntas o reactivos, y no sólo por qué se hace cada pregunta, sino qué se va a hacer con la información que ésta proporcione. Esto requiere decidir de antemano ciertos aspectos de codificación y análisis.

Es más probable alcanzar la exactitud cuando el fraseo y secuencia de las preguntas o

reactivos están diseñados para motivar al respondiente y facilitarle el recuerdo. Se obtiene la mejor cooperación y la menor distorsión cuando el instrumento es interesante y cuando evita preguntas que son difíciles de responder, que tomen mucho tiempo, que sean vergonzosas, o personalmente amenazantes.

Los tipos generales de reactivos o preguntas que un investigador de las ciencias sociales

emplea se pueden clasificar en tres grandes clases: a) información de identificación; b) datos factuales tipo censo o antecedentes sociales; y c) reactivos o preguntas acerca del objeto de estudio. El primer tipo de preguntas o reactivos asegura que el instrumento no se pierda o se vaya a duplicar; que la información del instrumento pertenece a cierto caso particular y que se pueda identificar el respondiente y al encuestador o aplicador del instrumento. El segundo tipo proporciona información acerca del respondiente que provee las características de las muestras estudiadas, su representatividad en relación con el universo o población bajo estudio, así como aquellas variables que se pueden emplear como factores de prueba o controles estadísticos en el proceso de análisis de datos. El tercer tipo proporciona la información objeto del estudio: registro de algunas variables dependientes o independientes en un estudio, o son la materia prima a partir de la cual se pretende elaborar uno o varios instrumentos (homogéneos o heterogéneos).

Entre los reactivos más empleados para asegurar la información de identificación, se tienen

los siguientes: 1. Número de la cédula, caso o muestra. 2. Título del instrumento o cédula 3. Nombre del patrocinador 4. Nombre o dirección del sujeto o familia entrevistada (cuando no se asegura anonimato). 5. Sexo del respondiente 6. Lugar de la entrevista o aplicación 7. Nombre o iniciales del entrevistador o aplicador 8. Fecha y hora de la entrevista o aplicación 9. Cooperación del respondiente Dentro del segundo tipo de reactivos, los más empleados son los siguientes: 1. Edad del respondiente 2. Nacionalidad del respondiente 3. Estado civil 4. Nivel educativo formal alcanzado 5. Religión 6. Preferencia política 7. Pertenencia a sindicatos 8. Tenencia de la vivienda 9. Renta mensual pagada o que se podría obtener de la vivienda en que se habita 10. Tamaño y composición de la familia. 11. Ocupación. 12. Lugar de trabajo

Page 32: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

13. Ingreso familiar 14. Posesión de automóviles 15. Nivel socioeconómico, etc. El tercer tipo de reactivos serán vistos con mayor amplitud en la siguiente sección, la 4.1 4.1 Elaboración de Reactivos Habiendo definido la o las variables desde el punto de vista conceptual, consensual,

indicativa u operacional, se procede a llevar a cabo la redacción de los reactivos. La definición puede contemplar una o varias dimensiones, lo que determinará si se elaborará un instrumento homogéneo (una sola dimensión) o heterogéneo (varias dimensiones). Esta definición pudo haber provenido de una o todas las siguientes fuentes: literatura especializada, literatura común u ordinaria, o de los mismos sujetos que serán investigados o para los cuáles se elaborará el instrumento.

Una vez habiendo llegado el nivel de las dimensiones, se sugiere que se escojan las

preguntas o reactivos con cuidado. A continuación presentamos algunas recomendaciones. Inclúyanse sólo preguntas o reactivos directamente relacionados con la variable de interés. No se incluyan preguntas si se puede obtener la información en forma más exacta o efectiva de otras fuentes, a menos que se deseen como o un chequeo de la muestra o se vayan a emplear en tabulaciones cruzadas como variable control o factores de prueba. Hay que tener cuidado en la forma en que se hacen preguntas personales o aquellas que puedan avergonzar al respondiente. La información muy personal, se puede obtener con frecuencia, llevando hacia la pregunta deseada, por medio de una serie de preguntas impersonales preliminares. Háganse sólo aquellas preguntas factuales cuyas respuestas conozcan o se espere que sean conocidas por la mayoría de los informantes o respondientes. Evítense preguntas con alta probabilidad de producir respuestas inexactas. No se hagan preguntas que requieran de mucho trabajo extra por parte del respondiente.

4.1.1. Tipos de Pregunta o Reactivos Las preguntas pueden ser de diferentes tipos, dependiendo de los objetivos del estudio.

Cuando se van a medir o registrar diferentes variables, y se va a hacer una escala o prueba para cada una, se pueden emplear diferentes tipos de reactivos o preguntas, siempre procurando que sean del mismo tipo para cada variable o escala. Es decir, se puede emplear tipos diferentes de preguntas para cada una de tres variables, pero todas las preguntas o reactivos de cada una de ellas es igual a lo interno: una emplea preguntas dicotómicas; otros reactivos de ordenación y la tercera de opción múltiple (tres opciones), el investigador deberá tomar en cuenta las ventajas y limitaciones de cada uno de ellas.

4.1.1.1 Preguntas Abiertas.- Por lo general es necesario emplear preguntas abiertas en las

etapas iniciales, exploratorias o piloto de un estudio, ya sea de investigación o de elaboración de un instrumento. Estas preguntas proporcionan gran libertad en la latitud de las respuestas del sujeto investigado o cuestionado. Sólo descubriendo cuáles aspectos de un tema o variable son los que han producido una impresión en la gente y cuáles palabras son las que esta gente emplea para expresar sus reacciones, es que se puede llevar a cabo una planeación inteligente de preguntas cerradas o categoriales.

En los estudios en gran escala las preguntas abiertas producen una variedad de respuestas

tal que las tareas de clasificación y análisis toma mucho tiempo y plantean muchas dificultades para su análisis estadístico. Por estas razones, este tipo de preguntas se recomienda para muestra muy

Page 33: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

pequeñas o estudios piloto. A una serie de preguntas abiertas centradas alrededor de un tópico o tema se le denomina en ocasiones, "entrevista profunda o focalizada". Estas pueden tener una duración de una hora o más.

4.1.1.2 Método de Caso o Historias Libres.- Otra manera de obtener información es por

medio de extensas conversaciones con los respondientes. El método de caso más aplicable a la investigación es la entrevista oral controlada en la que el investigador después de una entrevista muy extensa escribe un resumen en el que pone énfasis en algunas afirmaciones o conductas que indican ciertas actitudes, por ejemplo. Si el investigador sigue un esqueleto de temario, puede clasificar las reacciones del respondiente en todos lo temas o preguntas del esqueleto y así, puede someterse la información a análisis estadísticos; de otra manera no se podría.

4.1.1.3.Preguntas Dicotómicas.- Estas preguntas son aquellas que piden que se responda

con SI o NO, de acuerdo o desacuerdo, cierto o falso, correcto o incorrecto, bueno o malo, etc. La ventaja principal de las preguntas dicotómicas es su simplicidad, toma poco tiempo el hacerlas y proporcionan respuestas muy claras que son fácilmente registradas y tabuladas. Estas preguntas son muy útiles y son más familiares para el público en general, si por ejemplo, la opinión que se está investigando ha cristalizado de tal manera que el tópico se puede reducir a una proposición específica. Una limitación de las preguntas dicotómicas surge del hecho de que una ligera malinterpretación de la pregunta, cambia totalmente el sentido de la respuesta. Otra limitación se refiere al hecho de que se está "forzando" arbitrariamente la respuesta a una de la opciones, y en ocasiones esta situación no es un adecuado reflejo de las circunstancias reales. Sin embargo, las preguntas de respuesta dicotómica son especialmente adecuadas y convenientes para determinar posesión de conocimiento o información correcta.

4.1.1.4 Listas de Chequeo.- En cierto sentido, las listas de chequeo son preguntas de

opción múltiple, sin embargo presentamos a éstas por separado. Este tipo de preguntas es el que se usa más comúnmente y consiste en la presentación del problema o pregunta, seguida por una lista de tres o quince posibles respuestas de entre las cuales se le pide al respondiente que escoja una, o varias, específicamente indicadas.

Como regla, este tipo de preguntas surgen después de un piloteo previo que puede servir

para determinar que tipo de respuestas se pueden esperar. Sólo por medio de un piloteo previo puede el investigador asegurar que la mayoría de las respuestas no van a caer en la categoría de "otros" que generalmente acompaña a una lista limitada. La ventaja de las listas de chequeo es que sirve como recordatorio para aquellos respondientes que de otra manera se hubieran abstenido de dar una cierta respuesta simplemente por que no pensaron en ella en ese momento. Por otro lado, la lista de chequeo puede sugerir respuestas que el respondiente escoge por alguna extraña razón, como puede ser que es la primera o la última de la lista, o por que cree que es la respuesta "adecuada". Si la lista de chequeo se presenta en forma oral, se recomienda que no tenga más de cinco opciones y de preferencia que sean menos, para que el que escucha pueda retenerla en la mente mientras escoge su respuesta. Si la lista es muy larga, o si cada reactivo es muy complicado, es mejor presentar la lista de opciones en una tarjeta que se le da al respondiente para que él mismo la lea.

4.1.1.5 Ordenación de Reactivos.- En el formato se ordenación de reactivos se le pide al

respondiente o informante que ordene una lista de afirmaciones, palabras, frases, dibujos u otras cosas, en orden de su preferencia, dando el número 1 al que prefiere más, el 2 al siguiente y así sucesivamente, hasta agotar la lista. Una de las limitaciones de esta técnica es el hecho de que no se hace ninguna suposición respecto al tamaño de los intervalos de los diferentes números empleados para ordenar los elementos de la lista. Otra limitación es el número relativamente

Page 34: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

pequeño de elementos que se pueden incluir en la lista, ya que si este fuera muy larga, el respondiente se vuelve más descuidado en la medida en que se acerca al final de su ordenación. Aunque se ha sugerido que una lista de tres elementos es la que da mejores resultados, el número óptimo varía de acuerdo al tema en cuestión.

La calificación de este tipo de reactivos puede hacerse de varias maneras: un procedimiento

común es tomar la respuesta marcada con el número 1 y asignarle el valor escalar del elemento escogido (véase tema V). Otro procedimiento consiste en tomar en cuenta el grado en el que las respuestas se desvían en forma significativa de un patrón de respuesta aleatorio.

4.1.1.6 Reactivos de Opción Múltiple.- Los reactivos de opción múltiple se presentan de tal

manera que el respondiente tiene que escoger entre la varias posibles respuestas, aquella que mejor represente su opinión, creencia, o lo que sea. Este tipo de preguntas es particularmente útil cuando el tema en cuestión no puede quedar bien representado por una pregunta dicotómica. En este formato, se da la oportunidad de expresión o manifestación de todos los grados de opinión, actitud o rasgo. La dificultad estriba en elaborar preguntas que representen el rango completo del tema en cuestión. Es importante que la lista de alternativas o categorías de respuesta debe ser lo suficientemente completa para cubrir todas las posibles respuestas sobre el tema o variable. Si la lista está incompleta, existe el peligro de que el respondiente lea en alguna alternativa algo que sin estar allí él considera que representa su opinión, o actitud, etc., y conteste de acuerdo, produciéndose así una respuesta que en realidad es falsa. Es difícil frasear afirmaciones que sean mutuamente excluyentes de tal manera que el respondiente no se sienta indeciso entre dos opciones igualmente deseables o indeseables. Es difícil también que el respondiente promedio mantenga en mente a todas las opciones, aún cuando se entiendan y se recuerdan las alternativas. Los reactivos de opción múltiple pueden aún arrojar resultados distorsionados debido a la conocida tendencia del ser humano de escoger el punto de vista intermedio, neutral, tibio, y dar así mucho peso a las categorías intermedias de la escala.

Las preguntas de opción múltiple pueden adoptar diferentes formas. Las más populares son

las escalas de clasificación o intensidad, que pueden emplear tres, cuatro o cinco opciones de respuesta.

a) Escalas de Clasificación de Tres Puntos. En estos casos se presenta una afirmación y tres

opciones de respuesta. Entre las palabras más usadas en las escalas de tres puntos se tiene:

Mayor Difícil

Superior Sí

Encima del promedio Mayoría

Excepcionalmente bueno Acuerdo

Más que la mayoría de la gente

Igual Igual Igual

Depende Promedio Muchos

Promedio Intermedio

Como toda la gente

Menor Fácil

Inferior No

Abajo del promedio Pocos

Muy pobre Desacuerdo

Menos que la mayoría de la gente

Las palabras particulares que se emplean para expresar los diferentes grados, dependen del fraseo de la pregunta, del tema o variable, o del juicio del que construye el instrumento. Una práctica muy común es colocar las opciones "neutral", "indeciso", "sin opinión", "intermedio", en el centro de la escala, y los más extremos a los lados.

Como ya se señaló anteriormente, la posición intermedia debe emplearse con cautela. Si no

existe una definición o cristalización sobre un tema, o si las persona no han pensado respecto al

Page 35: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

tema o tópico, se tiende a escoger como respuesta a la alternativa intermedia. En estos casos, y de preferencia cuando son más de tres opciones de respuesta, se recomienda eliminar la opción intermedia y dejar únicamente las extremas.

b) Escalas de Clasificación de Cuatro Puntos.- Estas escalas se construye de la misma

manera que las de tres opciones, pero se proporciona la posibilidad de elegir entre cuatro puntos o grados de opinión. Algunos de los términos, entre los muchos que se pueden emplear son:

Muchos

Excelente Siempre

Algunos Bueno

A veces

Pocos Regular

Casi nunca

Ninguno Malo

Nunca c) Escalas de Clasificación de Cinco Puntos.- Las escalas de cinco puntos han sido

empleadas muy frecuentemente en la medición de actitudes. A continuación se presentan algunas de las palabras o frases que indican diversos grados de opinión o sentimiento. La elección, en una instancia específica, depende de la afirmación o variable involucrada.

Totalmente de acuerdo Definitivamente cierto

Muy alto Posiblemente muchos

Todos A favor en todos los

aspectos

De acuerdo Probablemente cierto Arriba del promedio

Aproximadamente todos La mayoría

A favor en la mayoría de los aspectos

Indeciso Dudoso

Promedio La mitad Algunos Neutral

En desacuerdo Probablemente falso Debajo del promedio

Pocos Pocos

A favor en pocos aspectos

Totalmente en desacuerdo Definitivamente falso

Muy bajo Prácticamente ninguno

Nadie En contra de todos los

aspectos

d) Escalas Gráficas de Clasificación.- La intensidad de una respuesta también se puede

indicar sobre una línea, en la que se han definido los dos extremos y el centro. Por ejemplo: Definitivamente Neutro Definitivamente apruebo + 10 desapruebo - 10 En este caso se le pide al respondiente que marque sobre la línea, el lugar que mejor

represente su posición frente a la pregunta que se le está planteando. Los puntajes se determinan midiendo la distancia del centro hacia cualquiera de los extremos, con el signo adecuado o correspondiente al lado donde se encuentra la respuesta.

4.1.2 Fraseo de las Preguntas o Reactivos Se debe dar considerable atención al fraseo de las preguntas o reactivos para asegurar la

obtención de información confiable y significativa. Aunque se deben tomar ciertas precauciones en el fraseo de preguntas que se refieren a los datos factuales, se requiere de más cuidado aún en la elaboración de las preguntas de las variables, temas o tópicos de interés para el investigador. Entre los muchos aspectos que han sido estudiados por los expertos, se encuentra el hecho de que ciertas palabras tienden a colorear las respuestas, las condiciones bajo las cuales las respuestas se ven más afectadas por la connotación de las palabras, y las formas de las preguntas que son más efectivas para obtener respuestas verdaderas. A continuación se presenta una serie de sugerencias que se recomienda se tomen en cuenta para el fraseo de las preguntas o reactivos.

S u g e r e n c i a s 1. Usar palabras sencillas, que sean conocidas por todos los respondientes potenciales. 2. Hacer la pregunta lo más concisa posible, no teniendo más de 20 palabras. 3. Formular la pregunta de manera que produzca únicamente la información deseada;

Page 36: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

4. Evitar cualquier pregunta o reactivo no relacionado con la variable. 5. Evitar preguntas ambiguas o que puedan ser interpretadas de diferentes maneras. 6. Evitar preguntas que sugieren la respuesta. 7. Cada reactivo o pregunta debe tener sólo una idea; oraciones simples. 8. Las sintaxis debe ser sencilla y clara: sujeto, verbo y complemento. 9. No se usen nombres de personas prestigiosas (favorable o desfavorable) en el cuerpo de la pregunta o reactivo. 11. Evitar palabras "peligrosas", pegajosas, estereotipos o palabras con connotación emocional. 12. Decidir si se va a emplear o incluir preguntas o reactivos indirectos. 13. Tener cuidado de no emplear frases que puedan afectar el prestigio del respondiente. 14. Decidir si se va a personalizar algunos de los reactivos o preguntas, o si se redactarán en tercera persona o en forma impersonal. 15. Permitir que se den todas las posibles respuestas, principalmente en las preguntas o reactivos de opción múltiple. 16. Las alternativas de las preguntas de opción múltiple deben ser realistas. 17. Evitar hacer preguntas referidas al pasado, pues los respondientes pueden haber olvidado o substituido la información. 18. Procurar no hacer preguntas de hecho a menos que sean de las factuales tipo censo, o esté averiguando nivel o grado de conocimiento sobre el tema o variable de interés. 19. Emplear con cuidado o casi nunca palabras universales como "siempre" "ninguno", "nunca" (sólo para definir los extremos de continuos) o aquellas como "sólo", "apenas", "casi", "a veces", por que introducen ambigüedad ya que significan diferentes cosas para diferentes personas. 20. Evitar usar dobles negativos, también producen ambigüedad. 21. No usar reactivos, que sean contestados por todos o que no sean contestados por nadie. 22. Procurar cubrir el dominio o dimensión de la variable en todo el rango definido por la misma. 23. Tratar de mantener a un mínimo la cantidad de escritura que se requiere por parte de respondiente, pidiendo tan sólo que: escriba Si o No; escriba un número, o una letra; ponga una cruz (X); subraye la respuesta que desee; circule la respuesta escogida, etc. 24. Decidir si se va a incluir algunas preguntas de chequeo, de la consistencia de las respuestas. Es decir, si va a hacer la misma pregunta fraseada de diferente manera y localizada en diferente parte del instrumento. Esto se recomienda cuando el instrumento es corto, difícilmente cuando es muy largo. 25. Evitar hacer preguntas que requieren respuestas referidas a valores o normas socialmente aceptados o deseables. 26. Evitar preguntas aparentemente irracionales, y si es necesario emplearlas, dar una pequeña explicación que justifique a la pregunta. 4.1.3 Secuencia de las Preguntas Las preguntas deben presentarse en forma lógica, si se desea evitar confusión y malas

interpretaciones. Los reactivos deberán agruparse de tal manera que de unos se pueda pasar a otros sin sobresalto ni brusquedad, sobre todo en los instrumentos multidimensionales o heterogéneos. Es decir, las transiciones deben ser suaves y lógicas.

Si se emplean preguntas generales y específicas, las primeras deberán preceder a las

segundas. Las preguntas iniciales deberán ser interesantes y motivantes para el que responde. Si se logra interesar al sujeto, es más probable que no se niegue a colaborar. Estas preguntas iniciales deberán ser respondidas con facilidad. Las preguntas que pueden avergonzar o molestar al

Page 37: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

respondiente deben colocarse en la parte intermedia del instrumento: ya existe suficiente confianza y aún no se ha cansado de responder.

4.2 Número de Reactivos y de Sujetos No se puede saber de antemano la cantidad de reactivos que deberán construirse cuando se

elabora un nuevo instrumento; esto se sabe realmente después de haberlos construido y sometido a un análisis de reactivos. Si el estándar es obtener una prueba con un coeficiente de consistencia interna de 0.80, el análisis de reactivos puede mostrar que la confiabilidad deseada se alcanza con un mínimo de 20 o un máximo de 80 reactivos. Sin embargo existen, algunas regla informales que pueden guiar la construcción de reactivos. Se ha visto que se requieren entre 20 y 30 reactivos dicotómicos para obtener una confiabilidad de consistencia interna de 0.80. También se ha visto que con tan pocos, como 15 reactivos, pero de siete opciones de respuesta, se puede alcanzar una confiabilidad de 0.80. Si se sabe que los reactivos que miden una X variable tienden a tener una consistencia interna alta, el investigador inicia la construcción de su instrumento con por lo menos el doble del número de los reactivos que desea que tenga la prueba final. Es decir, si el instrumento final debería tener 30 reactivos, se inicia su construcción con 60.

Si se sabe poco acerca de los reactivos de una clase particular, es mejor prevenir que

lamentar, e iniciar el trabajo con un número mucho más alto de reactivos, digamos unos 100. Debe recordarse que muchos de estos reactivos quedarán "descalificados" por el análisis de reactivos que se lleve a cabo.

Otra estrategia para decidir la cantidad de reactivos que se deben elaborar consiste en

construir un número de reactivos menor al que se necesita; por ejemplo, construir 30 reactivos cuando se supone que ésta es la cantidad que se necesitará para obtener un coeficiente de consistencia interna de 0.80; se aplican a una muestra relativamente pequeña de sujetos (100 por ejemplo) y se someten a análisis de reactivos. Si la serie total (los 30) o un subconjunto relativamente más homogéneo (digamos 15), obtienen un coeficiente de por lo menos 0.50 significa que vale la pena construir más reactivos, aplicarlos a una muestra más grande, y por último, someterlos a un análisis de reactivos completo.

Después de haber construido los reactivos deben aplicarse a una muestra de sujetos. Esta

deberá ser razonablemente representativa de los tipos de sujetos que serán estudiados con el instrumento definitivo (procedimiento de escalamiento de personas: ver capítulo VII). En algunos casos, los sujetos empleados en la construcción del instrumento no requieren ser representativos de la población donde aplicará, sino que requieren ser sujetos expertos en el tema o variable, por que van a fungir como jueces, siguiendo instrucciones muy precisas del procedimiento de enjuiciamiento que se requiere de ellos (procedimientos de escalamiento de reactivos: ver siguiente capítulo, V).

No es posible predecir con exactitud cuántos sujetos deben usarse para hacer un análisis de

reactivos. Una regla general es que sean por lo menos diez sujetos por reactivo. En algunos casos, cuando hay más de 70 reactivos, esta regla es poco práctica, y entonces se sugiere que sean por lo menos 5 sujetos por reactivo. Es decir, si se tienen 40 reactivos, la muestra deberá tener una N = 200; si son 85 reactivos, la N = 425.

Al recoger los datos para hacer el análisis de reactivos, éstos deberán administrarse en

condiciones muy semejantes a aquellas en las que eventualmente se empleará o aplicará la prueba o instrumento; de lo contrario, no sirve.

4.3 Análisis de Reactivos

Page 38: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

El primer paso estadístico que se lleva a cabo al inicio de la construcción de un instrumento

es el análisis de reactivos. Existen diferentes procedimientos para realizar un análisis de reactivos, y se ha visto que existe concordancia entre los resultados obtenidos por los diferentes métodos. De cualquier forma, se procederá a presentar tres procedimientos generales.

4.3.1 Método Correlacional a) Reactivos - Calificación Total. El primer paso en el análisis de reactivos es correlacionar a cada reactivo con las

calificaciones totales. Si los reactivos son de opción múltiple, el coeficiente de correlación producto momento de Pearson es el adecuado. Si los reactivos son dicotómicos, el coeficiente de correlación biseral -puntual es el correcto. Los coeficientes obtenidos se ordenan del más alto al más bajo, y se especifica cuáles de ellos tienen correlaciones significativas con por lo menos p = 0.05. El siguiente paso es escoger aquellos reactivos que tengan correlaciones iguales o mayores a 0.20, y con éstos iniciar una prueba de consistencia interna, para ver si cumplen con la confiabilidad establecida como deseable (r = 0.80 o más).

b) Si los reactivos que se han elaborado son de dos opciones, la prueba de consistencia

interna deberá calcularse con el coeficiente Kuder-Richardson 20. Si los reactivos son de opción múltiple (tres o más opciones) el coeficiente adecuado para determinar su consistencia interna será el Alfa de Cronbach (estos coeficientes se presentan en el Capítulo VI, más adelante).

Si el conjunto de reactivos alcanza el nivel de confiabilidad deseado (r = 0.80 como mínimo),

el análisis de reactivos se da por terminado. Si este no es el caso, se agregan los siguientes cinco o diez reactivos de la lista ordenada al final. Y se repite el procedimiento anterior. Si ya se alcanzó el nivel deseado, se da por terminado el análisis. Si no, se agregan más reactivos (siempre y cuando tengan r = 0.20 y p= 0.05) y se determina la consistencia interna; y así sucesivamente, hasta alcanzar la meta deseada.

Antes de continuar, se debe recordar que si el número de reactivos es muy pequeño, y la

muestra de sujetos también lo es, es probable que las correlaciones item-calificación total obtenidas inicialmente (ya sea por medio del coeficiente PM o por el biserial-puntual), pueden estar adoleciendo de un artefacto estadístico. Este artefacto se debe al hecho de que cuando se correlaciona un reactivo con la calificación total, de hecho también se está correlacionando consigo mismo, puesto que forma parte de la calificación total. Esto significa, que estas correlaciones iniciales son espurias o mayores de lo que realmente son. Cuando estas son las circunstancias, esas correlaciones iniciales habrán de corregirse, antes de establecer su nivel de significancia, por medio de la siguiente fórmula:

r1(y-1) = ry1 sy - s1 (4.1) ___________ s1

2 + sy2 - 2s1syry1

dónde: r1 = correlación del reactivo 1 con las calificaciones totales y sy = desviación estándar de calificaciones totales s1 = desviación estándar del reactivo 1

Page 39: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

r1(y-1) = correlación del reactivo 1 con la suma de calificaciones de todos los reactivos, excluyendo al reactivo 1. Aunque el artefacto puede ser grande cuando el número de reactivos es pequeño, con el

número de reactivos involucrados en la mayoría de los análisis (80), el artefacto resulta bastante pequeño, de manera que sólo se habrán de corregir las correlaciones reactivo-calificación total, cuando se tengan pocos reactivos (30 ó menos). Este problema queda resuelto si se tienen un mínimo de cinco sujetos por reactivo, ó idealmente, diez sujetos por reactivo.

Por otro lado, si todas correlaciones reactivo-calificación total son positivas, como siempre

sucede, la única hipótesis pertinente sería que todos los reactivos correlacionan realmente en forma positiva en la población de personas que está siendo muestreada. Cuando más del 90% de las correlaciones reactivo- calificación total son positivas como también casi siempre sucede, se es conservador al rechazar aquellos reactivos cuyas correlaciones con la calificación total no alcanza el nivel de significancia estadística de 0.05 ¿Qué sucede si habiendo empleado la "crema y nata" de los reactivos (los que tuvieron las correlaciones reactivo-calificación total más alta y que fueran estadísticamente significativas con una p=0.05) no se alcanzó la confiabilidad preestablecida como deseable (r = 0.80)? Pueden existir tres razones por las cuales sea difícil o imposible lograr una prueba o instrumento homogéneo. La primera es que los reactivos provengan de un dominio donde las correlaciones entre los reactivos sean uniformemente bajas, y que sólo se lograría tener una prueba confiable, con un gran número de reactivos.

La segunda razón, es que el conjunto de reactivos sea factorialmente compleja, en cuyo caso

existen conglomerados de reactivos que tienen correlaciones relativamente altas entre ellos, pero muy bajas con los miembros de otros conglomerados.

La tercera razón se debe a que algunos reactivos tienen correlaciones relativamente altas

unos con otros, y que otros reactivos tienen correlaciones cercanas a cero con todos los reactivos. Esta condición se puede detectar cuando se observan los valores de las correlaciones de los reactivos, ordenados de mayor a menor. De repente, la magnitud de una correlación de un reactivo disminuye bruscamente respecto al reactivo anterior.

La tercera razón es fácilmente detectable, como se señala en el párrafo anterior. Las dos

primeras, no lo son tanto. De hecho, se recomienda que si no se debe a la tercera causa el hecho de no alcanzar la confiabilidad deseada, se suponga que son algunas de las dos primeras. De ser así, se recomienda que se proceda a la construcción del instrumento por medio de un análisis factorial (véase capítulo VII, más adelante).

Page 40: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

4.3.2 Grupos Contrastados a) Comparación con la Prueba t.- Otro procedimiento de análisis de reactivos consiste en

averiguar si los reactivos discriminan, individualmente entre aquellos sujetos que obtienen calificaciones totales altas y los que obtienen calificaciones totales bajas. En virtud de lo anterior es que se conoce al procedimiento de análisis de reactivos como discriminación entre grupos contrastados.

En este caso, el primer paso consiste en obtener una calificación total para todos los sujetos,

y ordenarlos de puntajes más altos a puntajes más bajos. A continuación se toma el 25% superior e inferior de los sujetos y se forman los grupos de contrastación: grupo alto y grupo bajo.

Cuando los reactivos son de opción múltiple (tres o más opciones) y éstas han sido pesadas

(arbitrariamente o empíricamente), de manera que el puntaje más alto corresponde a la opción que indica una mayor posesión del atributo que se está midiendo (ej. más conocimiento, más favorabilidad hacia "x" objeto psicológico, más tradicionalismo, etc.) y el puntaje más bajo corresponde a aquella opción que indica una menor posesión del atributo en cuestión (conocimiento, actitud, tradicionalismo, etc.) se procede a efectuar una prueba "t" para cada uno de los reactivos, comparando al grupo alto con grupo bajo. (El procedimiento completo se presentará en el capítulo VI del presente texto más adelante).

Una vez calculadas la t para todos y cada uno de los reactivos, se ordenan de mayor a

menor, y se determina el nivel de significancia para cada una. Al igual que en el primer procedimiento de análisis de reactivos visto (sección 4.3.1), se eliminan aquellos reactivos que obtuvieron t que no alcanzaron un nivel de significancia de por lo menos p = 0.05. A continuación, se escogen los primeros 30 reactivos, con las t más altas, y se procede a determinar su consistencia interna, con una alfa de Cronbach. Si éstos alcanzan la confiabilidad deseada (r = 0.80 o más), termina el análisis; si no, se procede a agregar los 10 ó 5 reactivos siguientes (dependiendo del nivel de confiabilidad alcanzado: si muy bajo, se agregan 10; si es cercano a 0.80, se agregan 5, y así sucesivamente, hasta alcanzar el nivel de confiabilidad deseado.

b) Comparación con Chi Cuadrada. - En la sección anterior se empleó una prueba t para

comparar a los grupos contrastados. Esta prueba compara medias de las respuestas de cada reactivo entre dos grupos: el alto y el bajo. La hipótesis implícita señala que el grupo alto responderá en promedio con un puntaje más alto en cada reactivo, que el grupo bajo, quien responderá en promedio con puntajes más bajos. Se están comparando medias de respuesta de cada reactivo.

Si el investigador desea comparar distribuciones de frecuencias de respuestas, puede

emplear la prueba de Chi Cuadrada en forma semejante a la anterior. Es decir, después de haber calificado a todos los sujetos y obtenido sus calificaciones totales, se ordenan de mayor a menor, y se sacan los dos grupos extremos: grupo alto (25%) y grupo bajo (25%). Pero ahora, en vez de comparar medias, se procede a comparar distribuciones de frecuencia con la prueba Chi Cuadrada para 2 muestras independientes. El procedimiento se lleva a cabo para todos y cada uno de los reactivos.

Page 41: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Reactivo 1. La mujer debe llegar virgen al matrimonio

ALTO BAJO *Frecuencia de sujetos que contestan en cada opción y en cada grupo: alto y

bajo Frecuencia Frecuencia

TA = 3 35 10 45 A = 2 10 10 20

TD = 1 5 30 35 50 50 100

La fórmula de la Chi Cuadrada es la siguiente: x = ΣΣ (O - E)2 ______ con gl = (r-1)(k-1) E dónde: O = frecuencia observada E = frecuencia esperada Para una explicación más detallada de este procedimiento, se puede consultar a Siegel

(1976). De esta manera, se ordenan los reactivos de acuerdo al tamaño de Chi Cuadrada, de mayor

a menor. Se desechan aquellos que obtienen valores p asociados mayores a 0.05. En este caso, se debe reunir un criterio más: la distribución de las frecuencias deben estar "encontrados". Es decir, las frecuencias más altas deben estar en los extremos; en el extremo superior para el grupo alto, y en el extremo inferior para el grupo bajo, así como se presentan en el ejemplo anterior.

De aquí en adelante, se procede de la misma manera. Se escogen los primeros reactivos que

tienen altos valores de Chi Cuadrada, niveles de significancia iguales o menores a 0.05 y distribuciones de frecuencias "encontradas" o "cruzadas", y se les efectúa la prueba de consistencia interna correspondiente. Si no se alcanza la confiabilidad deseada (r = 0.80), se agregan otros reactivos, se vuelve a calcular la consistencia interna, y así sucesivamente hasta alcanzar el valor de r = 0.80.

4.3.3 Formas de la Distribución a) Distribución Normal de Reactivos Individuales.- En este caso, se solicita un

FRECUENCIES para cada reactivo, y se procede a observar en valores de SKEWNESS y el de KURTOSIS. Se recomienda que ambos valores sean lo más cercano a 0.0 que se pueda. Desgraciadamente no se cuenta con un criterio estadístico externo que señale qué tanto se pueden alejar en valores de Skewness y Kurtosis del 0.0 sin perder la normalidad la distribución. Debido a esto, lo que se hace por lo general, es observar estos dos valores (Skewness y Kurtosis ) en todos los reactivos, y eliminar aquellos que se disparan. Es decir, en términos generales, estos valores son bastante homogéneos para un conjunto dado de reactivos, y así, cualquier reactivo que se aleje de los valores más o menos semejantes de la mayoría de los reactivos, quedarían eliminados.

b) Otro criterio que se puede emplear para asegurar la normalidad de la distribución de las

respuestas a los reactivos individuales, es el considerar en el FRECUENCIES también, que ningún reactivo tenga 50% ó más de las respuestas en una sola opción de respuesta. Este criterio puede tomarse aisladamente, o en conjunción con el antes mencionado (valores cercanos a 0.0 en Skewness y Kurtosis).

Page 42: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

En ambos casos, se está tratando de tener reactivos que tengan una distribución normal, vistos individualmente.

4.4 Instrucciones, Calificación, y Opciones de Respuesta en Relación con el Nivel de

Medición 4.4.1 Nivel de Medición de los Reactivos Individuales.- Algunos científicos sociales, como

los sociólogos por ejemplo, emplean a un sólo reactivo o indicador, como índice de algún atributo. En este caso es pertinente conocer el nivel de medición que se está obteniendo al hacer uso de este procedimiento; es entonces pertinente señalar los niveles de medición de los diferentes tipos de reactivos existentes.

a) Preguntas abiertas: en este caso el nivel de medición depende del análisis de contenido

que se emplee para las respuestas que la pregunta arroja. Por lo general, las respuestas que se dan a las preguntas abiertas, no son sencillas, ni cortas, ni únicas; sino que constituyen ideas complejas, varias y muy amplias. Esto significa que de entrada, no se obtiene una respuesta única sino varias, y por lo tanto, la forma de análisis que escoja el investigador será la que determine el nivel de medición.

Si el investigador decide escoger únicamente la primera idea completa que presente la

respuesta, puede considerarse que la medición es nominal, si éstas respuestas conforman categorías descritas y excluyentes de análisis. Si esta única idea completa es juzgada como representando algún grado de atributo, se está midiendo en el nivel ordinal.

Si el investigador decide analizar todas las ideas completas que la pregunta abierta produce

(circunstancia más frecuente), seguirá midiendo a nivel nominal si emplea categorías discretas de respuesta. Si decide colocar a lo largo de un continuo una categoría (de acuerdo a la frecuencia de apariciones de la tal categoría para el sujeto i), ya está midiendo a nivel ordinal. También está midiendo a nivel ordinal si la suma de la frecuencia de respuesta en una categoría de respuesta se ha definido como indicando una mayor cantidad de atributo. Es decir, si se coloca al sujeto i a lo largo de un continuo de menos a más de un atributo en función de la frecuencia de respuesta por categoría, se le está ordenando y por lo tanto se está midiendo a nivel ordinal. La misma lógica se aplica a los reactivos de tipo Método de Caso o Historias Libres.

b) Preguntas dicotómicas: en este caso, las respuestas son del nivel nominal. c) Listas de chequeo, ordenación de reactivos, de opción múltiple, y escalas de clasificación (de cualquier número de opciones mayor que dos) están midiendo a nivel ordinal. d) Escalas gráficas de clasificación: al tener un origen o punto cero, arbitrariamente establecido (al centro o en alguno de los extremos) y al registrarse distancias, está midiendo a nivel intervalar. 4.4.2 Nivel de Medición del Conjunto de Reactivos Por lo general, los cientistas sociales emplean índices o instrumentos constituidos por varios

reactivos, de manera tal que se logre medir el atributo en cuestión de manera confiable y válida. a) El sistema de calificación que usualmente se emplea al inicio de la elaboración de los

instrumentos es tal, que se califica con un peso o número mayor a la opción de respuesta que indica que el sujeto tiene más del atributo: más conocimiento; más favorabilidad en su actitud; más

Page 43: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

tolerancia; más tradicionalismo; etc. Es decir, el pesaje inicial, arbitrario de las opciones de respuesta es tal, que se concede mayor puntaje o peso, a la opción que indica una mayor posesión del atributo que se está pretendiendo medir.

b) Nivel Ordinal.- Tomando en cuenta lo señalado anteriormente (a), y considerando que por

lo general se suma a lo largo del conjunto de reactivos, sean estos dicotómicos, listas de chequeo, ordenación de reactivos, de opción múltiple, o escalas de clasificación, se mide a nivel ordinal ya que se postula: a mayor puntaje, mayor posesión, del atributo, en todos los casos; especialmente en escalamiento de personas.

c) Nivel Intervalar.- Este nivel se alcanza con aquellos procedimientos o modelos de medición

referidos al escalamiento de estímulos, como en el modelo de pares comparados o el de intervalos aparentemente iguales. Es decir, en aquellos casos en los que un conjunto de jueces o expertos, juzgan a los reactivos a lo largo de un continuo que posee un origen o cero arbitrariamente establecido, se está midiendo a nivel intervalar.

Se mide a nivel intervalar también cuando los puntajes crudos obtenidos por medio de un

instrumento se transforman a puntajes estandarizados: z, stens y stanines. El procedimiento más conocido de los anteriores mencionados es el de transformar a

puntajes z. La fórmula que se emplea es la siguiente: z = X -X dónde: s X = puntaje crudo obtenido por el Sujeto X = promedio de los puntajes del grupo s = desviación estándar de los puntajes del grupo En el caso de tener un conjunto relativamente grande de reactivos (20 ó 30), de dos o más

opciones de respuesta, que permitan la aparición de un amplio rango de calificaciones posibles (teóricamente) y de que se tenga una muestra relativamente grande (N = 100 o más) de sujetos, la distribución de calificaciones que se obtiene se aproxima bastante a una curva normal. Si esto es así, se puede considerar que el instrumento está midiendo o nivel intervalar, y tratarlo estadísticamente como tal. Se debe recordar que se mencionó con antelación, que la elaboración de instrumentos es un caso de muestras grandes (tanto de reactivos como de sujetos), con objeto de probalizar hasta el máximo, que los supuestos de los diversos modelos de medición que existen, se cumplan.

Debe señalarse también, que los supuestos generales que subyacen a la construcción de un

instrumento, cuando no se han especificado explícitamente, son, en general, los siguientes: a) Modelo lineal. Se suman los efectos de los reactivos individuales. b) Modelo dominio- muestra. Los reactivos son internamente consistentes y son una muestra representativa del dominio. c) Modelo de la Teoría del error. Los errores de medición son aleatorios y por lo tanto se anulan unos a otros.

Page 44: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

4.4.3. Instrucciones Las instrucciones que se den a los sujetos que habrán de responder a las preguntas o

reactivos del instrumento que se construya deben ser muy sencillas y claras. De preferencia deberán de ir seguidas de uno o varios ejemplos, que permitan asegurarse que fueron comprendidas correctamente.

Por lo general, las instrucciones dicen algo así: "Lea cuidadosamente cada pregunta y escoja

una (sólo una) de las opciones de respuesta que aparecen inmediatamente (abajo, a la derecha, etc.) de la pregunta; y márquela con una "X".

"Ordene de acuerdo a su preferencia, las ___________________ que aparecen a

continuación. Ponga el número 1 al que usted más prefiera ( o compre con más frecuencia, o conozca más, ó haya visto anunciado más veces); el número 2 al siguiente; y así sucesivamente hasta agotar todos los _________________ ( o hasta ordenar x número de elementos)".

"Lea cuidadosamente cada pregunta y escoja (dos, tres, etc.) opciones de respuesta de entre

las que aparecen inmediatamente (abajo, a la derecha, etc.) de la pregunta, marcándolas con una "X", con un círculo, con un subrayado, etc.

4.5 Piloteo del Instrumento: Funciones El piloteo del instrumento consiste de dos fases. En la primera fase se aplica el instrumento

inicial a unas 20 ó 30 personas, semejantes a la muestra o población para la que se desea construir el instrumento. Los objetivos de esta primera fase, son los siguientes:

a) asegurar que el vocabulario y la sintaxis son las adecuadas. Es decir, que los sujetos

entienden lo que se les pide que hagan y contesten. b) asegurar la correcta comprensión de las instrucciones; determinar si no se requieren

párrafos introductorios (sobre todo en instrumentos que miden diversos atributos), determinar si la secuencia y la dependencia de las preguntas es correcta ( si contesta X pase a la pregunta ________________).

c) cerrar preguntas abiertas, y determinar si las preguntas cerradas (con opciones) no

presentan muchas respuestas en la opción: otros d) establecer una primera aproximación respecto al tiempo que se llevará la aplicación del

instrumento final. Se recomienda que el instrumento no tome más de 15 a 30 minutos, si es homogéneo, y no más de 1 hora con 30 minutos si es heterogéneo.

e) determinar si se requiere entrenar de manera especial a los aplicadores o si es tan sencillo

que cualquiera lo puede aplicar. f) averiguar si la secuencia de las preguntas (sobre todo en los instrumentos heterogéneos)

es la adecuada. g) detectar reactivos que son respondidos de la misma manera por todos los sujetos, o por

nadie, para así eliminarlos. h) solicitar sugerencias a los sujetos a los que se les aplicó el instrumento. (Ejemplo: ¿Tiene

usted algo más que agregar?)

Page 45: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

i) afinar y corregir el instrumento. Durante la segunda fase, se incrementa la muestra hasta tener el número mínimo de sujetos

recomendando (5 sujetos por cada reactivo) y se tienen dos objetivos fundamentales: a) llevar a cabo el análisis de reactivos ( empleando cualquiera de los procedimientos

señalados en la sección 4.3 o alguna combinación de ellos). b) determinar la confiabilidad y validez del instrumento (véase capítulos VI y VIII).

4.6 Guía de Estudio 1. Señale los objetivos básicos del diseño de un instrumento. 2. Distinga entre reactivos de identificación, factuales y del objeto de estudio. 3. Ejemplique cada uno de los siguientes tipos de preguntas: historia libre, preguntas

dicotómicas, lista de chequeo, ordenación de reactivos, reactivos de opción múltiple. 4. Sugiera algunos criterios para la elaboración o fraseo de las preguntas. 5. Señale la relación que existe entre el número de reactivos y el de Sujetos, en el

proceso de construcción de un instrumento. 6. Indique las funciones que tiene el llevar a cabo el análisis de reactivos. 7. Señale los tres tipos de análisis de reactivos que existen. 8. Señale las funciones de piloteo del instrumento. 4.7 Autoevaluación 4.7.1 Preguntas

1. ¿Cuáles son las funciones de las preguntas de identificación, factuales y del objeto de

estudio en un instrumento de medición? 2. ¿Cuál es la secuencia más adecuada para los diferentes tipos de reactivos, en lo que

se refiere a su generalidad-especificidad; contenido o tópico, dificultad-facilidad? 3. ¿Cuál es el número mínimo e ideal por reactivo? 4. ¿Cuál es el método de análisis de reactivos más adecuado? 5. ¿Cuáles son las funciones principales del piloteo del instrumento? 6. ¿Qué características deben tener las instrucciones para los Sujetos que habrán de

contestar un instrumento? 4.7.2 Respuestas 1. La función de las preguntas de identificación se refiere a asegurar que en caso necesario se pueda pedir al encuestador información adicional sobre el encestado, que se pueda regresar a donde se encuentra el encestado y se le pida ampliación en la información, o dar alguna que haya quedado incompleta, etc.

La función de las preguntas factuales e refiere a caracterizar a la muestra de investigación, por un lado; y por otro, que algunas de las preguntas de este tipo pueden ser utilizadas como terceras variables o factores de prueba, para elaborar el proceso de investigación, con objeto de determinar la existencia de variables extrañas, componentes, antecedentes, interventoras, distorcionadoras y supresoras.

Page 46: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

La función de las preguntas relacionadas con el objeto de estudio se refiere a la posibilidad de poner a prueba alguna hipótesis, si el estudio es confirmatorio; el de averiguar algo sobre el fenómeno, si el estudio es exploratorio; el de describir el comportamiento de algún fenómeno, si el estudio era descriptivo. 2. Las preguntas se deben ordenar en una secuencia que vaya de lo más general a lo particular, de lo fácil a lo difícil, y de lo que no causa molestia o vergüenza a lo que sí lo hace, en el sentido de que es necesario establecer un buen rapport con el encuestado, antes de asegurar respuestas honestas a tópicos escabrosos o probablemente molestos para él. 3. El número mínimo de sujetos por reactivo es de cinco por cada uno; el ideal es de diez por cada reactivo. 4. El método de análisis de reactivos más adecuado depende de la preferencia del investigador, de sus posibilidades en cuanto a uso de programas, tiempo de máquina y costos. Para aquellos que no cuentan con un adecuado equipo de cómputo, programas y dinero, quizá el mas adecuado sea el de la distribución de frecuencias en términos de porcentajes de respuesta por cada opción de respuesta de los reactivos del instrumento. Para aquellos que cuentan con todo lo necesario, quizá lo más pertinente sea emplear alguna combinación de los métodos de análisis. De cualquier manera, el investigador es el que decide, siempre de manera fundamentada. 5. Las funciones del piloteo del instrumento son de dos tipos: depurar el lenguaje, vocabulario, y parafraseo de preguntas, así como eliminar aquellas que no discriminan por un lado, y por el otro: determinar sus características psicométricas en lo que a validez y confiabilidad se refiere. 6. Las instrucciones deben ser claras, precisas: de preferencia deben ir seguidas de ejemplos. Deben requerir el mínimo esfuerzo por parte del Sujeto, para responder al instrumento. Deben ser tantas como sea necesario, con objeto de que el respondiente sepa siempre, qué hacer.

Page 47: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

V. INSTRUMENTOS HOMOGENEOS: ESCALAMIENTO DE REACTIVOS O ESTÍMULOS

En el Capítulo II se señaló que entre los modelos de escalamiento de estímulos o reactivos, se encontraban principalmente los modelos subjetivos y los modelos discriminativos. Veremos a continuación un ejemplo de cada uno de ellos.

5.1 Modelos Discriminativos Los modelos discriminativos están basados en la ley del juicio comparativo. Esta ley se

refiere a un conjunto de ecuaciones que relacionan la proporción de veces que un estímulo dado se juzga como mayor en un atributo dado que otro estímulo, a los valores escalaraes y dispersiones discriminativas de los dos estímulos sobre el continuo psicológico.

Se toma como dado, a un conjunto de estímulos a los que el sujeto puede responder en

forma diferencial respecto a algún atributo. La tarea consiste en localizar a estos estímulos a lo largo de un continuo psicológico en forma tal que se puedan explicar las respuestas dadas por el observador. El continuo psicológico puede considerarse como un continuo de magnitudes subjetivas o psicológicas. Cada magnitud psicológica está mediada por un "proceso discriminativo". Así, cada proceso discriminativo tiene un valor en el continuo psicológico. El proceso discriminativo se define como el proceso por medio del cual el organismo identifica, distingue o reacciona ante los estímulos. Debe hacerse notar que la definición no implica absolutamente nada que tenga que ver con la naturaleza fisiológica o experiencial del proceso.

Cada estímulo, cuando presentado al observador, da origen a un proceso discriminativo.

Debido a fluctuaciones momentáneas del organismo, un estímulo dado no siempre excita el mismo proceso discriminativo, sino que puede excitar uno con un valor más alto o más bajo en el continuo psicológico. Como resultado, en vez de tener un proceso discriminativo único asociado siempre a un estímulo dado, se tiene a un número de procesos discriminativos que pueden estar asociados a él. Si se presenta el estímulo al observador un gran número de veces, se puede pensar en una distribución de frecuencias de los procesos discriminativos sobre el continuo psicológico, asociada a ese estímulo. Se postula que la distribución de frecuencias con las que los procesos discriminativos se asocian a un estímulo dado, forman una distribución normal sobre el continuo psicológico.

El proceso discriminativo más frecuentemente asociado con un estímulo dado se denomina

proceso modal discriminativo. El valor escalar del estímulo sobre el continuo psicológico es tomado como el valor de su proceso modal discriminativo. Como en una distribución normal coinciden el modo, la mediana y la media, el valor escalar del estímulo también puede considerarse como el valor de la media o la mediana del proceso discriminativo asociado al mismo.

La desviación estándar de la distribución asociada con un estímulo dado se denomina

dispersión discriminativa de este estímulo. Las dispersiones discriminativas, así como los valores escalares pueden ser diferentes para los diferentes estímulos.

De esta manera, el modelo postula un continuo psicológico sobre el cual los valores de los

procesos discriminativos asociados a cada estímulo forman una distribución normal. El valor escalar de cada estímulo queda definido como el valor del proceso modal asociado al

mismo. Así, el valor escalar del estímulo 1 es S1; el del estímulo 2 es S2, y así sucesivamente. Cada estímulo también, queda caracterizado por su dispersión discriminativa. Las dispersiones discriminativas de los diferentes estímulos no son necesariamente todas iguales.

Page 48: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

El observador no puede reportar en forma directa el valor del proceso discriminativo sobre el

continuo psicológico. Por lo tanto, no se puede obtener directamente del observador, la distribución de frecuencias asociada a un estímulo. Siempre se deberá escalar a los estímulos en forma indirecta.

Sin embargo, se pueden deducir ecuaciones que relacionan a los juicios de las relaciones

entre los estímulos (que el observador o juez puede hacer) a los valores escalares y dispersiones de los estímulos sobre el continuo psicológico. Se puede entonces acudir a estas ecuaciones para estimar los valores escalares y dispersiones de los estímulos. Por último, se puede poner a prueba el modelo determinando la bondad de ajuste de los datos observados respecto a la teoría. A un conjunto de estas ecuaciones se le conoce con el nombre de ley del juicio comparativo.

Los postulados resumidos de esta ley son: 1. Cada estímulo, cuando se le presenta a un observador o juez, da origen a un proceso

determinado, que tiene algún valor en el continuo psicológico de interés. 2. Debido a fluctuaciones momentáneas del organismo, un estímulo dado no siempre excita

al mismo proceso discriminativo, sino puede excitar uno con un valor más alto o más bajo en el continuo. Cualquier estímulo presentado a un observador o juez un gran número de veces, generará una distribución de frecuencias de procesos discriminativos asociados a ese estímulo. Se postula que los valores del proceso discriminativo son tales que la distribución de frecuencia sobre el continuo es normal. De esta manera, cada estímulo se asocia con una distribución normal del proceso discriminativo.

3. La media y la desviación estándar asociada a un estímulo, se toman como su valor escalar

y dispersión discriminativa, respectivamente. Considérense las distribuciones teóricas de los procesos discriminativos para cualquiera dos

estímulos j y k como se ilustra en la Figura 5.1 Se dijo que Sj y Sk corresponden a los valores escalares de los dos estímulos, y sj y sk a sus dispersiones discriminativas. Si los dos estímulos se presentaran juntos al observador o juez, cada uno excitaría un proceso discriminativo: dj y dk. La diferencia entre los procesos discriminativos (dk y dj) para cualquier presentación única de un par de estímulos se denomina diferencia discriminativa. Si los dos estímulos fueran presentados juntos un gran número de veces, las diferencias discriminativas en sí mismas formarían una distribución normal sobre el continuo psicológico. La media de esta distribución es igual a la diferencia de los valores escalares de los dos estímulos, ya que la diferencia entre medias es igual a la media de las diferencias. De la misma manera, se sabe que la desviación estándar de las diferencias:

sdk-dj = ( sj

2 + sk2 - 2rjksjsk)

1/2 (5.1) dónde rjk es la correlación entre los valores momentáneos de los procesos discriminativos

asociados a los estímulos j y k. Figura 5.1 Distribuciones de los procesos discriminativos asociados con los estímulos j y k

sobre el continuo psicológico Cada vez que los estímulos se presentan a un observador o juez, se le pide que juzgue cual

es más alto o mayor en el continuo psicológico (por ejemplo: cuál es más fuerte, más pesado o más bello). Se asume que el juicio "el estímulo k es mayor que el estímulo j "ocurre cuando el proceso

Page 49: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

discriminativo del estímulo k es mayor que el del estímulo j. Es decir, cuando la diferencia discriminativa (dk - dj) es positiva. Cuando esta diferencia discriminativa es negativa, se obtendrá el juicio "el estímulo j es mayor que el estímulo k". Cuando las dos distribuciones se traslapan, como sucede en la Figura 5.2, es posible que la diferencia discriminativa para cualquier ensayo particular sea negativo aunque el valor escalar Sk es mayor que el Sj. Se puede determinar la proporción de veces que el estímulo k es juzgado mayor que el j a partir de un gran número de juicios.

Figura 5.2 Distribución de las diferencias discriminativas sobre el estímulo psicológico. En la Figura 5.2 se ilustra la distribución de las diferencias discriminativas sobre el continuo

psicológico. La porción sombreada a la derecha del punto cero corresponde a la proporción de veces que (dk - dj) es positiva, y por lo tanto, a la proporción de veces que el estímulo k es juzgado mayor que el estímulo j. La parte no sombreada a la izquierda del cero corresponde a la proporción de veces que (dk - dj) es negativa, o la proporción de veces que el estímulo j es juzgado mayor que el estímulo k. La media de la distribución es igual a la diferencia en los valores escalares de los dos estímulos (Sk - Sj). A partir de la proporción teórica de veces que el estímulo k es juzgado mayor que el estímulo j, se puede determinar la diferencia (Sk - Sj), a partir de una tabla de las áreas bajo la curva normal unitaria. Esta diferencia se llama zjk y se mide en unidades sdk-dj, por lo que se puede escribir la ecuación:

Sk - Sj = zjksdk-dj (5.2) Como se conoce la relación entre la desviación estándar de las diferencias y las dispersiones

discriminativas de los dos estímulos (ecuación 5.1), se puede escribir: Sk -Sj = zjk(sj

2 + sk2 - 2rjksjsk (5.3)

Esta ecuación (5.3) es la forma completa de la ley del juicio comparativo, dónde Sj, Sk = valores escalares de los estímulos j y k. sj, sk= dispersiones discriminativas de los estímulos j y k. rjk = correlación entre los pares de procesos discriminativos dj y dk zjk = desviación normal correspondiente a la proporción teórica de veces que el estímulo k es juzgado mayor que el estímulo j. La ley del juicio comparativo no se puede resolver en su forma completa, puesto que

independientemente del número de estímulos, siempre existirán más valores desconocidos que conocidos. Para poder llegar a un conjunto de ecuaciones manejables, es necesario especificar restricciones adicionales.

La primera se refiere a asumir que las desviaciones estándar son todas iguales. Si en general

sj = sk = s, entonces se tiene, habiendo despejado la fórmula (5.3) en términos de zjk: zjk = Sk - Sj / sj

2 + sk - 2rjksjsk = (Sk - Sj) / 2s2 - 2rjks

2 = (Sk - Sj) / 2s2 ( 1 - rkj) (5.4) La segunda se refiere a suponer que las intercorrelaciones son todas iguales unas a otras y

entonces se puede escribir:

Page 50: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

zjk =(Sj - Sk)/ 2s2 ( 1 - r) (5.5) De acuerdo a las suposiciones hechas hasta ahora 2s2 (1-r) es un valor constante para todos

y cada uno de los pares de afirmaciones que se comparen y por lo tanto, se puede plantear que esa constante sea igual a la unidad, de tal manera que se puede escribir ahora:

zjk = Sk - Sj (5.6) 5.1.1 Método de Pares Comparados (PC) La ley del juicio comparativo supone que cada estímulo ha sido comparado con todos y cada

uno de los demás un gran número de veces. Esta ley requiere que se disponga de datos en la forma de "proporción de veces que cualquier estímulo k es juzgado como mayor que cualquier otro estímulo j". Al método directo para obtener las estimaciones empíricas de estas proporciones se conoce como método de pares comparados.

El método de pares comparados es esencialmente una generalización del caso de dos

categorías del método de los estímulos constantes de la Psicofísica. En el método de los estímulos constantes, cada estímulo se compara con un estándar único. En pares comparados, cada estímulo sirve a su vez como el estándar. Cada estímulo se compara con todos y cada uno de los demás. Por lo tanto, con n estímulos, se tienen n(n-1)/2 pares. Cada par se presenta al observador o sujeto, cuya tarea es indicar cual miembro del par parece ser mayor (más pesado, más brillante, más fuerte, etc.) respecto al atributo que se va a escalar. El sujeto (observador o juez) debe designar a un miembro del par como mayor; no se permiten juicios de igualdad. En la forma común del método de pares comparados, un estímulo no se compara contra sí mismo (o con un estímulo idéntico); se supone que si se obtuvieran estos juicios, se obtendría como resultado proporciones de 0.50.

No existe ninguna previsión explícita referida a los errores de espacio o de tiempo en la ley

del juicio comparativo ni tampoco respecto a cambios en la ejecución debido a los efectos de la fatiga o práctica, o respecto a juicios basados en parte a otros factores que aquellos relativos a las magnitudes de los procesos discriminativos. En consecuencia, es necesario controlar experimentalmente las condiciones que pudieran introducir estos efectos de sesgo. La mayoría de estos factores pueden controlarse por medio de la asignación de las posiciones relativas (espaciales o temporales) de los miembros de cada par de estímulos y el orden de presentación de los mismos pares. Un método adecuado es aleatorizar las posiciones relativas y los órdenes de presentación. Otro método eficiente es el de contrabalanceo (la mitad de las veces, un estímulo dado aparece primero en el par, la otra mitad aparece en segundo lugar). Los efectos de la práctica o la fatiga se controlan invirtiendo el orden de presentación de los pares en la mitad de los sujetos (o ensayos).

Precauciones adicionales podrían ser las siguientes: a) mantener a aquellos pares que tienen

un estímulo en común, lo más separados uno de otro en el orden de presentación; b) arreglar los pares de tal manera que las respuestas "correctas" estén aproximadamente divididas entre el primer y el segundo miembro de los pares; c) arreglar los pares de tal manera que no exista algún patrón sistemático detectable de respuestas "correctas"; d) arreglar los pares para que no exista una variación sistemática en la dificultad del juicio; e) en el caso de varias presentaciones a los mismos sujetos, variar el orden de presentación de un ensayo al siguiente para eliminar el aprendizaje seriado o la aparición de patrones de respuesta.

5.1.1.1 Definición del Atributo o Variable.

Page 51: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Para iniciar la construcción de un instrumento de medición basado en la ley del juicio comparativo por medio del método de pares comparados, se debe recordar que se trata de una variable homogénea o monodimensional. Lo primero que deberá hacerse es definir la variable o atributo, tomando en cuenta las consideraciones señaladas en los dos últimos apartados de la sección I.

5.1.1.2 Elaboración de los Reactivos. El siguiente paso es el de elaborar los reactivos o indicadores de la variable o atributo. En

este caso deberán tomarse en cuenta las recomendaciones señaladas en el primer apartado de la sección IV.

Para este método en particular, se recomienda no emplear más de siete u ocho indicadores,

ya que el procedimiento de enjuiciamiento implica realizar n(n-1)/2 comparaciones o juicios. En la medida en que se incrementa el número de reactivos, el número de comparaciones a realizar incrementa muchísimo, y la calidad de los juicios de los jueces, desmejora, ya sea por fatiga, o por aburrimiento.

5.1.1.3 Selección de los Jueces Los sujetos, observadores o jueces que toman parte en la construcción del instrumento,

pueden ser de dos tipos: expertos, y comunes. Los primeros son individuos reconocidos como expertos en el tema, variable o atributo para el cual se va a construir el instrumento. Los segundos, son individuos que comparten las características más importantes de los miembros de la muestra que será objeto de estudio o a la cual se le va a aplicar el instrumento que se pretende construir.

En el caso de emplear expertos como jueces, será suficiente contar con 20 o 25 de ellos. En

el caso de emplear jueces comunes se recomienda emplear entre 50 y 100. 5.1.1.4 Instrucciones para los Jueces. Una vez ordenados y arreglados los pares de reactivos, tomando en cuenta las

recomendaciones del apartado 5.1.1 de esta misma sección, se les pide a los jueces que marquen subrayando, o con una "X" cual de los miembros de cada par de afirmaciones representa una mayor cantidad del atributo en cuestión (ansiedad, dependencia, por ejemplo) o el más favorable hacia un objeto psicológico (en el caso de estar construyendo una escala de actitud). Se les recuerda que no pueden emitir juicios de igualdad. Se ponen ejemplos referidos a otros atributos, para asegurar que se entiendan las instrucciones.

5.1.2 Procedimientos Empíricos. Habiendo presentado n(n - 1)/2 pares de afirmaciones al grupo de jueces, los datos obtenidos

consisten en las frecuencias correspondientes al número de veces que cada estímulo (o reactivo, afirmación, o indicador) fue juzgado como mayor (o más favorable) que cada uno de los demás estímulos (reactivos, afirmaciones o indicadores).

La Tabla 5.1 ilustra el arreglo esquemático de las frecuencias en el que las entradas de las

celdillas corresponde a la frecuencia con la que cada estímulo (reactivo, afirmación indicador) de la columna fue juzgado como mayor (o más favorable) que el estímulo de la hilera.

Page 52: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

De esta manera, la entrada en la celdilla f13 significa el número de veces que el estímulo 1 fue juzgado como mayor (ó más favorable) que el estímulo 3, y así sucesivamente. El primer subíndice siempre corresponderá al estímulo de la columna, y el segundo, al estímulo de la hilera.

TABLA 5.1. Representación esquemática de la matriz F que proporciona la frecuencia con la que el

estímulo de la columna fue juzgado como mayor o más favorable que el estímulo de la hilera. Estímulos 1 2 3 j k 1 f11 f21 f31 fj1 fk1 2 f12 f22 f32 fj1 fk2 3 f13 f23 f33 fj3 fk3 j f1j f2j f3j fjj fkj k f1k f2k f3k fjk fkk Se permite que N sea el número total de jueces o sujetos que efectúan los juicios. Aunque en

la realidad no se obtienen juicios comparativos de cada estímulo contra sí mismo (elementos de la diagonal de la matriz f11, f22, etc.) se supone, que de haberse llevado a cabo, las entradas en las celdillas serían iguales de N/2. También se debe observar que la entrada (o dato) de la celdilla f13 es igual N - f13; en general, fji = N - fij

Si cada uno de los datos (entradas) de la tabla 5.1 se divide entre N, se obtienen las entradas

pij presentadas en la Tabla 5.2. Los datos en las celdillas de esta tabla señalan la proporción de veces que el estímulo de la columna fue juzgado como mayor (o más favorable) que el estímulo de la hilera. La fórmula general para obtención de las entradas es la siguiente:

1 pij = ----- fij (5.7) N pji = 1 - pij (5.8)

Page 53: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

TABLA 5.2. Representación esquemática de la matriz P mostrando la proporción de veces que los estímulos de la columna fueron juzgados como mayores (o más favorables) que los de la hilera

────────────────────────────── Estímulos 1 2 3 j k ────────────────────────────── 1 p11 p21 p31 pjl pk1 2 p12 p22 p32 pj2 pk2 3 p13 p23 p33 pj3 pk3 j plj p2j p3j pjj pkj k plk p2k p3k pjk pkk ────────────────────────────── Σpij ────────────────────────────── Antes de continuar con el siguiente paso, deberá efectuarse una suma de pij para cada

columna de la matriz p (tabla 5.2), con objeto de asegurarse que los reactivos (o estímulos) están en el orden correcto (el más pequeño o el menos favorable a la izquierda, y el mayor o más favorable a la derecha). Si las sumas de las columnas van de menor a mayor los estímulos están bien ordenados (numerados). En caso de no darse esta situación deberán reordenarse tanto las hileras como las columnas, para obtener la ordenación adecuada.

Una vez que la matriz P haya sido reordenada (casi siempre se tiene que hacer), se procede

a formar los valores pij en valores expresados en unidades de desviación estándar: zij. Esto se logra consultando una Tabla de desviaciones normales Z correspondientes a las proporciones P de una distribución normal unitaria dicotomizada. Se busca en esta tabla, el valor Z que le corresponde a cada pij y se forma una Tabla como la 5.3.

Tabla 5.3. Representación esquemática de la matriz Z mostrando las desviaciones normales

correspondientes a las proporciones mostradas en la Tabla 5.2 ────────────────────────────── Estímulos 1 2 3 j k ________________________________ 1 Z11 Z21 Z31 Zj1 Zk1 2 Z12 Z22 Z32 Zj2 Zk2 3 Z13 Z23 Z33 Zj3 Zk3 j Z1j Z2j Z3j Zjj Zkj ────────────────────────────── Suma ────────────────────────────── Media ────────────────────────────── M + k ──────────────────────────────

Page 54: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Debe hacerse notar, que los valores que aparecen en la columna 1, son iguales que los que aparecen en la hilera 1, pero de signo opuesto. Esto significa, que basta con obtener los valores de las columnas por encima de la diagonal, y automáticamente se obtienen los de las hileras correspondientes debajo de la diagonal, que son los mismos de sus columnas correspondientes, pero con signo opuesto.

En la diagonal de la matriz F (Tabla 5.1), aparecen frecuencias iguales a N/2; en la diagonal

de la matriz P (Tabla 5.2), aparecen proporciones de 0.500; en la diagonal de la matriz Z (Tabla 5.3), aparecen desviaciones normales iguales a 0.000.

El siguiente paso consiste en obtener el continuo psicológico de la variable o atributo en

cuestión. Para hacerlo, se procede de la siguiente manera. En la Tabla 5.3 (Matriz Z), se indica en la antepenúltima hilera de la misma que habrán de sumarse las entradas de cada columna. Se debe tener en cuenta que la suma que se realiza es algebraica puesto que los valores de la matriz tienen en las diferentes celdillas, cantidades positivas y negativas

Posteriormente se sacan las medias de cada columna, dividiendo la suma obtenida entre el

número de estímulos de la columna Por último, con objeto de hacer desaparecer los signos negativos asociados a las medias calculadas, y con el propósito también de establecer un origen o punto cero, a la izquierda del continuo, se suman a todas y cada una de las medias obtenidas, el valor de la media negativa mayor, como una constante (k). De esta manera, la primera afirmación (estímulo o indicador) señala el origen del continuo, el cual termina con el último estímulo o reactivo.

El valor asociado a cada estímulo es su valor escalar; éste estaba inicialmente (antes de

sumar la constante) expresado en unidades de desviación estándar o normal. Por lo tanto una escala obtenida con este método pertenece al nivel intervalar de medición y se le puede, consecuentemente, aplicar las estadísticas apropiadas a este nivel.

Se debe aclarar que en esta sección se presentó el modelo del caso V de datos completos.

Existen otros casos (del I al IV), y condiciones de datos incompletos. Si se desea utilizar algún otro caso, se puede consultar a Edwards (1957) y a Torgerson (1967).

5.1.1.5 Escala Final. Instrucciones de Respuesta y Calificación. De esta manera, el instrumento queda constituido por un conjunto de seis a ocho indicadores,

reactivos o afirmaciones. Cada una de ellas ocupa un lugar a lo largo del continuo psicológico Los valores más pequeños representan menores cantidades de atributo (o actitudes más desfavorables o menos favorables), y los valores más altos representan mayores cantidades de atributo.

Para aplicar el instrumento final a la muestra que se va a estudiar se colocan estas

afirmaciones o reactivos en una hoja de papel; en un orden aleatorio, que no corresponda al de sus valores escalares. Las instrucciones que se le dan a los sujetos de investigación son las siguientes:

"Lea cuidadosamente las siguientes frases, (oraciones o afirmaciones), y escoja de entre

ellas la que mejor lo describa (mejor se aplique a usted; mejor representa su opinión, es más característica de usted; es más común para usted) marcándola con una "X" (subrayándola, etc.). Si no puede decidirse por una sola, escoja dos o tres como máximo. Muchas gracias".

El procedimiento de calificación puede llevarse a cabo de diversas maneras. La primera se

denomina el método de la media. Este método consiste en obtener la media de los valores

Page 55: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

escalares de los reactivos escogidos por los sujetos. Si sólo se escogió un reactivo, el valor escalar que le corresponde es la calificación que obtiene el sujeto.

El segundo se conoce como el método de la mediana. En este caso, si el número de

afirmaciones escogidas por el sujeto fue impar, se ordenan los valores escalares de las afirmaciones y se escoge el valor que divide en dos partes iguales a la distribución de valores escalares. Es decir, la calificación del sujeto es la mediana de la distribución de los valores escalares de las afirmaciones o reactivos escogidos por él. Si el número de afirmaciones fue par, se saca el punto medio de los valores escalares del par de afirmaciones del centro de la distribución. Es decir, al valor escalar mayor de este par central, se le resta el valor escalar menor del otro miembro del par; esta diferencia se divide entre dos y el resultado se agrega al valor escalar menor del par central de afirmaciones, o se resta del valor escalar mayor del par central, de afirmaciones. En cualquier caso, esta es la calificación que obtiene el sujeto.

5.2 Estimaciones Subjetivas El modelo de estimaciones subjetivas está basado en la ley del juicio categórico. Esta ley se

refiere a un conjunto de ecuaciones que relacionan a los parámetros de los estímulos y los límites de las categorías, a un conjunto de proporciones acumuladas derivadas de la proporción de veces que cada estímulo es juzgado como encontrándose en cada categoría de un conjunto de ellas, que se ordenan respecto a un atributo dado. Esta ley, al igual que la del juicio comparativo, se basa en el modelo general de enjuiciamiento de Thurstone, que se vio en la sección 5.1.

Para derivar la ley del juicio categórico, adicionamos y reemplazamos las suposiciones

presentadas en la sección 5.1 con las siguientes: 1. El continuo psicológico del sujeto se puede dividir entre un número específico de pasos o

categorías ordenadas. 2. Debido a varios y diversos factores, el límite de una categoría dada, no necesariamente se

localiza en un punto particular del continuo. Sino que también proyecta una distribución normal de posiciones sobre el continuo. Igualmente, los diferentes límites de las categorías pueden tener diferentes localizaciones medias y diferentes dispersiones.

3. El sujeto juzga a un estímulo dado como encontrándose por debajo de un límite de

categoría dado, siempre que el valor del estímulo sobre el continuo sea menor que el del límite de esa categoría.

Esencialmente lo anterior se refiere a la suposición de que los límites entre las categorías

adyacentes se comportan igual que los estímulos. La ecuación inicial y completa de la ley del juicio categórico es la siguiente: tg - sj = zjg(σ

2j+σ

2g- 2rjgσjσg)

½(5.9) dónde: m + 1 = número de categorías tg=localización media del gavo límite de categoría

Page 56: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

σg = dispersión del gavo límite de categoría rjg = correlación entre posiciones momentáneas del estímulo j y el límite de la categoría g. zgj = unidad de desviación normal que corresponde a la proporción de veces que el estímulo j

es clasificado por debajo del límite de g. Igual que en el caso de la ley del juicio comparativo, esta ley no se puede resolver en su

forma completa, y por lo tanto, es también necesario especificar restricciones adicionales, paralelas a las planteadas en la ley del juicio comparativo. Mencionaremos a estas tan solo brevemente. La primera señala que el término de covarianza de la ecuación (5.8) es constante para todos los valores de j y g; la segunda indica que σg es constante para todos los valores de g y σj es constante para todos los estímulos j desapareciendo, por lo tanto, el término de correlación de la ecuación (5.8) y queda entonces simplificada de la siguiente manera:

tg - sj = zjgc (5.10) 5.2.1 Método de Intervalos Aparentemente Iguales (IAI) La ley del juicio categórico se desarrolló para el caso en el que los estímulos han sido

colocados dentro de categorías ordenadas respecto al atributo que está siendo investigado. En particular, supone que se conoce la proporción de veces que cada estímulo fue clasificado por debajo de cada límite de las categorías

La forma más común de obtener la estimación de estas proporciones consiste en presentar a

un grupo de jueces, el conjunto de estímulos; el juez deberá clasificar a cada estímulo dentro de alguna de las categorías establecidas por el investigador.

En este caso, para evitar los efectos de fatiga y/o aburrimiento, se recomienda que los

estímulos se contrabalanceen en cuanto a su favorabilidad o desfavorabilidad hacia el objeto psicológico en cuestión, así como en lo que se refiere a las etiquetas adjetivales asociadas a los extremos del continuo actitudinal. Esto a su vez, evitaría en la medida de lo posible, la aparición de patrones de respuesta por parte de los jueces.

5.2.1.1 Definición del Atributo o Variable En este caso, remitimos al lector a la sección 5.1.1.1. de este mismo apartado. 5.2.1.2 Elaboración de los Reactivos En este caso, también remitimos al lector a la sección 5.1.1.2. Sin embargo, para este

método en particular, se recomienda elaborar entre 70 y 90 reactivos, siendo una mitad de los mismos favorables, en diversos grados, al objeto psicológico, y la otra mitad, desfavorables, también en diversos grados, al susodicho objeto psicológico. Debe tenerse en cuenta que por medio de este método se pretende encontrar 20 o 25 reactivos, que cubran el continuo psicológico en su totalidad, con ciertos requisitos, que se especificarán más adelante. Es por esta razón, que se inicia la elaboración del instrumento, con un número mayor de reactivos. Se debe contar con un lote lo suficientemente grande, como para permitir desechar todos aquellos reactivos que no cumplan con los requisitos estipulados por el método, y que aún así, se puedan conservar por lo menos 20 ó 25 de ellos que sí lo hagan.

Page 57: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

5.2.1.3 Selección de los Jueces Se remite al lector a la sección 5.1.1.3. Existe además un procedimiento empírico a posteriori, para eliminar a los malos jueces.

Como se señaló anteriormente (5.2.1.2.), se inicia el trabajo de elaboración del instrumento con 70 o 90 reactivos, que supuestamente cubren la totalidad del continuo psicológico. Es decir, si el continuo cuenta con 11 intervalos de respuesta, el investigador elaboró entre siete y nueve reactivos para cada intervalo. Si después de que los jueces terminaron su proceso de enjuiciamiento, nos encontramos que algunos de ellos colocaron al 30% de los reactivos en un sólo intervalo, se puede inferir que el juez fue descuidado en la tarea de enjuiciamiento, ya que esto implica que colocó entre 21 y 27 reactivos como localizados en un sólo intervalo. Cuando este es el caso, se elimina este juez.

5.2.1.4 Instrucciones para los Jueces Las instrucciones que se dan a los jueces dentro de este método son las siguientes: "Lea

cuidadosamente cada una de las afirmaciones que se le presentan a continuación y señale para cada una de ellas, la cantidad de atributo que a su juicio cada una de ellas representa tener. Es decir, si usted considera que el responder afirmativamente a la afirmación indica que el sujeto que así respondió posee una cantidad considerable(o mucho) del atributo que se está midiendo, coloque una "X" en el intervalo extremo de la derecha, calificado con MUCHO. Si usted considera que la afirmación no representa nada del atributo en cuestión, coloque su respuesta en el intervalo extremo de la izquierda, el calificado con NADA; por el contrario, si usted, considera que la afirmación contiene una cantidad regular o mediana del atributo en cuestión, coloque su respuesta en el intervalo intermedio, calificado con REGULAR. Como usted puede ver, la cantidad de atributo se incrementa del intervalo intermedio al intervalo de la izquierda y al de la derecha, de la misma manera, gradual y sucesivamente. Recuerde que no le estamos pidiendo que nos indique en qué grado está usted de acuerdo con cada afirmación, ni tampoco en qué grado posee usted aquello de lo que habla la afirmación, o en qué grado ésta representa su punto de vista, creencia, actitud, etc. Sólo queremos que nos indique que tanto del atributo considera usted que la afirmación representa o contiene".

En este caso el continuo que se le presenta a los jueces consta de once intervalos; el

extremo izquierdo calificado con NADA o POCO; el intermedio con REGULAR; el extremo derecho con MUCHO o TODO. Los adjetivos calificativos deberán ser congruentes con el atributo que se está estudiando. Si el atributo es actitud, por ejemplo, los intervalos descritos quedan anclados por los adjetivos DESFAVORABLE, NEUTRO, FAVORABLE. Es importante hacer notar que el resto de los intervalos permanecen sin descripción, ya que el supuesto que subyace al modelo y al proceso de enjuiciamiento, señala que las instrucciones son tales que le permiten al juez suponer el incremento o decremento gradual, sucesivo y de intervalos semejantes, a la derecha o izquierda del intervalo intermedio, respectivamente.

Page 58: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

El continuo se presenta de la siguiente manera: :_____:_____:_____:_____:_____:_____:_____:_____:_____:_____: ____:_____:_____:_____: NADA REGULAR MUCHO Habiendo presentado las 70 o 90 afirmaciones al grupo de jueces, se procede a concentrar

los datos en una tabla como la que se presenta a continuación. Tabla 5.4 Representación esquemática de la matriz de frecuencias y proporciones acumuladas de los

juicios de N jueces para K afirmaciones en el método de los Intervalos Aparentemente Iguales. INTERVALOS Afirm.1 1 2 3 . . . . . . . 11 frec. f11 f12 f13 . . . . . . . f111 Prop. p11 p12 p13 . . . . . . . p111 prop.ac. pa11 pa12 pa13 . . . . . . . pa111 Afirm. 2 frec. f21 f22 f23 . . . . . . . f211 prop. p21 p22 p23 . . . . . . . p211 prop.ac. pa21 pc22 pa23 . . . . . . .pa211 Afirm. K frec. fk1 fk2 fk3 . . . . . . . fk11 prop. pk1 pk2 pk3 . . . . pk11 prop.ac. pak1 pak2 pak . . . . . . . pak111 5.2.1.5 Valores Escalares y Valores Q En este método se requiere calcular dos tipos de valores, que representan al proceso modal

discriminativo y la dispersión discriminativa, respectivamente; estos valores son los valores S o escalares, y los valores Q o intercuartilares.

Las fórmulas correspondientes son las siguientes: S = l + (0.50 - Σpb) i ------------ (5.11) pw dónde S = valor escalar l = límite inferior del intervalo donde cae la mediana Σpb = suma de proporciones debajo del intervalo donde cae la mediana. pw = proporciones dentro del intervalo donde cae la mediana. i = la amplitud del intervalo, que se supone es = 1 Q = C75 - C25 (5.12) dónde:

Page 59: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Q = valor intercuartilar C25 = valor del centil 25 C75 = valor del centil 75 C75 = l + (0.75 - Σpb) i ----------- (5.13) pw dónde: I = límite inferior del intervalo donde cae el centil 75 Σpb = suma de proporciones por debajo del intervalo donde cae el centil 75. pw = proporciones dentro del intervalo donde cae el centil 75 i = amplitud del intervalo, se supone = 1 C25 = l + (0.25 - Σpb) i ---------- (5.14) pw dónde: I = límite inferior del intervalo donde cae el centil 25 Σpb = suma de proporciones debajo del intervalo donde cae el centil 25. pw = proporciones dentro del intervalo donde cae el centil 25 i = amplitud del intervalo, se supone = 1 El valor escalar representa la cantidad de atributo que tiene la afirmación en promedio, de

acuerdo a un grupo de jueces. El valor intercuartilar corresponde al área alrededor de la media (o valor escalar) donde se percibe se encuentra la afirmación. Este valor debe ser lo más pequeño que sea posible; es decir, si el continuo tiene once intervalos, idóneamente, el valor Q debería ser igual a 2 o menos; en la medida en que el continuo tenga menos intervalos (nueve, siete o cinco), el valor Q deberá ser aún menor.

Se deberán calcular estos dos valores para todas y cada una de las 70 o 90 afirmaciones que

fueron sometidas a juicio, para poder pasar a escoger las afirmaciones definitivas que constituirán el instrumento.

5.2.1.6 Selección de la Afirmaciones Definitivas Una vez que se han calculado los valores escalares y los valores intercuartilares, se procede

a arreglar a las afirmaciones de acuerdo a sus valores escalares, de menor a mayor. De aquellas afirmaciones que tengan valores escalares que van de 0.5 a 1.5 se escogen dos o tres, las que tengan los valores Q más pequeños. Del grupo de afirmaciones con valores escalares de 1.5 a 2.5, se escogen nuevamente dos o tres afirmaciones, las que tengan los valores Q más pequeños. Así se continua escogiendo de cada grupo consecutivo de valores escalares aquellas que tienen los valores Q más pequeños.

Este procedimiento asegura dos requisitos que debe reunir el instrumento: a) que las

afirmaciones se repartan uniformemente a lo largo de todo el continuo psicológico, y b) que las afirmaciones no sean ambiguas (el valor Q es un indicador de ambigüedad de las mismas).

Page 60: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

De esta manera, el instrumento queda constituido por entre 22 a 33 afirmaciones, si el continuo tenía once intervalos. De cualquier manera, se recomienda que un instrumento monodimensional, como el que se obtiene en este caso, tenga entre 20 ó 30 afirmaciones, con las cuales es muy probable que se alcance un coeficiente de confiabilidad adecuado (igual o mayor de 0.80).

5.2.1.7 Aplicación y Calificación del Instrumento Final El instrumento definitivo, queda constituido entonces de entre 20 ó 30 afirmaciones. Estas se

imprimen en forma aleatoria en una o dos hojas de papel. Y las instrucciones que se dan a los sujetos que habrán de ser investigados son las siguientes: "Lea cuidadosamente el siguiente conjunto de afirmaciones, y escoja de entre ellas aquellas tres o cinco que mejor representen su opinión (en de caso ser una escala de actitud); que mejor lo describa a usted (en caso de medir un atributo X), y márquelas con una cruz al inicio de cada una de ellas (o en el paréntesis al final de cada una de ellas; etc.)".

En realidad lo que se le está pidiendo al sujeto es que se coloque en el mismo continuo

donde se colocaron las afirmaciones mediante el proceso de enjuiciamiento. El procedimiento de calificación es semejante al del método de pares comparados, por lo que

sugerimos al lector, regrese a la sección 5.1.1.5 de este mismo capítulo.

5.3 Guía de Estudio

1. Determinar lo que se entiende por proceso modal discriminativo. 2. Señalar lo que se entiende por dispersión discriminativa. 3. Tipo de jueces que se emplean para desarrollar el método de pares comparados. 4. Señalar los tres pasos principales que se siguen en la derivación de los valores

escalares en el método de pares comparados. 5. Ventajas y desventajas del método de pares comparados. 6. Determinación de la bondad de los jueces empleados en el método de intervalos

aparentemente iguales. 7. Indique cuáles son las instrucciones de los jueces del método de intervalos

aparentemente iguales deben seguir en el proceso de elaboración del instrumento. 8. Señale lo que significa el valor Q en el método de intervalos aparentemente iguales. 9. Indique cómo se seleccionan las afirmaciones definitivas de un instrumento que se

elabora con el método de intervalos aparentemente iguales. 5.4 Autoevaluación 5.4.1 Preguntas 1. ¿Qué es un valor escalar? 2. ¿Qué es el continuo psicológico? 3. ¿En qué consiste el método de la media de calificación del instrumento? 4. ¿Qué significa el calor Q en el método de intervalos aparentemente iguales? 5. ¿Qué características deben tener los reactivos que se incluyan en la versión final de

un instrumento que se elabora de acuerdo al método de intervalos aparentemente iguales?.

6. ¿Qué es lo que realmente es una calificación obtenida por un Sujeto en cualquiera de los métodos vistos en este capítulo?.

Page 61: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

7. ¿Qué ventajas y desventajas tienen los métodos de pares comparados e intervalos aparentemente iguales?

5.4.2 Respuestas 1. Un valor escalar corresponde al proceso modal discriminativo asociado a un reactivo. 2. El continuo psicológico es el que se forma con base en los juicios que los jueces

emitan respecto a la localización de cada estímulo o reactivo, respecto a otro, o respecto al límite de una categoría.

3. El método de la media de calificación de un instrumento consiste en determinar los valores escalares de las afirmaciones escogidas por los sujetos como aquellas que mejor los describen o con las que más de acuerdo están, y sumarios, para después dividir el resultado de esta suma entre el número de afirmaciones o reactivos escogidos por cada uno.

4. El valor Q es un indicador de ambigüedad del reactivo; por esta razón se requiere que éste valor sea pequeño.

5. Los reactivos que se incluyan en la escala final del método de intervalos aparentemente iguales son aquellos que adquiriendo valores escalares que recorran todo al continuo psicológico, son los que tienen los valores Q más pequeños.

6. La calificación que obtienen un sujeto en instrumentos desarrollados de acuerdo al método de pares comparados o al método de intervalos aparentemente iguales, no es más que su colocación sobre el mismo continuo psicológico en el que se localizan los estímulos que constituyen el instrumento. Es decir, es la localización del Sujeto, en el continuo psicológico.

7. Las ventajas del método de pares comparados son: es el modelo de medición más fuerte de los dos; las calificaciones que obtienen los Sujetos miden a nivel intervalar, ya que derivan de las unidades Z. Sus desventajas son: se requiere que los Sujetos sepan leer y escribir; la tarea que se le encomienda a los jueces se vuelve fatigosa, si el número de reactivos es muy grande; sólo es adecuado para un número pequeño de reactivos.

Las ventajas del método de intervalos aparentemente iguales son: puede emplear un gran

número de reactivos; las tarea que se les pide a los jueces es bastante sencilla; el nivel de medición que se alcanza es el intervalar. Sus desventajas son: como modelo de medición no es muy fuerte los jueces pueden volverse descuidados por falta de interés; los sujetos a los que se les aplique el instrumento final deben saber leer y escribir.

Page 62: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

VI. INSTRUMENTOS HOMOGENEOS: ESCALAMIENTO DE PERSONAS En esta sección se hablará de la construcción de instrumentos homogéneos por medio del

procedimiento del escalamiento de personas. Se iniciará la presentación con las pruebas constituidas por reactivos con dos opciones de respuesta, y se continuará con las constituidas por reactivos con más de dos opciones de respuesta.

Debe recordarse que en este caso se inicia la construcción del instrumento teniendo en

mente los modelos de medición revisados en las primeras secciones de este texto. Se parte de la definición de prueba o test: es una muestra representativa de los reactivos que se encuentran en el dominio o universo o población de reactivos que indican al atributo en cuestión; se toman en cuenta las principales suposiciones del modelo del error, en el sentido de que el error de medición es aleatorio y que por lo tanto las calificaciones observadas corresponden a las verdaderas; por último, se consideran como ciertas las principales suposiciones del modelo de las pruebas paralelas, en el

sentido de que las medias, y las varianzas de las mismas, son iguales, y por extrapolación,

las medias y las varianzas de los reactivos que las constituyen son iguales también. En los métodos de escalamiento de personas, lo que el investigador se propone, es hacer un

instrumento confiable, de acuerdo a los supuestos de los Modelos de Medición revisados en el Capítulo III; este instrumento, permitirá escalar, ordenar o colocar, de acuerdo a los puntajes obtenidos por los Sujetos, a unos individuos respecto a otros, de manera que dichos puntajes representen cantidades del atributo o variable que se pretende medir. Por lo tanto, el procedimiento de construcción que se sigue es el que permite determinar cuándo un conjunto de reactivos ha alcanzado el nivel de confiabilidad adecuado.

6.1 Instrumentos con Dos Opciones de Respuesta Los instrumentos que tienen dos opciones de respuesta corresponden a aquellos que están

constituidos por reactivos dicotómicos, tales como los que se presentaron en el Capítulo IV. Como se recordará, estos instrumentos son empleados con mucha frecuencia para el registro

o medición de variables para las cuales existen respuestas correctas e incorrectas, verdaderas y falsas, etc. En estos casos, las opciones de respuesta por lo general se califican con puntuaciones de 1 y 0, correspondiendo el 1 a la opción correcta o verdadera, mientras que el 0 corresponde a la opción incorrecta o falsa.

En este caso, el modelo en que se basa el procedimiento de construcción del instrumento es

básicamente el de dominio-muestra. El proceso se inicia con un número relativamente grande de reactivos (aproximadamente tres veces el número final de reactivos que se desea tener, que por lo general oscila entre 20 y 30), para permitir que se pierdan algunos en el camino. Se pretende terminar con un instrumento que contenga el mínimo número de reactivos, que midan lo mismo (es decir, que sean consistentes internamente), y que por lo tanto sean confiables, y representen adecuadamente al dominio de reactivos del atributo en cuestión.

Este conjunto de reactivos que se elaboran, siguiendo todas las recomendaciones señaladas

en el Capítulo IV, se aplican a una submuestra de sujetos, con características semejantes a las de la muestra del estudio de interés, y se procede a establecer su confiabilidad por medio de la fórmula de Kudder-Richardson 20.

Antes de aplicar la fórmula a los datos obtenidos, es conveniente llevar a cabo alguno de los procedimientos de análisis de reactivos señalados en el Capítulo IV. Este procedimiento preliminar

Page 63: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

tiene por objeto varias cuestiones: en primer lugar, deshacerse de aquellos reactivos que no discriminan en la muestra en cuestión; en segundo lugar, reducir el número de reactivos que se someterán al proceso de confiabilidad.

Habiendo analizado los reactivos, se aplica la siguiente fórmula: rkk = ___k_____ ( 1 - ___Σpq___) (6.l) k - 1 σy dónde: k = número de reactivos Σpq = suma del producto de las proporciones correctas (p) e incorrectas (q) de cada reactivo σy = varianza de la calificación total El primer paso entonces, para determinar la confiabilidad de una prueba constituida por

reactivos dicotómicos es encontrar el valor p de cada uno de ellos, que se multiplica por 1-p o sea q. Estos productos son sumados después. El segundo paso es calcular la varianza para las calificaciones totales. Con esta información se substituyen los datos en la fórmula y se realizan las operaciones aritméticas indicadas, determinando asi', el coeficiente de confiabilidad de consistencia interna del conjunto de reactivos iniciales.

El coeficiente Kudder-Richardson debe alcanzar idóneamente un valor de 0.85 para

considerar que la prueba es confiable. Por lo general, cuando son demasiados los reactivos, difícilmente se alcanzan los valores idóneos. En virtud de esto, se recomienda calcular al mismo tiempo, el coeficiente de consistencia interna reactivo-calificación total, que para el caso de reactivos dicotómicos con valores de 1 y 0, se calcula por medio de la correlación biserial-puntual, cuya fórmula aparece a continuación:

rbp = Ms -Mu pq (6.2) σ donde: Ms = calificación promedio en la variable contínua del grupo "correcto" en la variable

dicotómica Mu = calificación promedio en la variable contínua del grupo "incorrecto" en la variable

dicotómica σ = desviación estándar de la variable continua para el grupo total p = proporción de personas que caen en el grupo "correcto" en la variable dicotómica q = 1-p Es decir, al mismo tiempo se obtienen los valores de la correlación de la calificación total con

cada reactivo. Observando cuidadosamente estos valores, se determina cuáles son los reactivos que obtienen valores extremos. Es decir, si el promedio de las correlaciones esta alrededor de 0.3, todos aquellos reactivos que obtengan correlaciones reactivo-calificación total cercanas a 0.7 o mayores a este valor, se consideran extremos, y deberán ser excluidos del análisis global de reactivos. Una vez eliminados aquellos reactivos considerados como problemáticos, se procede a volver a calcular el coeficiente Kudder-Richardson y lo más probable es que ahora sí se alcancen los valores recomendados.

6.2 Instrumentos con Mas de Dos Opciones de Respuesta

Page 64: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Los instrumentos con reactivos de más de dos opciones de respuesta son los más utilizados por los investigadores en ciencias sociales. Son muy comunes las escalas de actitud con reactivos de cinco opciones de respuesta; los cuestionarios con reactivos de tres opciones; etc. Para este tipo de instrumentos, se calcula la confiabilidad de consistencia interna con el coeficiente denominado alfa de Cronbach, cuya fórmula se presenta a continuación:

rkk = k 1 - s²i (6.3) k - 1 s²y dónde: k = número de reactivos s²i = suma de las varianzas individuales de cada reactivo s²y = varianza de la calificación total La ecuación (6.3) es una de las deducciones más importantes de la teoría de la medición del

error. En esta forma se le conoce como coeficiente alfa. La misma fórmula se puede derivar del modelo de pruebas paralelas y aunque se ve diferente, corresponde al coeficiente que se emplea para calcular la confiabilidad en el modelo dominio-muestra. Todas las anteriores consideraciones convergen en la justificación de la afirmación que señala que el coeficiente alfa es una fórmula muy importante para la teoría de la confiabilidad. Representa la correlación esperada de una prueba con una forma alternativa que contenga el mismo número de reactivos. La raíz cuadrada del coeficiente alfa es la correlación estimada de una prueba con las calificaciones verdaderas carentes de error, razón por la cual deberá aplicarse en forma rutinaria a todas las pruebas nuevas.

Al igual que en el caso de los instrumentos con reactivos de dos opciones de respuesta, el

coeficiente alfa deberá adquirir un valor cercano a 0.85 para que sea considerado como un instrumento confiable, desde el punto de vista psicométrico. En este caso también habrán de analizarse los valores de las correlaciones reactivo-calificación total, para determinar cuál o cuáles son los reactivos problemáticos que están produciendo un valor alfa bajo, y así eliminarlos del instrumento. Los criterios a seguir son los mismos que en el caso anterior (valores extremos de las correlaciones reactivo-calificación total, en relación al valor promedio de las correlaciones obtenidas para el total de los reactivos del instrumento).

En este caso el coeficiente de correlación que se emplea para calcular las correlaciones

reactivo-calificación total, es el de Producto-Momento de Pearson; a continuación se presenta una de las fórmulas PM más conocidas:

r = Σ ziz2 (6.4) ------- N dónde: Σ z1z2 = suma de los productos de los puntajes estandarizados de las variables 1 y

2 N = Número de casos 6.3 Valores de las Opciones de Respuesta

Page 65: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Las opciones de respuesta de un instrumento deben adquirir valores que representen las cantidades de atributo que el individuo que lo responde tiene, al contestar en una u otra. Para establecer los valores de las opciones de respuesta existen dos procedimientos: a) pesaje empírico y b) pesaje arbitrario. Estos se presentan en la sección 6.4.1 de este mismo capítulo.

6.4 Rangos Sumarizados: Técnica de Likert La técnica de rangos sumarizados o clasificaciones sumadas fue desarrollada por Likert en

1932. Hasta la fecha, es una de las más empleadas por los investigadores en ciencias sociales, ya sea en su forma original, como escala de actitudes, o tan solo el formato para desarrollar cuestionarios o escalas que midan otras variables además de actitudes. La mayoría de los instrumentos llamados de opción múltiple, son en realidad cuestionarios que siguen el formato de los rangos sumarizados.

6.4.1 Elaboración de las Afirmaciones En este caso, como en las técnicas previamente presentadas, se deberán elaborar las

afirmaciones o reactivos tomando en cuenta las sugerencias y criterios presentados antes, para su correcto desarrollo.

Es decir, una vez definido el objeto psicológico (si se está midiendo actitud), o la variable que

se pretende medir, se elaboran aproximadamente entre 60 y 80 reactivos, referidos al objeto en cuestión. En esta ocasión, se deben elaborar reactivos que indiquen una actitud favorable, o la presencia de la variable en cuestión, y también reactivos que indiquen una actitud desfavorable, o la ausencia o poca presencia de la variable que se pretende medir. Se deberán elaborar aproximadamente la mitad de los reactivos favorables o indicativos de la presencia de la variable, y la otra mitad desfavorables al objeto psicológico o indicativos de la ausencia de la variable estudiada. De esta manera, se tendrán reactivos positivos (favorables sí son de actitud; presencia de la variable si no lo son) y reactivos negativos (desfavorables sí son de actitud; de ausencia de la variable si no lo son).

Estos reactivos se ordenan aleatoriamente en hojas de papel seguidas de instrucciones que

señalan: Lea cuidadosamente cada una de las preguntas y diga sí: a) está Ud. totalmente de acuerdo; b) de acuerdo; c) indeciso; d) en desacuerdo; e) en total desacuerdo, con lo que dice la pregunta. Se presenta cada reactivo, y a continuación, las opciones de respuesta antes señaladas (si las afirmaciones son de actitud) o algunas otras cinco opciones, que correspondan con el contenido del reactivo, como las que se muestran en la sección de Reactivos de Opción Múltiple, presentado en el Capítulo IV.

Las opciones de respuestas adquieren valores numéricos de tal manera que la opción que

representa una actitud más favorable (si se está midiendo actitudes) o una mayor cantidad o presencia de la variable en cuestión, se le otorga el peso de 5; a la opción que le sigue en favorabilidad o magnitud de la presencia, se le da un peso de 4; a la opción intermedia (indeciso, regular, ni si ni no, etc.), se le da el peso de 3; a la siguiente el de 2 y a la última, la que señala la actitud más desfavorable o la menor presencia o ausencia de la variable en cuestión, se le asigna el peso de 1.

Lo anterior significa que las opciones de los reactivos que a grosso modo se pueden

clasificar como positivos, tendrán pesos o valores numéricos diferentes que los de aquellos que se pueden clasificar como negativos. Por ejemplo, si se está midiendo actitud hacia la legalización del

Page 66: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

aborto, un reactivo que dijera: el aborto debe ser legal, sus opciones de respuesta serían pesadas o calificadas de la siguiente manera: totalmente de acuerdo (5); de acuerdo (4); indeciso (3); en desacuerdo (2); en total desacuerdo (1). Sin embargo, una afirmación que dijera: el aborto debería prohibirse aún para salvar la vida de la madre, sus opciones de respuesta tendrían los siguientes valores: totalmente de acuerdo (1); de acuerdo (2); indeciso (3); en desacuerdo (4); en total desacuerdo (5). Si el instrumento pretendiera medir ansiedad por ejemplo, ante un reactivo que dijera: padezco de insomnio, con opciones de respuesta de a) siempre; b) casi siempre; c) regular; d) casi nunca y e) nunca, la primera valdría 5, la segunda 4, la tercera 3, la cuarta 2 y la última 1. Si el reactivo fuera: por lo general estoy muy tranquilo, y las opciones de respuesta fueran: a)siempre; b) casi siempre; c) regular; d) casi nunca y e) nunca, los valores correspondientes serían de 1, 2, 3, 4, y 5 respectivamente. También se pueden usar valores que vayan de 0 a 4.

Existe un procedimiento empírico para establecer los pesos de las opciones de respuesta.

Este consiste en lo siguiente. 1.- Se aplica el instrumento inicial al grupo de Jueces (ver la siguiente sección). 2.- Para cada reactivo o pregunta se llevan a cabo los pasos señalados en la siguiente Tabla.

Tabla 6.1 Cálculo Empírico del Pesaje de las Opciones de Respuesta de la Técnica Likert (N = 200)

Total Desacuerdo Desacuerdo Indeciso Acuerdo Total Acuerdo (1) f (2) p (3) pa (4) pto. ½ pa (5) Z (6) Z + 1.514 (7) Z red.

26 0.130 0.130 0.065 -1.514 0.000

0

86 0.430 0.560 0.345 -0.399 1.115

1

42 0.210 0.770 0.665 0.426 1.940

2

26 0.130 0.900 0.835 0.974 2.488

2

20 0.100 1.000 0.950 1.645 3.159

3

La Tabla 6.1 dice que el reactivo fue respondido por 200 Sujetos. De éstos, 26 contestaron en la primera opción; 86 en la segunda; 42 en la tercera; 26 en la cuarta y 20 en la quinta. Estos datos aparecen en la hilera (1) f. En la hilera (2) p, aparecen los datos de la primera hilera en forma de proporciones.

En la hilera (3) aparecen las proporciones acumuladas. En la hilera (4) aparecen los puntos

medios de las proporciones acumuladas. En la hilera (5) aparecen las proporciones transformadas en unidades z. Para realizar esta transformación se consulta una tabla de Desviaciones Normales correspondientes a Proporciones p de una unidad de distribución normal dicotomizada, como la que presenta Edwards (1957). En la hilera (6), aparecen los valores a los que se les agregó el valor absoluto del negativo mayor de la hilera anterior, que en este caso fue de 1.514, con objeto de hacer desaparecer los signos algebraicos, y obtener un punto de origen o cero arbitrario. En la hilera (7), aparecen los valores de la hilera anterior, pero ahora redondeados al entero más cercano.

Los valores que se presentan en la hilera (7), son los pesos empíricos que les

corresponderían a las opciones de este reactivo en particular. Esto significa que el procedimiento antes descrito, se tiene que efectuar para todos y cada uno de los reactivos del instrumento inicial (60 a 80). El procedimiento es bastante laborioso, y el mismo Likert (1932) señaló que si se correlacionaban los pesos arbitrariamente establecidos, con aquellos determinados en forma empírica, se obtenía una correlación igual a 0.99. Lo anterior significa, que es lo mismo hacerlo de

Page 67: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

cualquiera de las dos manera. Por esta razón, la mayoría de los investigadores opta por la determinación arbitraria de los pesos de las opciones de respuesta.

El ejemplo anterior corresponde a un reactivo positivo o favorable; si el reactivo fuera

negativo o desfavorable, en los términos anteriormente explicados, el orden de las opciones de respuesta se tendría que invertir. Es decir, la primera columna correspondiente a una opción de respuesta sería la de En total acuerdo; la siguiente sería De acuerdo; la intermedia es la misma: indeciso; la cuarta columna diría En desacuerdo y la última diría En total desacuerdo.

6.4.2 Selección de los Jueces En esta ocasión, los jueces que habrán de responder a las afirmaciones iniciales (60 a 80),

deberán ser Sujetos que posean las mismas características que aquellos para los cuales se está construyendo el instrumento. En otras palabras, los Sujetos que se emplean para elaborar el instrumento, son en realidad una submuestra de la muestra de investigación, o una muestra obtenida de la misma población de donde se obtendrá la muestra para el estudio final, o para la que se está elaborando el instrumento. Estos Sujetos deberán saber leer y escribir.

6.4.3 Instrucciones para los Jueces En esta ocasión, las instrucciones que se les dan a los Jueces o Sujetos, son las que

señalan responder de acuerdo a sus creencias o actitudes, o características. Es decir, los Sujetos sólo tendrán que responder de acuerdo a lo que ellos piensan, saben, creen, sienten, o mejor los describe. La tarea a la que se someten es exactamente la misma a la que se someterá la muestra bajo estudio. Se recomienda emplear aproximadamente unos 100 jueces para llevar a cabo esta aplicación inicial.

6.4.4 Análisis de Reactivos El objetivo que se persigue con el uso de esta técnica, es el de contar con una escala de 20 a

25 reactivos, confiable, que pueda ser un índice de la variable o actitud que se pretende medir. Para esto, se deberá llevar a cabo un análisis de reactivos para determinar cuáles son los 20 ó 25 mejores reactivos y con ellos formar la escala o instrumento final. En este caso, la bondad de los reactivos estará dada por su poder discriminativo.

Para llevar a cabo el análisis de reactivos en este método, se aplica el instrumento inicial (con

60 a 80 reactivos) a una muestra de tamaño aproximado de 100. Se califican los reactivos anotando el valor de la opción de respuesta seleccionada por los Sujetos, y se suman a través de todos los reactivos. Dependiendo de las calificaciones totales que hayan obtenido los Sujetos, se ordena a éstos de mayor a menor. Se forman dos grupos: el superior o alto y un inferior o bajo. En el primer grupo se coloca al 25% superior de los Sujetos (aquellos que obtuvieron los puntajes más altos); en el segundo al 25% inferior de los Sujetos (los que obtuvieron los puntajes más bajos).

Se procede entonces a formar una tabla como la Tabla 6.2, que aparece a continuación.

Page 68: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Tabla 6.2. Cálculo de t para evaluar la diferencia en la respuesta promedio a una afirmación positiva o favorable de actitud entre un grupo alto y un grupo bajo.

Categoría de Respuesta

Grupo Bajo Grupo Alto x f xf X2f x f xf X2f

Total Acuerdo 4 2 8 32 4 15 60 240 Acuerdo 3 3 9 27 3 20 60 180 Indeciso 2 20 40 80 2 10 20 40 Desacuerdo 1 15 15 15 1 4 4 4 Total Desacuerdo 0 10 0 0 0 1 0 0

Sumas 50 72 154 50 144 464 nb Σxb Σxb

2 na Σxa Σxa2

En la Tabla 6.2 se observa en la primera columna a las categorías de respuesta; en la

segunda, (x), el valor de las opciones de respuesta para una afirmación dada. La tercera, (f), son las frecuencias con que fue escogida cada opción, por los miembros del grupo bajo. La cuarta (fx) es la multiplicación de la primera por la segunda. La quinta (fx²), corresponde a la multiplicación de la columna (x) por la (fx). Lo mismo se presenta en el grupo alto.

Lo anterior se lleva a cabo con objeto de encontrar los valores que se requieren en la

siguiente fórmula: Xa - Xb (6.1) t = ______________________ sa

2 + sb2

____ ____ na nb dónde: Xa = la calificación promedio en una afirmación dada para el grupo alto Xb = la calificación promedio en una afirmación dada para el grupo bajo sa

2 = la varianza de la distribución de las respuestas del grupo alto a esa afirmación sb

2 = la varianza de la distribución de las respuestas del grupo bajo a esa afirmación na = número de sujetos en el grupo alto nb = número de sujetos en el grupo bajo Si las n's de los dos grupos son iguales, la fórmula se transforma en: Xa - Xb (6.2) t = ________________________________ Σ(xa-Xa)

2 + Σ(xb-Xb)2

________________________________ n(n-1) dónde: Σ(xa-Xa)

2 = Σxa2 - (Σxa)

2 ______ n y Σ(xb-Xb)

2 = Σxb2 - (Σxb)

2

Page 69: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

______ n Los cálculos de la fórmula (6.2) para los datos de la Tabla 6.2, se presentan a continuación. 72 144 xb -- = 1.44 xa ---- = 2.88 50 50 Σ(xb-Xb)

2 = 154 - (72)2 Σ(xa-Xa)2 = 464-(144)2

---- ----- 50 50 _ = 50.32 = 49.28 2.88 - 1.44 t = ----------- = 7.13 50.32 + 49.28 ------------- 50(50-1) El valor de t obtenido se busca en las tablas correspondientes (ver McGuigan, .ej.), con

gl=n-1, y se determina su nivel de significancia. Si éste es 0.05 o <, se dice que la afirmación discrimina; es decir, que es respondida en forma diferente por un grupo alto en la variable, que por un grupo bajo en la misma variable.

Este procedimiento se debe llevar a cabo con todas y cada una de las 60 a 80 preguntas o

reactivos que se elaboraron. Una vez que se calculan todas las t's, se ordenan de mayor a menor, estableciendo el punto de corte del nivel de significancia adecuado. Es decir, se determina el lugar de la ordenación donde los valores de t ya no son estadísticamente significativos a una p < 0.05. De entre las afirmaciones que si discriminaron, se seleccionan aproximadamente 12 ó 13 de las positivas o favorables y 12 ó 13 de las negativas o desfavorables. Estas 24 ó 26 afirmaciones, son las que conforman la escala final.

6.4.5. Escala Final. Aplicación y Calificación Tomando aquellas 24 ó 26 afirmaciones que discriminaron en el procedimiento estadístico

visto en la sección anterior, se escriben en hojas, de manera aleatoria (de manera que queden revueltas las afirmaciones favorables y las desfavorables), cuidando también de que los continuos de respuesta (Totalmente de acuerdo a Totalmente en desacuerdo), se presenten en forma alternada. Es decir, los continuos en ocasiones inician con totalmente de acuerdo y en otras con totalmente en desacuerdo. Lo anterior se debe llevar a cabo con objeto de disminuir la posibilidad de que aparezcan patrones de respuesta (response set).

Las preguntas así ordenadas, se presentan a la muestra de investigación, con las siguientes

instrucciones: Lea cuidadosamente cada una de las siguientes preguntas. Escoja de entre las opciones de respuesta, aquella que mejor exprese su opinión, mejor lo describa, etc. No deje ninguna pregunta sin contestar. Recuerde que no hay respuestas ni buenas ni malas.

Page 70: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

De preferencia se ponen unos dos o tres ejemplos, empleando afirmaciones referidas a otras variables. Estos ejemplos se ponen contestados y se explica la razón de cada una de las respuestas de los ejemplos.

La forma de calificación es la misma que se empleó para la elaboración del instrumento. Se

suman los valores de las opciones escogidas por los sujetos a lo largo de todas las preguntas. La información que esta calificación proporciona es la siguiente: entre más alto el puntaje obtenido por el Sujeto, más de la variable tiene; o más favorable es su actitud. Entre más baja sea la calificación, menos tiene de la variable o menos favorable es su actitud.

6.4.6. Interpretación de las Calificaciones En este método de elaboración de instrumentos, se carece de un continuo psicológico, con

un origen, sección neutral y un fin, a diferencia de lo que sucede con técnicas como la de Intervalos Aparentemente Iguales vista anteriormente. Por esta razón, la interpretación de las calificaciones obtenidas por los individuos que responden a un instrumento de este tipo, sólo puede ser dada en términos de ordinalidad: más o menos que.

Cuando se usa esta técnica para elaborar una escala de actitudes, la interpretación de las

calificaciones deberá hacerse tomando en cuenta las siguientes consideraciones. En primer lugar, no existe un continuo psicológico en el sentido en el que existe en las técnicas de intervalos aparentemente iguales, pares comparados o intervalos sucesivos. Es decir, que no hubo un grupo de jueces que estableciera con sus juicios respecto a las afirmaciones, un continuo donde se pudieran escalar éstas (asignarles valores escalares a cada una de ellas). En segundo lugar, los únicos puntajes que se pueden interpretar sin ambigüedad son dos: la calificación mínima posible, y la más alta posible. Es decir, si el instrumento final tiene 20 afirmaciones de cinco opciones de respuesta cada una, donde los pesos de las opciones van de 1 a 5, la calificación mínima posible es de 20, y la máxima es de 80. La primera significa que la actitud del respondiente es totalmente desfavorable al objeto psicológico, mientras que la segunda indica exactamente lo contrario: la actitud es totalmente favorable hacia el objeto psicológico. Cualquier otro puntaje, ya no puede ser interpretado sin ambigüedad. Por ejemplo, un individuo puede obtener una calificación total de 60, de cualquiera de las siguientes maneras: a) contestando en el intervalo u opción que vale 3 en todas las afirmaciones; b) contestando 10 afirmaciones en la opción que vale 2, y 10 en la que vale 4; c) o contestando 10 afirmaciones en la opción con peso de 1, y 10 en la opción con peso de 5; d) y así sucesivamente: las posibles combinaciones de respuesta que dan como resultado una calificación total de 60 son muchísimas, y no por ser el punto medio de la posible distribución de calificaciones, que va de 20 a 80, se puede interpretar, por ejemplo, que el Sujeto tenga una actitud neutral hacia el objeto psicológico. Por lo tanto, lo único que se puede hacer es referir los puntajes del individuo a la distancia o posición que ocupa respecto a la media de un grupo. En otras palabras, sólo se puede decir si la actitud del individuo es más o menos favorable que la actitud promedio del grupo al que pertenece.

También se pueden usar los puntajes de los individuos, para hacer comparaciones entre

grupos, comparando sus medias, por ejemplo. Sin embargo, debe recordarse, que no se pueden interpretar puntajes individuales como indicando actitudes favorables o desfavorables.

Los puntajes crudos que se obtienen de este tipo de instrumentos pueden transformarse a

puntajes estandarizados o normalizados. Estos puntajes son expresiones de desviación o distancia respecto a una media de un grupo. Este tipo de distribuciones tienen un origen arbitrariamente establecido (la media del grupo), y unidades que representan distancias respecto a ese origen. De

Page 71: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

esta manera, los puntajes crudos se transforman a puntajes que están midiendo a nivel intervalar, y consecuentemente, permiten que se les aplique la mayor parte de la estadística conocida.

6.4.6.1 Transformación a Puntajes T En virtud de lo señalado anteriormente, se puede emplear como una referencia adecuada o

conveniente. La transformación de la distribución de puntajes de actitud , a calificaciones T. Para esto se usa la siguiente fórmula:

(6.3) T = 50 + 10 (X - X) s dónde: T = una calificación T X = la calificación de un Sujeto dado X = el promedio de la distribución s = la desviación standard de la distribución de calificaciones Al transformar los puntajes crudos a puntajes T, se pueden interpretar con facilidad, al

recordar que en este caso la media es de 50 y la desviación estándar es de 10. 6.4.6.2 Transformación a Puntajes z Otra transformación muy empleada también, es la de la z. En este caso, el procedimiento es

también muy sencillo, y se emplea la siguiente fórmula: (6.4) z = (X - X) s dónde: X = puntaje del Sujeto X = Promedio del grupo s = desviación estandarte del grupo. En esta transformación, los puntajes transformados pueden adquirir valores positivos (si se

encuentran a la derecha del promedio), y negativos,(si se encuentran a la izquierda) . En esta distribución de z, la media es igual a cero y la desviación estándar es igual a la unidad.

6.5 Guía de Estudios 1. Señalar el objetivo principal de los modelos de escalamiento de personas. 2. Distinguir cuando se aplica la fórmula de Kuder-Richardson, y cuándo la de Alpha de

Cronbach, para la elaboración de instrumentos para escalar personas. 3. Señalar la relación que existe entre el pesaje empírico y el arbitrario de las opciones

de respuesta, en el método de rangos sumarizados. 4. Señalar las características que deberán tener los jueces que se empleen para

desarrollar un instrumento de acuerdo al método de los rangos sumarizados. 5. Determinar cómo se seleccionan las afirmaciones que formarán parte de la escala

final. 6. Señalar como se interpretan las calificaciones obtenidas por los sujetos, con el método

de rangos sumarizados.

Page 72: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

7. Objetivo que se desea alcanzar al transformar los puntajes crudos obtenidos por los Sujetos en el método de rangos sumarizados, a puntajes T o z.

6.6 Autoevaluación 6.6.1. Preguntas 1. ¿Cuál es la finalidad que persigue el investigador al desarrollar instrumentos que

escalen personas? 2. ¿Para qué se determina la correlación de cada reactivo con la calificación total, en los

modelos que escalan personas? 3. ¿Cuándo se usa el coeficiente biserial-puntual y cuando el producto-momento de

Pearson para determinar correlaciones reactivo-calificación total? 4. ¿Cuándo se emplea el alpha de Cronbach y cuando el Kuder-Richardson para escalar

personas? 5. ¿Para qué se analizan los reactivos en la técnica de Likert? 6. ¿Qué característica importante tienen que tener las afirmaciones o reactivos que se

desarrollen para escalar personas con la técnica de likert? 7 ¿Cuál es el problema que se tiene con las calificaciones obtenidas por los Sujetos en

un instrumento desarrollado con la técnica de rangos sumarizados? 6.6.2 Respuestas 1. El investigador desea desarrollar un instrumento constituido por un conjunto de

reactivos que sean consientes internamente. Es decir, que cumplan con los requisitos de este tipo de confiabilidad.

2. Se determinan los valores de la correlación entre cada reactivo y la calificación total con objeto de que si el conjunto de reactivos no adquiere una magnitud de coeficiente de consistencia interna adecuado de acuerdo lo establecido por los psicómetras, se puede iniciar inmediatamente el análisis de estas correlaciones, para determinar cuál o cuáles reactivos son los que están causando el problema que impide se alcance la consistencia interna.

3. El coeficiente biserial-puntual se emplea cuando los reactivos tienen dos opciones de respuesta que se califican con 1 y o. El coeficiente producto-momento de Pearson se emplea cuando los reactivos son de opción múltiple, de tres a más opciones de respuesta.

4. El coeficiente de alpha de Cronbach se emplea para aquellos instrumentos que tienen reactivos de opción múltiple; el de Kudder-Richardson, se emplea cuando los instrumentos tienen reactivos de dos opciones de respuesta, que se califican con 1 y 0.

5. Los reactivos se someten a un análisis de su poder de discriminación, con objeto de poder eliminar e todos aquellos reactivos que no discriminan entre un grupo alto en el atributo y otro bajo en el atributo, y así poder incluir en el instrumento final, sólo a aquellos reactivos que sí discriminen.

6. La mitad de las afirmaciones o reactivos que se desarrollan en la técnica de Likert, deben ser indicadores de una alta posesión del atributo o variable que se está midiendo, mientras que la otra mitad deben ser indicadores de la no posesión o posesión muy baja del atributo o variable en cuestión. Si lo que se está midiendo son actitudes, la mitad de los reactivos tienen que ser favorables al objeto psicológico, mientras que la otra mitad tienen que ser desfavorables.

7. Las calificaciones obtenidas por los sujetos con la técnica de Likert no se pueden interpretar de la misma forma que las que se obtienen con otras técnicas. Esto se debe a que en este caso se carece de un continuo psicológico que posea un origen y un fin. En este caso sólo se puede hablar de más o menos atributo poseído por un sujeto en comparación con otro, pero no se puede dar un juicio absoluto de que tanto atributo posee el sujeto en si mismo. Precisamente se

Page 73: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

transforman los puntajes crudos a puntajes z y puntajes T, con objeto de poder dar juicios absolutos para los sujetos individuales.

Page 74: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

VII. INSTRUMENTOS HETEROGENEOS 7.1 Uso del Análisis Factorial para la Construcción de Instrumentos Cuando se pretende construir un instrumento que no es homogéneo, (que mide una sola

dimensión o variable simple, constituida por esa sola dimensión) se puede pensar en instrumentos heterogéneos. La heterogeneidad de los instrumentos puede ser de dos tipos. Primero, se trata de una variable, compleja, constituida por varias dimensiones; segundo, se trata de diferentes variables sencillas, a las que se pretende medir con el mismo instrumento. Esta segunda circunstancia es menos común, pero se puede dar.

Por lo general, los instrumentos heterogéneos derivan de la necesidad de medir variables

complejas, o definidas en forma compleja. Como siempre, la definición conceptual de la variable es la que determina el número de dimensiones de la misma. En ocasiones la misma variable o constructo hipotético puede ser definido de manera simple o monodimensional, o en forma compleja o multidimensional. Por ejemplo, Coopersmith (1967) define a la autoestima como el afecto favorable o desfavorable asociado al si' mismo, y de esta manera la definición es simple o monodimensional. En este caso se debe construir un instrumento que registre el afecto (positivo o negativo) asociado al si' mismo. Vite San Pedro (1988) define a la autoestima como el resultado de la compleja interacción de la evaluación que cada individuo realiza acerca de la eficiencia con la que ejecuta los roles que le son significativos, asi' como la percepción que tiene de la evaluación que de los mismos roles efectúen " otros" significativos para el individuo. Esta conceptualización deja ver una autoestima multidimensional. En este caso, se plantea la existencia de tantas dimensiones como roles significativos tenga el individuo, multiplicadas por el número de "otros" significativos que tenga el sujeto.

En el caso del primer ejemplo, el investigador desarrolla una escala monodimensional o

instrumento homogéneo, siguiendo los pasos señalados en el capítulo VI. En el segundo ejemplo, el investigador puede optar por emplear el análisis factorial para desarrollar un instrumento heterogéneo.

A pesar de la gran utilidad social y científica de las pruebas psicológicas, debe reconocerse

que hasta la fecha, se tiene evidencia bastante inadecuada respecto a lo que realmente miden éstas. Las variables o dimensiones fundamentales de la habilidad humana o de la personalidad humana en general se encuentran aún dentro del vasto territorio inexplorado del conocimiento, reservado para los psicólogos. Para enfrentarse a esta situación se requiere de una aproximación estadística como el análisis factorial.

Si uno consultara un diccionario para buscar todos los términos que se emplean para

describir la personalidad humana, incluyendo sus habilidades, en otras palabras, los términos que se refieren a rasgos observables, uno encontrari'a varios miles de ellos. La ciencia, que desea describir la naturaleza humana, tiene a su disposición todos esos conceptos. Pero emplearlos todos es obrar erróneamente: muchos son sinónimos, muchos se traslapan en diferente grado, otros expresan características opuestas. La ciencia, motivada siempre por la búsqueda del orden dentro del caos, por reducir a lo simple aquello que es complejo, desea saber cual es el número mínimo de conceptos con los que se puede ordenar y describir en forma adecuada la multiplicidad de fenómenos que caen bajo su escrutinio. Desde un punto de vista cuantitativo, se podría preguntar: ¿cuál es el menor número de variables o dimensiones de la personalidad que se necesitan para definirla adecuadamente?

Page 75: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Wundt se refirió a este problema en relación con el sentimiento y propuso su famosa teoría tridimensional. Los psicólogos existencialistas se han enfrentado al problema en relación a los fenómenos sensoriales, y se ha llegado en general a pensar en los atributos de los colores, de los sonidos y de la experiencia. La tarea de aislar variables independientes de personalidad es aún más difícil. Los métodos de escritorio, dominados por la lógica más que por la observación, llevaron a la psicología de las facultades, actualmente inaceptable para la psicología moderna. De la misma manera, la observación directa tampoco ha producido un conjunto de rasgos unitarios que se acerquen de alguna manera a la aceptación universal.

Para ilustrar el problema de otra manera, de una forma más práctica, supóngase que se

desea describir la personalidad de un individuo tan completamente como fuera posible, por medio de calificaciones en diferentes pruebas. Si se quisiera asegurar no omitir ningún aspecto de su personalidad, probablemente se le aplicarían varios cientos de pruebas. Se daría cuenta el investigador que muchas de ellas correlacionaron alto entre sí y que por lo tanto se duplicaron los esfuerzos varias veces. Si se estudian estas intercorrelaciones se podría dar cuenta también que algunas pruebas representan a otro grupo de pruebas de tal manera que no se sacrifica la cobertura de todos los rasgos. Cuando alguna de estas pruebas sirve para representar a un conjunto de otras, se puede decir que se tiene un factor subyacente. Por lo tanto, la tarea de describir al individuo se reduce al hacer que una prueba haga el trabajo de varias. Cuando a ese factor se le puede dar una definición y un significado psicológico, no solo se tiene un nuevo y poderoso concepto para propósitos descriptivos, sino también para pensar acerca de la naturaleza humana.

7.2 Fundamentos Básicos del Análisis Factorial El análisis factorial no es un concepto unitario, sino que depende de las alternativas que se

pueden tomar en cada uno de los tres pasos principales que se siguen: a) preparación de la matriz de intercorrelaciones; b) la extracción de los factores iniciales (lo que habla de la posibilidad de reducción de los datos); y c) la rotación a una solución terminal (que produzca factores simples e interpretables).

7.2.1 Preparación de la Matriz de Intercorrelaciones Los pasos que se siguen para la preparación de la matriz de intercorrelaciones son los

siguientes: a) definir conceptualmente la variable para la que se quiere construir el instrumento,

estableciendo las dimensiones constitutivas, derivando sus indicadores, y por último, elaborando los reactivos o preguntas (teniendo cuidado de observar las indicaciones señaladas en el Capítulo IV).

b) este conjunto de preguntas se aplica a una muestra representativa de la población, de

tamano tal que cumpla con el requisito mínimo de por lo menos 5 sujetos por reactivo. c) la información recogida se somete a un FREQUENCIES, en el que se piden todas las

estadísticas, con objeto de que aparezcan los valores de SKEWNESS y el de KURTOSIS, los cuales deberán estar cercanos a cero, y asi' indicar la normalidad de la distribución de las respuestas de cada reactivo. Sólo aquellos reactivos que presenten una distribución normal en sus respuestas se someterán a los siguientes pasos. Es decir, sólo se pueden someter a análisis factorial, variables que presenten una distribución normal.

d) la información asi' recogida, se somete a un análisis que produzca medidas de asociación

existentes entre los reactivos (correlaciones producto- momento de Pearson).

Page 76: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

e) Con los coeficientes de correlación producto-momento de Pearson se elabora la matriz de

intercorrelaciones. 7.2.2 Extracción de Factores Iniciales La extracción inicial de factores explora la posibilidad de reducción de los datos. Es decir,

determina si se puede encontrar un conjunto de nuevas variables en base a las intercorrelaciones observadas.

Las nuevas variables se pueden definir de dos maneras: a) como transformaciones

matemáticas exactas a partir de los datos originales: a este procedimiento se le llama análisis de componentes principales; b) como suposiciones inferenciales acerca de la estructuración de las variables y su fuente de variación: a este procedimiento se le conoce como análisis factorial clásico o solución de factores comunes.

Los factores iniciales se extraen de manera que cada factor es independiente de los demás.

Se debe señalar que la solución factorial inicial, no cumple con los requisitos fundamentales del análisis factorial que son el de la estructura simple y el desarrollo positivo.

El requisito de estructura simple se refiere al hecho de que cada variable cargue alto en un

factor y cerca de cero en los demás. El desarrollo positivo se refiere al hecho de que las cargas factoriales sean o tengan signo positivo.

El hecho de que estos requisitos no se cumplan, hace que los factores iniciales que se

obtienen sean muy difíciles de interpretar, ya que muchas variables aparecen con cargas más o menos altas en varios factores al mismo tiempo por un lado, y por el otro, aparecen una gran cantidad de cargas factoriales asociadas a signos negativos.

De hecho, esta extracción inicial sólo permite responder a la interrogante de la posibilidad de

reducir un conjunto de datos, a un número menor de variables o factores que expliquen la mayor cantidad de varianza posible, originalmente contenida en la matriz de intercorrelaciones. En virtud de lo anteriormente expuesto y con objeto de poder interpretar los resultados obtenidos, asi' como poder cumplir en la medida de lo posible con los criterios de estructura simple y desarrollo positivo, se procede a pasar a la tercera etapa del análisis: la rotación.

7.2.3 Rotación a Factores Terminales La configuración exacta de la estructura factorial no es única. Una solución factorial puede

transformarse en otra sin violar las suposiciones básicas. Existen muchas formas estadísticas equivalentes de definir las dimensiones subyacentes del mismo conjunto de datos.

Algunas soluciones son más parsimoniosas y simples, otras más informativas. Cada una dice

algo ligeramente diferente acerca de la estructura de los datos. Cada investigador escoge la que más le conviene de acuerdo a sus fines teóricos y/o prácticos. Las opciones más importantes son: la ortogonal, donde se supone independencia (no correlación) entre los factores extraídos; y la oblicua, que supone correlación entre los factores.

7.3 Tipos de Análisis Factorial 7.3.1 Factores Definidos

Page 77: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

El método de los componentes principales transforma a un conjunto de variables a un nuevo conjunto de variables compuestas o componentes principales que son independientes entre si, o sea, son ortogonales.

Cuando se opta por este tipo de solución, no se requiere hacer ninguna suposición acerca de

la estructura subyacente de las variables. El investigador tan sólo se pregunta: ¿Cuál es la mejor combinación lineal de variables que explica la mayor cantidad de varianza en los datos como conjunto, que cualquier otra? De esta manera, el primer componente principal es el mejor resumen de la combinación lineal exhibida en los datos; el segundo componente es el segundo mejor que sigue, obtenido del residual después de haber extraído al primero, y asi' sucesivamente, hasta agotar la cantidad de varianza total existente.

El segundo componente es independiente (ortogonal) del primero; explica varianza no

explicada por el primero, y asi' con los componentes sucesivos. El modelo se puede expresar como sigue:

Zj = aj1 F1 + aj2 F2 + . . . . + ajn Fn dónde cada una de las n observadas se describe linealmente en término de los componentes

nuevos no correlacionados F1 , F2 ,Fn. De esta manera, los primeros m componentes, muchos menos que las n variables originales, explican la mayor parte de la varianza de los datos.

7.3.2. Factores Inferidos El análisis factorial clásico supone que las correlaciones observadas resultan de una

regularidad subyacente en los datos. Supone que la variabilidad observada está influida por diferentes determinantes, algunos compartidos con otras variables del conjunto, y otros no compartidos con ninguna otra. A los determinantes compartidos se les llama comunes y a los idiosincrásicos se les llama factores únicos.

La parte única de una variable no contribuye a la relación entre las variables; las

correlaciones son resultado de los factores comunes; éstos explican todas las relaciones observadas y son menores en número que las variables originales. Este modelo se puede expresar como sigue:

Zj = aj1 F1 + aj2 F2 +. . . + ajm Fm + djuj dónde: Zj = variable j en forma estandarizada Fi = factores hipotéticos uj = factoru' nico para la variable j aji= coeficiente estandarizado de regresio' n mu' ltiple de la variable j en el factor i (carga

factorial) dj = coeficiente de regresión estandarizado para la variable j en el factor único j Este modelo tiene además las siguientes suposiciones: 1. la correlación entre los factores comunes y los únicos es igual a cero: r(Fj,Ui) = 0 2. La correlación entre los factores únicos es igual a cero:

Page 78: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

r(Uj,Uk) = 0 3. El factor único u es independiente (ortogonal) de todos los factores comunes y de los

factores únicos asociados a otras variables, por lo tanto, si hay correlación entre dos variables, ésta se debe a los factores comunes.

4. Al complemento de la varaianza única (u), se le llama comunalidad (h² ): 1 - u = h² La comunalidad se estima a partir de los datos. El que se usen factores definidos o inferidos depende de que se suponga la existencia de

varianza única. Otra consideración se refiere a si el estudio que se lleva a cabo es exploratorio o confirmatorio. En caso de ser exploratorio se recomienda que el análisis sea de componentes principales; si el estudio fuera confirmatorio, se recomienda emplear el modelo de factores comunes.

7.4 Procedimiento General Un análisis factorial completo proporciona las siguientes seis matrices: a) una matriz de correlaciones de las variables analizadas b) cargas factoriales iniciales c) pesos para estimar las variables a partir de los factores (factor pattern matrix-matriz del

patrón factorial). Esta matriz contiene los pesos o coeficientes de regresión de los factores comunes y por lo tanto señala la composición de una variable en términos de los factores hipotéticos.

d) pesos para estimar factores a partir de las variables (factor estimate-estimación de

factores; o factor score coefficient matrix-matriz de coeficientes de calificaciones factoriales). Esta matriz proporciona un medio de estimar puntajes factoriales a partir de variables observadas. Es decir, son los pesos o coeficientes de regresión que se emplean para estimar las calificaciones factoriales a partir de las variables observadas expresadas en unidades o puntajes z.

e) correlación entre los factores y las variables o cargas factoriales (factor structure

matrix-matriz de la estructura factorial). Esta matriz está constituida por los coeficientes de correlación (o cargas factoriales) entre cada variable y cada factor. Esta es la matriz que se emplea para interpretar (nombrar) a los factores extraídos u obtenidos. Cuando se emplea un método ortogonal de rotación, la matriz de patrón factorial y la matriz de la estructura factorial, son iguales por lo que aparece únicamente la segunda. Cuando el procedimiento de rotación que se emplea es el oblicuo, aparecen ambas, con sus nombres respectivos.

Page 79: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

f) matriz de intercorrelaciones de los factores terminales. Esta matriz sólo se obtiene cuando la solución terminal tuvo una rotación oblicua. Está constituida por las intercorrelaciones de las dimensiones (o factores) subyacentes, y puede servir para análisis factoriales de un orden más alto (someter a análisis factorial los puntajes que los sujetos obtienen en los factores extraídos en el primer nivel o primer paso).

Las variables pueden introducirse por medio de los puntajes crudos que los sujetos

obtuvieron en cada uno de ellas, o por medio de una matriz cuadrada de correlaciones (igual número de columnas, k y de hileras, r).

Someter a análisis factorial a un conjunto de variables significa, en el nivel más general,

expresar a una variable como la combinación lineal de ciertas variables (factores) independientes, ya sea definidos o inferidos.

La importancia de los factores está dada primero, por el valor eigen que obtiene cada uno de

los factores extraídos. Este es la raíz de la ecuación (polinomio) que explica la matriz de varianza reducida (la que se trabaja a partir de la extraccio' n de los factores iniciales). Un segundo aspecto que habla de la importancia de los factores es el porcentaje de varianza, en la matriz reducida, que cada factor explica; asi', son más importantes aquellos factores que tienen un valor eigen y un porcentaje de varianza explicada mayores.

7.5 Métodos de Análisis Factorial El SPSS (Paquete Estadístico para las Ciencias Sociales) cuenta con diferentes métodos de

análisis factorial. Entre los más usados se tienen cuatro: a) el método de componentes principales sin iteración (PA1); b) el método de componentes principales con iteración (PA2); c) factorización canónica de RAO (RAO); y d) el método Alfa (ALPHA). Para ver con más detalle los tres primeros métodos, recomiendo se consulte el documento Diseños Multivariados de Investigación en Ciencias Sociales (Reidl de Aguilar, 1989).

En esta ocasión, se verá solamente el método Alfa, que es el indicado para la elaboración de

instrumentos. 7.5.1 Método Alfa Este método es del tipo del análisis factorial clásico o de factores comunes y únicos. En este método se parte del supuesto de que las variables incluidas en el análisis se

consideran una muestra representativa del universo o población de variables (indicadores o reactivos). En este sentido, este método se deriva del modelo dominio-muestra de medición (ver capítulo III) en ciencias sociales, y se recomienda por lo tanto, para ser empleado específicamente cuando el objetivo primordial del estudio es el de construir un instrumento, y no el de reducir a un número menor un conjunto dado de datos.

La razón por la cual recibe el nombre de Alfa, es que uno de los objetivos primordiales del

análisis es calcular o extraer factores que sean consistentes internamente (ver capítulo VI). La prueba de consistencia interna a la que se hace referencia en este procedimiento es la del Coeficiente Alpha de Cronbach. Se recordará que este coeficiente se aplica a instrumentos cuyos reactivos tienen más de dos opciones de respuesta. De esta manera, los factores obtenidos por medio de este método, al ser sometidos los reactivos constituyentes a un análisis de

Page 80: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

confiabilidad empleando el coeficiente alpha, se obtendrán valores que señalan la existencia de consistencia interna entre ellos.

Las siguientes recomendaciones son particularmente importantes si se desea emplear este

método de análisis factorial; sin embargo, también son adecuadas para cuando se emplea alguno de los otros métodos existentes.

En primer lugar, procúrese no emplear más de 100 variables o reactivos referidos a una

variable o concepto complejo. Esto se debe a que aunque el SPSS cuenta con la posibilidad de manejar un número mayor a 100 variables en un análisis factorial, en la medida en que se incremente el número de variables más allá de 100, el valor que la determinante de la matriz original de intercorrelaciones puede adquirir, puede ser tal que impida invertirla. Esto significa que no podrá producir una matriz de coeficientes de calificaciones factoriales (Factor Score Coefficient Matrix). Esto, a su vez, significa que el investigador deberá emplear la matriz de la estructura factorial (Factor Structure Matrix) como coeficientes de calificaciones factoriales, lo que implica que sus factores terminales deberán quedar constituidos por variables o reactivos con cargas factoriales mínimas, de valor absoluto de 0.40 y mayores. Otra razón que subyace a esta recomendación, es el incremento del tiempo de máquina y de espacio de trabajo requerido por la computadora.

En segundo lugar, se recomienda tener una muestra cuya N sea por lo menos de 5 veces el

número de reactivos que contenga el instrumento inicial. Es decir, el tamaño mínimo de la muestra deberá de ser: N = 5K, dónde, k = número de reactivos. Lo ideal es que N = 10K. Esta recomendación se dirige particularmente a la situación en la que el investigador tiene como objetivo específico y primordial, la elaboración de un instrumento. Se debe recordar que los diseños correlacionales multivariados son diseños de muestras grandes, con objeto de anular resultados espúreos, producto del artefacto del proceso de computación.

En tercer lugar, se recomienda que todos los reactivos o variables sean de opción múltiple,

en alguna de sus acepciones, para garantizar la distribución normal de las respuestas dadas a ellos. Es decir, por ningún motivo deberán los reactivos o variables ser dicotómicos; las opciones de respuesta deben ser por lo menos tres; hasta cinco o siete; de preferencia cuatro o cinco. Entre los tipos de reactivos de opción múltiple se tienen, por ejemplo: tres o más opciones de respuesta excluyentes; ordenar o clasificar a lo largo de un continuo de tres a siete intervalos, donde se definen los intervalos extremos y el intermedio. Las escalas de preferencia, las de grados de acuerdo, las de frecuencias de ocurrencia, etc., son, siempre y cuando tengan más de dos posibilidades de respuesta, variedades de reactivos de opción múltiple.

Por último, si no se puede tener un número menor de cien variables para ser sometidas a

análisis, se recomienda llevar a cabo análisis factoriales parcializados. Los criterios que determinan cómo se pueden dividir las variables para ser sometidas a análisis factorial son, principalmente dos: un criterio cualitativo y otro cuantitativo. El primero hace referencia a la fundamentación teórica que subyace a la elaboración de los reactivos oi' dices de las variables. Es decir, se someten a análisis factorial a aquellos reactivos que se supone están midiendo o la misma variable o la misma dimensión de una variable dada.

El segundo criterio, el cuantitativo, puede cubrirse o cumplirse de dos maneras: a) analizando

una matriz de intercorrelaciones inicial que contenga todas las variables o reactivos del estudio; ó b) sometiendo a la matriz inicial de intercorrelaciones a un análisis de conglomerados, como por ejemplo aplicando el coeficiente de pertenencia.

En el primer caso, el análisis consiste en agrupar las variables por sus magnitudes de correlación. Formar un grupo con aquellas que tengan las correlaciones más altas entre si'; un

Page 81: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

segundo grupo con las que sigan, y asi' sucesivamente, formando cuantos grupos sea necesario o pertinente. Puede ser, por ejemplo, dos: en un grupo todas aquellas variables que tengan correlaciones entre si' que excedan un cierto valor establecido por el investigador, y un segundo grupo con aquellas variables que no excedan el valor estipulado.

En el segundo caso, se somete a toda la matriz de intercorrelaciones a un análisis de

pertenencia, y entonces, se someten a factorización los diferentes conjunto de variables que pertenecieron a los diversos conglomerados detectados en la matriz.

En realidad, el primer caso es una forma no muy estricta, "a ojo de buen cubero", de hacer

lo que se hace en el segundo caso, de manera matemáticamente más formal. 7.6 Métodos de Rotación Se mencionó anteriormente (sección de rotación a factores terminales) que las opciones de

solución terminal más importantes eran la ortogonal y la oblicua. En esta sección se hablará un poco más de cada una de ellas.

7.6.1 Métodos Ortogonales de Rotación Entre los métodos ortogonales de rotación, que suponen independencia (ausencia de

correlación) entre los factores terminales, se tienen tres: a) QUARTIMAX ; b) VARIMAX ; y c) EQUIMAX. El investigador seleccionará el que más convenga a sus objetivos, tomando en cuenta lo que se presenta a continuación.

El método QUARTIMAX tiene por objeto rotar los ejes de los factores para maximizar el

principio de la estructura simple. Es decir, asegurar que una variable cargue alto en un factor, y cero o cerca de cero en los demás. Este método es recomendable cuando las características mismas de los reactivos probabilizan la pertenencia exclusiva y por tanto excluyente, en un factor respecto a los demás. Se recomienda para estudios confirmatorios, es decir, aquellos que se realizan para poner a prueba hipótesis.

El método VARIMAX produce soluciones factoriales que maximizan la cantidad de varianza

explicada. Es el que se emplea más comúnmente y se recomienda en estudios exploratorios y cuyo objetivo primordial sea el de la reducción de los datos.

El método EQUIMAX es en realidad una combinación de los dos primeros; es decir, busca

obtener factores que maximicen la varianza explicada, y que al mismo tiempo, queden constituidos por variables o reactivos que carguen alto en un factor y cero, o cerca de cero, en los demás.

Las soluciones terminales rotadas que producen estos tres métodos difieren entre sí. Sin

embargo, dentro de cada uno de ellos, la solución obtenida es la óptima. Es decir, cada uno de ellos produce la mejor solución factorial matemáticamente posible. Esta situación permite al investigador, por ejemplo, comparar soluciones cuando se tienen el mismo conjunto de reactivos y diferentes muestras; o diferentes conjuntos de reactivos (o variables) y la misma muestra, para escoger aquella que mejor se conforme a sus hipótesis, o al conocimiento acumulado en esa área particular de interés. Le permite también, detectar la estabilidad de la estructura factorial, o falta de la misma, en muestras diferentes en el tiempo o espacio. En cualquier caso, el investigador está seguro, por lo menos, de que las soluciones encontradas son las óptimas desde el punto de vista matemático.

7.6.2. Método Oblicuo de Rotación

Page 82: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Se recordará que este método se emplea cuando no se supone independencia entre los

factores; sino por el contrario, se supone la existencia de una correlación entre los factores obtenidos. El grado de relación u oblicuidad de los ejes de referencia esta' determinado por el ángulo que estos formen entre sí.

Es conveniente repetir aquí que una correlación se puede representar en forma gráfica. Esta

representación se hace con un sistema de coordenadas. Cuando éstas son perpendiculares entre sí, el ángulo que separa a la ordenada de la abscisa es de 90 grados. El coseno de un ángulo recto es igual a cero. Por esto, se dice que los ejes de referencia ortogonales o perpendiculares representan una correlación de cero, o sea, absoluta independencia entre los ejes. Cuando se habla de relación o dependencia entre los factores, se refiere uno a la oblicuidad gráfica entre los ejes de referencia. Cuando el ángulo que se forma entre dos líneas es igual a cero grados, el coseno de ese ángulo es de 1.00 (valor máximo que puede alcanzar una correlación), y conforme el ángulo se va acercando a 90 grados, el coseno de ese ángulo (o correlación) va siendo menor, hasta llegar a cero.

La oblicuidad de los ejes de referencia, que son los que determinan los valores de las cargas

factoriales de las variables o reactivos que constituyen a los diferentes factores, queda establecida por delta. Cuando el valor de delta es positivo, menor o igual a 1.00, se supone que los factores están extremadamente correlacionados y los ejes de referencia son muy oblicuos entre sí. Si el valor de delta es igual a cero, los ejes son bastante oblicuos; éste es el valor de default que tiene el programa del SPSS. Si el valor de delta va de -0.5 a -5, se supone una oblicuidad menor. Cuando adquiere un valor menor a -5, los ejes son casi ortogonales; o sea, que se supone la casi independencia entre los factores.

El investigador puede determinar el grado de oblicuidad (o correlación) que supone entre sus

factores, dependiendo de la literatura sobre el tema investigado, estableciendo un valor para delta. El problema de esta aproximación es el hecho de que no existen soluciones óptimas o

únicas. Existen tantas soluciones como oblicuidades establezca el investigador. Debido a esto, se recomienda que el investigador decida de antemano, el grado de relación que supone existe entre los factores que se extraerán, y en base a esto, escoja por medio del valor delta, la oblicuidad o relación que supone tienen los factores. Si no se está seguro de que tan correlacionados puedan estar los factores obtenidos, es recomendable solicitar dos o tres soluciones que correspondan a diferentes grados de oblicuidad, para que el investigador seleccione a posteriori, aquella que mejor concuerde, ya sea con sus hipótesis, o con el conocimiento acumulado en esa área de estudio.

En cualquier caso, es más difícil establecer comparaciones entre los hallazgos obtenidos en

diferentes ocasiones o con diferentes muestras para el mismo conjunto de reactivos o variables, pues las soluciones serán diferentes dependiendo del grado de relación que haya escogido el investigador como el adecuado en cada ocasión.

Page 83: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

7.7 Opciones Adicionales del Programa de Análisis Factorial del SPSS Entre las opciones adicionales al mínimo requerido para interpretar los resultados de la

aplicación de un análisis factorial a un conjunto de datos, las más empleadas por los investigadores, y por lo tanto las que se recomiendan, dependiendo de los objetivos del estudio, se presentan a continuación.

Es pertinente solicitar siempre medias y desviaciones estándar para cada una de las

variables que se someten a análisis. Esto proporciona información sobre los puntajes crudos obtenidos por los sujetos en las diferentes variables. En ocasiones pueden ayudar a la interpretación de los factores obtenidos.

Se recomienda también solicitar que se imprima la matriz de coeficientes de calificaciones

factoriales (Factor Score Coefficient Matrix). Las razones para esto son: en primer lugar, si el objetivo del estudio era la elaboración de un instrumento, el instrumento final deberá poder ser empleado por otros investigadores en forma directa (sin tener que realizar otro análisis factorial a partir de las n variables o reactivos iniciales) y deberá permitir la obtención de calificaciones factoriales para los sujetos. En segundo lugar, si el objetivo del estudio era simplemente la reducción de un número amplio de variables en una etapa exploratoria o preliminar, el investigador deberá poder contar con un sistema de calificación factorial del número reducido de variables de interés en la muestra final de su investigación.

El investigador puede solicitar al programa que le genere e imprima calificaciones factoriales

de los sujetos empleados como muestra para la reducción de variables o la elaboración del instrumento, pues puede tener interés en poner a prueba hipótesis ulteriores referidas a los factores obtenidos, o puede desear elaborar baremos para la población para la cual esta' construyendo el instrumento. Para esto solicita FACSCORE. Es decir, las calificaciones que los sujetos obtuvieron en los factores extraídos, pueden constituir un nuevo conjunto de datos que se someterán a otro análisis estadístico, con fines ya sea exploratorios, descriptivos o confirmatorios.

Cuando el estudio tiene como principal objetivo someter a prueba alguna hipótesis (como por

ejemplo: la autoestima está constituida por tales factores, y asi' se quiere medir), el investigador puede modificar los siguientes parámetros, dependiendo de sus hipótesis especificas: a) NFACTORS, que señala cuantos factores deberán extraerse del espacio reducido de variabilidad; b) MINIEIGEN, que señala el valor eigen mínimo que el investigador desea tengan los factores que se obtengan; c) ITERATE, que señala cuantas iteraciones habrán de llevarse a cabo: esta situación es común cuando los datos no alcanzan la convergencia (diferencia de 0.001 entre los cálculos sucesivos de la estimación de la comunalidad en el método PA2) con las 25 iteraciones que da por default el programa; d) STOPFAC cuando se desee se detenga el proceso de extracción de factores en aquella iteración en la que la comunalidad (h²) vari'e de una estimación a la sucesiva en una cantidad diferente a 0.001 (valor de default).

7.8 Interpretación de Resultados A continuación llevaremos al lector a lo largo de un listado de computadora, resultado de un

análisis factorial efectuado con un conjunto de datos obtenidos durante 1981/2, para una evaluación de los profesores, el programa y el sistema de enseñanza empleado en la impetración de la materia de Psicología Social Introductoria.

Las variables que se sometieron a análisis factorial fueron doce que se referían al profesor:

cubrió el programa, claro, organizado, flexible, responsable, puntual, cumplido, emplea ejemplos

Page 84: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

adecuados, señala objetivos de la exposición, sistemático, integra la información, y relaciona conceptos. Para el programa, las ocho variables que se referían al mismo eran: da una visión general del área, cubre puntos esenciales, proporciona información actualizada, tiene secuencia pedagógica, es interesante. Respecto al sistema de enseñanza empleado por el profesor, se averiguó si permiti'a la aplicación del conocimiento a situaciones prácticas, si era creativo, entretenido, si estaba sistematizado, si lograba retención del conocimiento, si requería más horas de estudio que los demás, y si era reforzante: un total de siete variables.

El instrumento consisti'a de escalas bipolares, un extremo definido como se menciona en el

párrafo anterior, y el extremo contrario, con lo opuesto a lo señalado arriba. Se disponía de siete intervalos u opciones de respuesta, tipo diferencial semántico. El instrumento fue aplicado a 262 alumnos que cursaban el sexto semestre de la Carrera de Psicología, en ese entonces.

Se verán los resultados de un análisis factorial tipo ALPHA, con rotación oblicua (con una

delta = 0.00, valor de default del programa del paquete estadístico del SPSS. En primer lugar aparecen los nombres de las variables incluidas en el análisis factorial.

Inmediatamente a continuación, aparecen las mismas variables, pero cada una de ellas con la media que la muestra obtuvo, así como su desviación standard. También se señala el número de casos incluidos en el análisis.

Como siguientes resultados, aparece una matriz de intercorrelaciones, que muestra las

correlaciones existentes entre todas las variables. Al final de la matriz de intercorrelaciones aparece el valor de la determinante de la matriz. Este señala la posibilidad de continuar el análisis; de ser esto así, significa que la matriz se podrá invertir y continuar con el procedimiento que lleva a la extracción de los factores iniciales.

A continuación se presenta la comunalidad estimada para cada una de las variables incluidas

en el análisis, y la extracción inicial de los factores. Se observa que se obtienen tantos factores como variables se introducen en el análisis. Sin embargo, también se observa, en la columna de los Valores Eigen, que cinco de ellos (los primeros), adquieren un valor eigen adecuado, o sea, mayor a la unidad. También se puede ver que cada uno de estos factores iniciales explican cierta cantidad de varianza, y por último se indica, en la columna de porcentaje acumulado, el porcentaje de varianza acumulada que explican los primeros cinco factores. En este caso es de 64.6%. Estos datos señalan únicamente, que existe la posibilidad de reducir el número original de variables (23) a un número menor: cinco.

Inmediatamente después se presenta la matriz factorial de los factores extraídos inicialmente.

Esta matriz será ahora la que represente el espacio reducido de variabilidad que se empleará para continuar el análisis de los datos.

Como se puede observar, en el primer factor se encuentran cargando, con pesos factoriales

superiores a 0.40, 21 de las 23 variables incluidas. En el segundo, cuatro variables; en el tercero una; en el cuarto ninguna, y en el quinto, una variable. Esta matriz inicial, no está cumpliendo con ninguno de los tres criterios que se deben reunir para una solución factorial adecuada, y que son: a) el de estructura simple; b) el de desarrollo positivo; c) facilidad de interpretación. El primer criterio significa que las variables que carguen alto en un factor, no lo hagan en otro; el segundo significa que las cargas factoriales deben ser positivas; el tercero no necesita explicación. En el caso de esta matriz, no se cumple ninguno de los tres criterios antes mencionados. Las cuatro variables que cargan alto en el factor dos, también lo hacen en el factor uno; hay muchas cargas factoriales en la matriz que tienen signos negativos; por último, si se está partiendo de la idea de que se están

Page 85: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

midiendo tres cosas: el profesor, el programa y el sistema de enseñanza, el hecho de que tantas variables carguen en el factor uno, es difícilmente interpretable.

Por otro lado, esta es la matriz inicial de extracción de factores, que tiene como principal

propósito determinar si la matriz inicial de correlaciones es susceptible de reducirse a una matriz más pequeña. Los datos de este estudio si se pueden reducir lo que se obtiene es una matriz de cinco columnas (factores iniciales) y de 23 hileras (las variables originales).

El hecho de que no se cumpla con los criterios arriba señalados, se debe también al hecho

de que en los procedimientos de análisis factorial, el primer paso en la reducción de variables se hace empleando el método de componentes principales, que extrae un primer factor general, aquel que explica la mayor cantidad de varianza de la matriz inicial de intercorrelaciones. Esta primera solución es matemáticamente perfecta; sin embargo, carece de sentido teórico, puesto que no ha sido llevada a cabo la rotación, que tiene por objeto principal, hacer lo posible para que se cumplan los criterios arriba señalados.

Por lo tanto, el siguiente paso es rotar los ejes. En esta ocasión se solicitó una rotación

oblicua, con valor de delta = 0.00. La razón por la cual se solicitó este tipo de rotación fue que se penso que las características del profesor, deberían estar relacionadas con la forma en que da clase y si cumple o no el programa de la materia. En otras palabras, los tres aspectos están relacionados entre si. De esta manera, los datos que aparecen después de la matriz inicial de factores, informan de la estimación de la comunalidad de las variables después de haber sido rotados los ejes. Esta comunalidad estimada después de la rotación es muy importante, para efectos de calcular la validez relevante (Guilford, 1954) de los factores encontrados. Se hablara de este tema en el siguiente capítulo.

También se presentan los valores eigen de los factores extraídos después de la rotación.

Como puede observarse, los dos primeros factores obtienen valores eigen muy altos, mientras que los tres últimos los obtienen más pequeños. Así mismo, la cantidad de varianza del espacio reducido que cada factor explica , es mucho muy alta para el primer factor (70.4%); un poco más pequeña para el segundo factor (12.9%). Cada uno de los restantes factores, explica paulatinamente una menor cantidad de varianza. Los cinco factores obtenidos explican el 100% de la varianza acumulada del espacio de variabilidad reducido de las variables en estudio.

Inmediatamente a continuación, aparecen los criterios de las cargas oblicuas mínimas

empleados en la iteración. Como se puede observar, en la iteración 13, aparece un valor cuyas tres unidades después del punto decimal, ya no sufren modificaciones en iteraciones posteriores (de la 14 a la 16). Comprobándose así, que se requirieron 13 iteraciones para estabilizar las estimaciones de la comunalidad de las variables que se colocaron en la diagonal de la matriz de correlaciones para extraer los factores terminales.

A continuación aparece el patrón factorial, que es una matriz rectangular que contiene en

las columnas, la cantidad de cada uno de los fatores que tiene cada variable. Es decir. La primera hilera de valores, corresponden a la indicación que señala cuánto de cada factor tiene la variable cubripro. Estos valores son semejantes a los coeficientes de regresión, y se interpretan de la misma manera. Sin embargo, esta no es la matriz que sirve para interpretar los factores obtenidos. Sólo señala, cuánto de cada factor tiene cada variable.

La siguiente, es una pequeña matriz cuadrada, que señala las correlaciones existentes entre

los factores obtenidos. Como se puede ver, los factores que más correlacionan entre sí, son el 1 con el 4 (-0.57806); el 2 con el 4 (-0.46905), y por último, el 1 con el 3 (-0.38191). Todas las

Page 86: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

correlaciones son negativas, lo que significa que a más de uno, menos del otro. Parece que son en realidad factores complementarios entre sí. Esta matriz de correlaciones sólo aparece en el listado de datos cuando el método de rotación empleado fue el oblicuo, y proporciona información referida a que tan correcta era la suposición de la existencia de una relación entre los factores que se suponían se encontraban subyacentes en las variables estudiadas. Como puede verse, los tres valores de las correlaciones antes señaladas, son: primero, estadísticamente significativos, con una p asociada <0.01; y segundo, de magnitud moderada pero interesante. Esta matriz confirma o no la suposición previa de relación entre los factores. En este caso, la suposición fue confirmada.

La siguiente, es la matriz de la estructura factorial. Esta es la matriz que se emplea para

interpretar los factores obtenidos. Se sabe que hay cinco factores, todos con valores eigen mayores a la unidad, y todos explicando alguna parte más o menos importante de varianza. Sin embargo, también se sabe que el factor 4 correlaciona de manera no despreciable, con los factores 1 y 2; y que el factor 3 correlaciona, de la misma manera, con el 1. Por lo tanto, se procede a la interpretación, de los primeros tres factores, ya que el cuarto, parece ser el inverso del primero, y el quinto, contiene una sola carga > a 0.40.

Como se puede ver, en el primer factor cargan, con valores superiores a 0.40, las siguientes

variables: el profesor es claro, ejemplifica en forma adecuada, señala objetivos de exposición, es sistemático, integra el conocimiento y relaciona conceptos; el programa da una visión general del área, cubre los puntos esenciales, proporciona información actualizada, tiene secuencia pedagógica y es interesante; el sistema de enseñanza permite aplicar el conocimiento a situaciones prácticas, es creativo, entretenido, está sistematizado, permite la retención de la información, requiere más horas de estudio que otros, y es reforzante. Aparentemente, este es un gran factor, muy general, que involucra a toda la situación de enseñanza: el profesor y sus características, el programa de la materia y el sistema de enseñanza empleado. Si se deseara, este factor podría ser el único que se conservara, ya que explica, él sólo, el 70.4% de la varianza, y esto es bueno. Se podría interpretar (o llamar) como SITUACION DE ENSEÑANZA. Si se optara por tener un factor "puro" que no se repitiera en los demás, se podrían dejar sólo las variables relacionadas con el sistema de enseñanza, e interpretarlo (o llamarlo) SISTEMA DE ENSEÑANZA.

Desde otra perspectiva, el investigador puede preferir trabajar con factores "puros", y optar

por considerar a los siguientes factores obtenidos. Es decir, puede optar por trabajar con un número mayor de factores "puros", y por lo tanto, continuar analizando los siguientes dos factores, por ejemplo. En el factor 2 cargan con pesos > 0.40, las siguientes variables: el profesor es claro, organizado, responsable, puntual, cumplido, ejemplifica en forma adecuada, es sistemático, y establece relaciones entre conceptos; el sistema de enseñanza es entretenido y está sistematizado. Este factor, excluyendo las dos últimas variables, se refiere específicamente a características del profesor, y así se podría emplear. Se interpretaría (es decir, se nombraría) como CARACTERISTICAS DEL PROFESOR.

El tercer factor obtenido, está constituido por las siguientes variables: el profesor cubrió el

programa de la materia y señala los objetivos de la exposición; el programa da una visión general del área, cubre los puntos esenciales, contiene información actualizada, tiene secuencia pedagógica y es interesante. Este factor, quitando las variables correspondientes al profesor (las dos primeras), sería un factor "puro", referido al programa de la materia, por lo cual se podría llamar (o interpretar como) PROGRAMA O CONTENIDO DE LA MATERIA.

El cuarto factor está constituido por casi las mismas variables que el primero, pero todas ellas

con cargas de signo negativo. Este factor puede considerarse el inverso del primero. En la medida

Page 87: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

que sería redundante permanecer con él, se puede desechar, pues proporcionaría la misma información que el primero, pero a la inversa.

Por último, el quinto factor sólo contiene una variable con una carga > a 0.40: el profesor es

flexible. Como de acuerdo a Harman (1976), para que un factor pueda ser considerado como tal debe incluir, por lo menos tres variables con carga factorial alta, y como este no es el caso, este factor queda automáticamente descartado.

De acuerdo a los resultados de este análisis, parece que se obtuvieron: o un factor general,

SITUACIÓN DE ENSEÑANZA, o tres factores "puros": SISTEMA DE ENSEÑANZA, CARACTERISTICAS DEL PROFESOR, y PROGRAMA O CONTENIDO DE LA MATERIA.

La última matriz de resultados es la llamada matriz de coeficientes de calificación

factorial. Esta matriz es la que sirve para obtener calificaciones factoriales en los Sujetos a los que se les aplicara este instrumento. En lugar de obtener una calificación para cada variable, se obtendría una sola calificación factorial (si se opta por el único factor general) o tres calificaciones factoriales, cada una correspondiente a cada uno de los tres factores "puros" obtenidos. El procedimiento para obtener los puntajes factoriales, consiste en transformar los puntajes crudos obtenidos por los Sujetos en cada una de las variables que constituyen un factor, en puntajes z, y multiplicarlos por los coeficientes que les corresponden en cada factor, realizando una suma algebraica de los resultados multiplicados. El total de esta suma, corresponde al puntaje factorial del Sujeto en ese factor. Los coeficientes factoriales se presentan en esa última matriz del ejemplo numérico.

7.9 Ejemplo Numérico Lista de variables • Cubripro (El profesor cubrió el programa de la materia) • Claro (es claro en su exposición) • Organiz (es organizado) • Flex (es flexible) • Respon (es responsable) • Puntual • Cumplió (es cumplido) • Ejeadecu (ejemplifica en forma adecuada) • Senobex (señala el objetivo de su exposición) • Sisteco (es sistemático) • Intgro (integra la información al conocimiento existente) • Relcepto (relaciona conceptos) • Vigrare (El programa se da una visión general del área) • Cuptesen (cubre puntos esenciales) • Infact (la información es actualizada) • Secpeda (tiene secuencia pedagógica) • Intest (es interesante) • Alcopra (El sistema de enseñanza permite la aplicación del conocimiento a situaciones

prácticas) • Creativo • Entredo (es entretenido)

Page 88: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

• Sistedo (está sistematizado) • Lograret (permite la retención del conocimiento) • Mashre (requiere de más horas de estudio) • Reforza (es reforzante) Variables Incluidas en el Estudio VARIABLE MEDIAS DESV. STANDARD N Cubripro 5.4695 1.9251 262 Claro 5.8626 1.0487 262 Organiz 5.7137 1.3036 262 Flex 5.8053 1.3377 262 Respon 6.0033 1.2821 262 Puntual 5.8053 1.4895 262 Cumplio 6.0038 1.3490 262 Ejeadecu 5.8511 1.5076 262 Senobex 5.1985 1.8107 262 Sisteco 5.4924 1.5231 262 Intgro 6.1412 1.3359 262 Relcepto 5.8511 1.3634 262 Vigrare 5.5344 1.6012 262 Cuptesen 5.6221 1.3863 262 Infact 5.1031 1.5977 262 Secpeda 5.2824 1.5049 262 Intest 5.5267 1.8145 262 Alcopra 5.2710 1.7351 262 Creativo 5.1298 1.7459 262 Entredo 5.3397 1.7560 262 Sistedo 5.4237 1.3785 262 Lograret 5.5191 1.3609 262 Mashre 4.7557 1.7313 262 Reforza 5.2405 1.5948 262

Coeficientes de Correlación

Se presentan los datos de la Matriz Simétrica en forma colapsada con objeto de no ocupar tanto espacio.

Cubripro Claro Organiz Flex Respon Puntual Cubripro 1.00000 0.15923 0.21712 0.17547 0.18090 0.05203 Claro 1.00000 0.47278 0.31132 0.51333 0.22809 Organiz 1.00000 0.28870 0.56691 0.36386 Flex 1.00000 0.46287 0.26357 Respon 1.00000 0.40969 Puntual 1.00000 Cumplio 0.29585 0.45805 0.50172 0.28490 0.55160 0.57430 Ejeadecu 0.13639 0.62678 0.35840 0.33514 0.44830 0.25492

Page 89: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Cubripro Claro Organiz Flex Respon Puntual Senobex 0.24577 0.48858 0.38939 0.20266 0.27366 0.19764 Sisteco 0.21487 0.43110 0.43597 0.14876 0.40715 0.37510 Intgro 0.06053 0.43780 0.17071 0.31989 0.34196 0.28729 Relcepto 0.19751 0.61265 0.31222 0.34116 0.45404 0.31583 Vigrare 0.15198 0.38616 0.22408 0.28843 0.24536 0.17390 Cuptesen 0.28782 0.38581 0.26006 0.27835 0.27891 0.19618 Infact 0.25951 0.43152 0.22394 0.22992 0.28413 0.17268 Secpeda 0.32039 0.49080 0.30698 0.22534 0.23774 0.15110 Intest 0.18670 0.47510 0.27942 0.32652 0.34336 0.25639 Alcopra 0.07074 0.33638 0.25464 0.21099 0.21311 0.17467 Creativo 0.20979 0.48478 0.30762 0.36027 0.38149 0.14677 Entredo 0.20426 0.45820 0.35397 0.32348 0.36704 0.31103 Sistedo 0.19619 0.49362 0.40036 0.18617 0.42399 0.34447 Lograret 0.15524 0.44747 0.28708 0.21776 0.38754 0.20691 Mashre 0.06673 0.21356 0.08094 0.16632 0.10054 0.06172 Reforza 0.12532 0.46424 0.26176 0.28781 0.34996 0.28106 Cumplio Ejeadecu Senobex Sisteco Intgro Relcepto Cumplio 1.00000 0.42227 0.29615 0.45779 0.22931 0.44191 Ejeadecu 1.00000 0.53722 0.47256 0.40999 0.66581 Senobex 1.00000 0.49375 0.43347 0.52106 Sisteco 1.00000 0.46847 0.55387 Intgro 1.00000 0.59217 Relcepto 1.00000 Vigrare 0.20480 0.42828 0.37163 0.31273 0.35505 0.46829 Cuptesen 0.26915 0.44780 0.35970 0.24813 0.18616 0.37959 Infact 0.19714 0.50747 0.39951 0.27192 0.24807 0.43799 Secpeda 0.29576 0.48977 0.51507 0.38707 0.27549 0.52660 Intest 0.29814 0.55541 0.40305 0.35221 0.37858 0.50726 Alcopra 0.24017 0.42853 0.38649 0.27407 0.30245 0.35884 Creativo 0.23729 0.52558 0.41966 0.32600 0.38308 0.50871 Entredo 0.34719 0.56482 0.42941 0.44149 0.46784 0.53490 Sistedo 0.47711 0.47109 0.38064 0.54443 0.25867 0.45565 Lograret 0.33908 0.61484 0.41982 0.38454 0.39998 0.53117 Mashre 0.08570 0.25758 0.25630 0.19253 0.19057 0.19391 Reforza 0.29519 0.55197 0.40932 0.41164 0.48754 0.47464 Vigrare Cuptesen Infact Secpeda Intest Alcopra Vigrare 1.00000 0.51591 0.57147 0.51112 0.66893 0.51171 Cuptesen 1.00000 0.61446 0.59312 0.53333 0.44254 Infact 1.00000 0.58702 0.58123 0.44737 Secpeda 1.00000 0.55146 0.41958 Intest 1.00000 0.52403 Alcopra 1.00000 Creativo 0.44655 0.47624 0.55560 0.46575 0.50081 0.55623 Entredo 0.41485 0.38189 0.44635 0.47101 0.52083 0.52299 Sistedo 0.30348 0.39886 0.37674 0.46661 0.43737 0.49805 Lograret 0.48057 0.49225 0.51804 0.50059 0.56844 0.65250 Mashre 0.22969 0.28226 0.29447 0.26186 0.21308 0.37158 Reforza 0.55563 0.50396 0.52856 0.47605 0.59026 0.65481

Page 90: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Creativo Entredo Sistedo Lograret Mashre Reforza Creativo 1.00000 0.71417 0.52151 0.55204 0.39331 0.60520 Entredo 1.00000 0.58137 0.52716 0.30466 0.63153 Sistedo 1.00000 0.58079 0.20888 0.53905 Lograret 1.00000 0.22801 0.68192 Mashre 1.00000 0.34465 Creativo Entredo Sistedo Lograret Mashre Reforza Reforza 1.00000 Cubripro 0.20979 0.20426 0.19619 0.15524 0.06623 0.12532 Claro 0.48478 0.45820 0.49362 0.44747 0.21356 0.46424 Organiz 0.30762 0.35397 0.40036 0.28708 0.08094 0.26176 Flex 0.36027 0.32348 0.18617 0.21776 0.16632 0.28781 Respon 0.38149 0.36704 0.42399 0.38754 0.10054 0.34996 Puntual 0.14677 0.31106 0.34447 0.20691 0.06172 0.28106 Cumplio 0.23729 0.34719 0.47711 0.33908 0.08570 0.29519 Ejeadecu 0.52558 0.56482 0.47109 0.61484 0.25758 0.55197 Senobex 0.41966 0.42941 0.38064 0.41982 0.25630 0.40932 Sisteco 0.32600 0.44149 0.54443 0.38454 0.19253 0.41164 Intgro 0.38308 0.46784 0.25867 0.39998 0.19057 0.48754 Relcepto 0.50871 0.53490 0.45565 0.53117 0.19391 0.47464 Vigrare 0.44655 0.41485 0.39348 0.48057 0.22969 0.55563 Cuptesen 0.47624 0.38189 0.39886 0.49225 0.28226 0.50396 Infact 0.55560 0.44635 0.37674 0.51804 0.29447 0.52856 Secpeda 0.46575 0.47101 0.46661 0.50059 0.26186 0.47605 Intest 0.50081 0.52088 0.43737 0.56844 0.21308 0.59026 Alcopra 0.55623 0.52299 0.49805 0.65250 0.37158 0.65481 Determinante de la Matriz de Correlación: 0.0000008(.76729617D-06)

Extracción Inicial de Factores Variables Comunalidad Factor Valor Porcentaje Porcentaje Estimada Eigen de Varianza Acumulado Cubripro 0.26234 1 9.95867 41.5 41.5 Claro 0.60245 2 2.09219 8.7 50.2 Organiz 0.50207 3 1.28735 5.4 55.6 Flex 0.35291 4 1.10993 4.6 60.2 Respon 0.57259 5 1.06624 4.4 64.6 Puntual 0.45807 6 0.96803 4.0 68.7 Cumplio 0.58886 7 0.83236 3.5 72.1 Ejeadecu 0.65748 8 0.77401 3.2 75.4 Senobex 0.49235 9 0.63917 2.7 78.0 Sisteco 0.55541 10 0.56751 2.4 80.4 Intgro 0.55723 11 0.53665 2.2 82.6 Relcepto 0.67056 12 0.49609 2.1 84.7 Vigrare 0.56308 13 0.46448 1.9 86.6 Cuptesen 0.53239 14 0.43458 1.8 88.4 Infact 0.58656 15 0.36945 1.5 90.0 Secpeda 0.58552 16 0.35744 1.5 91.5 Intest 0.60746 17 0.34225 1.4 92.9 Alcopra 0.60430 18 0.31578 1.3 94.2 Creativo 0.66634 19 0.28462 1.2 95.4 Entredo 0.66407 20 0.27217 1.1 96.5 Sistedo 0.60749 21 0.24038 1.0 97.5 Lograret 0.67127 22 0.22581 0.9 98.5 Mashre 0.24488 23 0.19454 0.8 99.3 Reforza 0.67377 24 0.17032 0.7 100.0 La Convergencia requirió 13 iteraciones.

Page 91: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Matriz Inicial de Factores Usando Alpha Variables Factor 1 Factor 2 Factor 3 Factor 4 Factor 5 Cubripro 0.29230 0.07562 -0.35501 -0.05919 -0.01610 Claro 0.69302 0.14645 0.02689 -0.13741 -0.09295 Organiz 0.51210 0.41757 -0.13164 0.06157 0.07382 Flex 0.44821 0.15899 -0.00777 0.26125 -0.41539 Respon 0.58111 0.48089 0.01451 0.21238 -0.15501 Puntual 0.39641 0.40620 0.11381 0.16824 0.07263 Cumplio 0.55585 0.58870 -0.13411 0.12984 0.17331 Ejeadecu 0.73033 0.01447 0.10226 -0.12124 -0.06714 Senobex 0.63557 0.01042 -0.04435 -0.33498 0.00655 Sisteco 0.61499 0.29385 0.09228 -0.29620 0.19654 Intgro 0.55630 0.07299 0.40789 -0.22130 -0.24644 Relcepto 0.74404 0.12642 0.13072 -0.29051 -0.17937 Vigrare 0.63813 -0.24828 -0.04418 0.05064 -0.08172 Cuptesen 0.64452 -0.23832 -0.33897 0.13901 -0.02207 Infact 0.67466 -0.30689 -0.24396 0.03702 -0.06507 Secpeda 0.69722 -0.18721 -0.33483 -0.19481 0.02552 Intest 0.71896 -0.17041 -0.04007 0.07238 -0.08259 Alcopra 0.65687 -0.34935 0.19005 0.22112 0.24465 Creativo 0.73422 -0.23248 0.06002 0.10093 -0.04392 Entredo 0.73873 -0.05270 0.14996 0.04281 0.05714 Sistedo 0.68923 0.10377 0.02540 0.05265 0.37282 Lograret 0.72570 -0.16047 0.09991 0.04364 0.15536 Mashre 0.35367 -0.20503 0.05433 0.02979 0.00627 Reforza 0.76577 -0.23852 0.23183 0.14449 0.10099

EXTRACCION FINAL DE FACTORES Valor Porcentaje Porcentaje Variables Comunalidad Factor Eigen de Varianza Acumulado Cubripro 0.22103 1 16.90624 70.4 70.4 Claro 0.52997 2 3.09706 12.9 83.3 Organiz 0.46315 3 1.67751 7.0 90.3 Flex 0.46622 4 1.20051 5.0 95.3 Respon 0.63852 5 1.11994 4.7 100.0 Puntual 0.36871 Cumplio 0.72031 Ejeadecu 0.59292 Senobex 0.51829 Sisteco 0.59955 Intgro 0.50090 Relcepto 0.70325 Vigrare 0.48006 Cuptesen 0.60471 Infact 0.61446 Secpeda 0.67185 Intest 0.55961 Alcopra 0.60836 Creativo 0.60887 Entredo 0.57609 Sistedo 0.62833 Lograret 0.58843 Mashre 0.17100 Reforza 0.72810

Page 92: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Rotación para las Cargas Directas Oblícuas Mínimas Delta: 0.00 Iteración Criterio Dirobl 0 9.604620 1 8.854873 2 6.848895 3 5.404501 4 4.742260 5 4.432165 6 4.327395 7 4.285476 8 4.266867 9 4.258130 10 4.253802 11 4.251567 12 4.250385 13 4.249757 14 4.249426 15 4.249253

16 4.249164

7.10 Guía de Estudio 1. Determinar cuándo una variable es compleja. 2. Señalar los principales objetivos del análisis factorial. 3. Distinguir entre factores inferidos y definidos. 4. Señalar el objetivo de la rotación a factores terminales. 5. Indique los requisitos que debe cumplir una solución factorial adecuada. 6. Distinguir entre los métodos oblicuos y los ortogonales de rotación 7. Señalar en qué consiste interpretar un factor. 8. Señalar la diferencia que existe entre la matriz del patrón factorial y la matriz de la

estructura factorial. 7.11 Autoevaluación

7.11.1 Preguntas 1. ¿Qué característica muy importante tienen que tener las variables que se sometan a

análisis factorial? 2. ¿Qué característica tienen que tener los reactivos que se incluyan en un análisis

factorial? 3. ¿A qué preguntas responden los factores definidos y los inferidos en análisis factorial? 4. ¿Cuáles son los indicadores de la bondad de los factores obtenidos? 5. ¿Cuándo se utiliza un método de rotación ortogonal y cuándo uno oblicuo? 6. ¿Qué significa interpretar un factor? 7. ¿Qué ventaja tiene el método alpha de extracción de factor3es, para el desarrollo de

instrumentos heterogéneos? 8. ¿Cuál es el tamaño mínimo que debe tener una muestra para ser empleada en el

desarrollo de un instrumento heterogéneo por medio del análisis factorial? 9. ¿Cuál de los tres métodos de rotación ortogonal existentes es el mejor? 10. ¿Cuáles son los requisitos que debe cumplir una solución factorial adecuada? 7.11.2 Respuestas

Page 93: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

1. Las variables que se someten a análisis factorial, tienen que distribuirse en forma

normal en la población 2. Los reactivos que se incluyen en un análisis factorial deben ser de opción múltiple; de

preferencia de cinco opciones. 3. Los factores definidos responden a la pregunta sobre la posibilidad de reducción del

número de variables a un número menor; los inferiores responden a la pregunta que se refiere a la estructura subyacente que determina las intercorrelaciones observadas entre los reactivos incluidos.

4. Los factores obtenidos se califican en cuanto a su bondad, empleando la siguiente información: a) cantidad de varianza explicada por el factor (entre más grande, mejor); b) valor eigen obtenido por el factor (siempre mayor que la unidad, y entre más grande, mejor), c) orden de aparición: los que aparecen primero son mejores que los que aparecen después.

5. El método de rotación ortogonal se emplea cuando el investigador supone independencia (no correlación entre los factores que va a obtener; el oblicuo supone dependencia (o correlación) entre los factores que va a obtener.

6. Interpretar un factor significa darle un nombre. El nombre se le da en virtud de lo que tienen en común las variables que cargan alto en ese factor.

7. El método alpha de extracción de factores tiene la ventaja de extraer factores que son consistentes internamente. Es decir, los factores quedan constituidos por variables consistentes entre sí; esto obvia la necesidad de determinar la confiabilidad de consistencia interna de los factores obtenidos.

8. El tamaño mínimo que debe tener la muestra que se emplee para desarrollar instrumentos por medio del método alpha de extracción de factores es de 5 sujetos por reactivo que se incluya: idóneamente debería tener 10 sujetos por reactivo.

9. Ninguno de los tres métodos de rotación ortogonal existentes es mejor que otro. La elección que hace el investigador de alguno de ellos, dependen de sus objetivos, y de la medida en que desea se cumplan los requisitos que debe tener una solución factorial adecuada.

10. Los requisitos que debe cumplir una solución factorial adecuada son los siguientes: a) desarrollo positivo (que la mayoría de las cargas tengan signo positivo; b) estructura simple (que las variables que carguen alto en un factor, carguen bajo o cero en los demás)

Page 94: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

VIII. CONFIABILIDAD DE LOS INSTRUMENTOS 8.1 Concepto de Confiabilidad En las ciencias sociales, así como en todas aquellas ciencias donde se utilicen instrumentos

para llevar a cabo mediciones, una de las preocupaciones más importantes que tienen los científicos, es la de que sus instrumentos de medición sean confiables. En general, por confiabilidad se entiende el hecho de poder "confiar" en que las mediciones realizadas sean correctas. Que las magnitudes de aquellos aspectos medidos, sean de confiar. Es decir, que si se vuelve a medir esos mismos aspectos, se obtendrán magnitudes, si no idénticas, por lo menos si semejantes. En otras palabras: se dice que la confiabilidad de un instrumento se refleja en el que el mismo instrumento empleado en dos o más ocasiones para medir los mismos atributos de los mismos objetos o Sujetos, arroja magnitudes iguales.

La confiabilidad tiene que ver con el error de medición. Como ya se señaló al principio de

este texto, todos los instrumentos están acompañados de error; se establece que este error puede ser de dos tipos: aleatorio y sistemático. Del aleatorio da cuenta la teoría del error de medición presentado en el Capítulo III. El sistemático es el error que se tiene que determinar de manera empírica. Es decir: se tiene que determinar en forma empírica, para cada instrumento de medición que se elabore o emplee, la cantidad de error sistemático que éste contiene. La cantidad de error que contenga no debe sobrepasar de cierta magnitud, para poder decir que el instrumento es confiable. La mayoría de los investigadores han optado por aceptar como confiables, a los instrumentos que tengan 15% o menos de error sistemático. En otras palabras, se dice que un instrumento es confiable si su coeficiente arroja un valor de 0.85 o más. Un instrumento perfectamente confiable tendría un coeficiente de confiabilidad de 1.00. En la práctica, esto nunca es así, mucho menos en ciencias sociales.

8.2 Tipos de Confiabilidad Existen diferentes tipos de confiabilidad que dependen del tiempo en que se hacen las

mediciones, de los instrumentos que se emplean y del comportamiento interno de los mismos. A continuación se presentan cada una de ellas, así como el procedimiento empírico que se efectúa para calcularla: los procedimientos estadísticos que se emplean para determinar sus índices o coeficientes.

8.2.1 Estabilidad Temporal. Se dice que un instrumento tiene estabilidad temporal cuando al emplearlo en dos ocasiones

diferentes, con los mismos Sujetos, arroja resultados semejantes. Es decir, si se mide la inteligencia a un grupo de individuos, por ejemplo hoy, y se les vuelve a medir mañana, se deberían obtener resultados semejantes o muy parecidos. Si hoy un Sujeto tiene un coeficiente intelectual de 100, mañana, al volverle a medir inteligencia empleando el mismo instrumento, debería obtener una calificación muy semejante a la del día anterior. Si esto sucede, se dice que el instrumento tiene estabilidad temporal.

El procedimiento que se emplea para determinar la estabilidad temporal de un instrumento,

es el de aplicarlo en dos ocasiones, a los mismos Sujetos, bajo las mismas circunstancias y con las mismas instrucciones, es decir, en forma estandarizada, y obtener la correlación de los puntajes obtenidos por los Sujetos en ambas aplicaciones. A este procedimiento se le conoce como test-retest.

Page 95: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

El coeficiente de correlación que se emplea depende del nivel de medición del instrumento: si es nominal, se emplea el Coeficiente C de Contingencia (ver Siegel, 1976); si es ordinal, se puede emplear el coeficiente de correlación de rangos de Spearman (ver Siegel, 1976); si es intervalar, se puede emplear el coeficiente de correlación Producto-Momento de Pearson (ver Downie y Heath).

Este tipo de confiabilidad es especialmente importante para aquellos instrumentos que miden

variables que sufren cambio en el tiempo, debido a una manipulación experimental o al desarrollo o maduración del individuo. Por ejemplo, será importante para aquellos instrumentos que miden actitudes, en programas de cambio actitudinal, donde se debe determinar que el cambio observado en la actitud entre la pre y la post medición se debió a la manipulación experimental y no a que el instrumento carece de estabilidad temporal. Es también importante cuando se mide una variable en diferentes ocasiones, en las que se espera que esta se modifique como resultado del paso del tiempo, y no que los cambios que se observen se deban a falta de confiabilidad del instrumento.

8.2.2 Homogeneidad de Varianza o Equivalencia de Formas En los casos en que se debe medir una variable en dos ocasiones, pero se corre el riesgo de

que el Sujeto recuerde las respuestas de la primera ocasión y esto influya en las respuestas que de en la segunda ocasión; o en aquellos casos en los que el responder en la primera ocasión puede producir fatiga y ésta afectar las respuestas de la segunda, se requiere tener formas equivalentes del instrumento. Es decir, dos instrumentos diferentes, pero que midan la misma variable. A estas formas equivalentes se les llama pruebas paralelas. En el capítulo III, donde se presenta el Modelo de las Pruebas Paralelas, se establecen las características estadísticas que éstos deben tener para ser consideradas como tales.

Para establecer el coeficiente de equivalencia, se aplican las formas paralelas o equivalentes

del instrumento, cada una en una ocasión, o el mismo día, uno primero y otro después, al mismo grupo de Sujetos, en forma estandarizada, y se correlacionan los resultados obtenidos en los dos instrumentos. Los coeficientes de correlación que se empleen dependen del nivel de medición que posean los instrumentos, al igual que en la sección anterior.

8.2.3 Consistencia Interna Este tipo de confiabilidad se refiere al comportamiento del instrumento a su interior, Es decir,

al comportamiento de la estructura interna del mismo. En otras palabras, al comportamiento, en términos de variabilidad, que tienen los reactivos o afirmaciones que los constituyen, respecto a ellos mismos, considerados por separado o en conjunto.

Dicho de otra manera, con este tipo de confiabilidad se establece el grado o nivel de

consistencia interna de los reactivos que lo constituyen. Es decir, si se portan igual o no, en cuanto a la forma en que varían, entre ellos mismos. La lógica subyacente señala que si se portan igual, unos a otros, miden lo mismo, de la misma manera; o sea, que son consistentes entre sí

Dependiendo de la forma en que se determina la consistencia interna del instrumento, este

tipo de confiabilidad se subdivide a su vez, en diferentes subtipos. A continuación cada uno de ellos.

Page 96: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

8.2.3.1 Mitades El procedimiento de mitades para establecer la consistencia interna de un instrumento

consiste en dividir al mismo en dos partes: la primera y la segunda mitad (si los reactivos tienen el mismo grado de dificultad), y calcular la correlación entre la calificación obtenida en la primera mitad, con aquella obtenida en la segunda. Este coeficiente establece la consistencia existente entre ambas partes del instrumento.

Si los reactivos que constituyen el instrumento tienen un nivel creciente de dificultad, o se

contestan contra reloj (son pruebas de velocidad), las mitades se establecen de otra manera. Se forman dos grupos de reactivos, en uno de ellos se coloca a los reactivos pares y en el otro a los nones. A este procedimiento se le conoce como pares y nones. Se determina entonces la calificación que los sujetos obtienen en cada una de estas dos mitades, y se calcula la correlación existente entre ellas.

8.2.3.2 Instrumentos Con Dos Opciones de Respuesta Cuando los instrumentos tienen reactivos, afirmaciones o preguntas que se contestan en una

de dos opciones de respuesta, y una de ellas tiene asignado un valor o peso de 0 y la otra de 1, la consistencia interna de los mismos, se establecen por medio del coeficiente de Kudder-Richardson, cuya fórmula se presenta a continuación:

(8.1) rkk = k ( 1 - Σpq) k - 1 sy

2 dónde: rkk = coeficiente de correlación entre reactivos k = número de reactivos Σpq = suma del producto de la proporción de Sujetos que contestó en la opción 1 por la proporción de sujetos que contestó en la opción 0, para todos los reactivos de la

prueba sy

2 = varianza de la calificación total de la prueba Si la magnitud del coeficiente obtenido con la fórmula (K-R) no alcanza a ser de 0.85 o

mayor, se procede entonces a determinar los valores de las correlaciones existentes entre cada reactivo y la calificación total de los reactivos. La razón de esto se debe a que alguno o algunos de los reactivos no son consistentes entre sí, y esta es la causa por la que no se alcanzó el valor deseado del coeficiente. Se debe encontrar ese o esos reactivos. A este procedimiento de consistencia interna se le conoce como el análisis correlación item-test. El objetivo del mismo es el de encontrar aquel o aquellos reactivos que no están correlacionando de manera semejante a la mayoría, con la calificación total.

Una vez detectado(s) aquel(los) reactivo(s) que está(n) causando problema, se elimina(n) del

instrumento, y se vuelve a calcular el coeficiente de Kudder-Richardson. Lo más probable es que en esta segunda ocasión, se encuentre un coeficiente de 0.85 o mayor.

El coeficiente de correlación que se emplea para determinar la correlación entre el reactivo y

la calificación total, es el biserial-puntual. Se puede consultar a Downie y Heath () para ver su desarrollo y aplicación en un conjunto de datos.

Page 97: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

8.2.3.3. Instrumentos Con Tres o Más Opciones de Respuesta Cuando los instrumentos tienen reactivos con tres o más opciones de respuesta, la

consistencia interna se calcula con el coeficiente alfa de Cronbach, que se presentó en el Capítulo IV. Por esta razón no se le verá aquí.

Si el coeficiente obtenido con el alfa de Cronbach no adquiere una magnitud de 0.85 o más,

se deberá proceder a calcular las correlaciones reactivo-calificación total. Pero en este caso, se deberá emplear el coeficiente de correlación Producto-Momento de Pearson. Una vez detectados el o los reactivos que están causando el problema, se quitan de la prueba y se vuelve a calcular el alfa de Cronbach.

En ocasiones, los reactivos problema son muy fáciles de detectar, ya que adquieren valores

de correlación marcadamente diferentes que la mayoría. Cuando este no es el caso, un procedimiento conveniente de seguir, es el siguiente: compútese el valor promedio de las correlaciones de todos los reactivos que constituyen el instrumento, prueba o escala; compútese la desviación estándar de la distribución de correlaciones; elimínense los reactivos que tengan valores de correlación reactivo-calificación total, que caigan por fuera de dos desviaciones estándar a la derecha o a la izquierda de la media. Vuélvase a calcular el alfa de Cronbach. Si aún así no se alcanza un valor adecuado, elimínense, si el número de reactivos lo permite, los valores de correlación más allá de una desviación estándar a la derecha o izquierda de la media. Por lo general, no será necesario llegar a este tercer paso. Casi siempre, se alcanzan coeficientes adecuados, con la primera eliminación de reactivos problemáticos.

La confiabilidad de consistencia interna se calcula de preferencia cuando se va a elaborar un

instrumento que se empleará en una sola ocasión. Como se puede observar, los coeficientes de confiabilidad están íntimamente relacionados

con los modelos de medición presentados en el capítulo III. La confiabilidad de estabilidad temporal deriva de la teoría de la medición del error. La confiabilidad de equivalencia de formas, deriva del modelo de las pruebas paralelas. La confiabilidad de consistencia interna, en cualquiera de sus versiones, deriva del modelo dominio-muestra.

En realidad, cuando se elaboran instrumentos para escalar personas, lo que se hace es

buscar construir un instrumento que tenga la confiabilidad adecuada al objetivo de la investigación que pretende llevar a cabo el investigador.

Cuando se elabora un instrumento, no es requisito indispensable calcularle todos los tipos de

confiabilidad. En realidad el investigador le calcula aquella que el instrumento necesita tener dados los objetivos de su investigación. Por lo general el procedimiento es como sigue: el instrumento se elaboró para un programa de cambio actitudinal, deberá entonces de calculársele la confiabilidad de estabilidad temporal y la de equivalencia de formas. En otra ocasión, otro investigador lo desea para otros fines: una aplicación en un estudio de campo, y entonces determina alguna de las diversas consistencias internas. Sin embargo, siempre que se publiquen los resultados, deberá señalarse cuál tipo de confiabilidad se estableció, cuál fue su magnitud y si fue estadísticamente significativa. También deberá señalarse si se eliminaron algunos reactivos, cuáles y porqué. Por último, no debe olvidarse nunca, describir las características más importantes de la muestra empleada para la determinación de la(s) confiabilidad(es).

8.3 Guía de Estudio

Page 98: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

1. Comprender el concepto de confiabilidad. 2. Distinguir los diferentes tipos de confiabilidad. 3. Indicar los diferentes procedimientos empíricos para establecer los diferentes tipos de

confiabilidad. 8.4 Autoevaluación

8.4.1 Preguntas 1. ¿Qué se entiende por confiabilidad? 2. ¿Qué procedimiento se sigue para determinar los siguientes tipos de confiabilidad: a)

estabilidad temporal; b) equivalencia de formas; c) consistencia interna? 3. ¿Cuándo es adecuado determinar cada tipo de confiabilidad? 8.4.2 Respuestas 1. Confiabilidad significa medir sin errar; obtener en dos ocasiones que se aplica el

mismo instrumento al mismo sujeto, puntuaciones semejantes. 2. Para determinar la estabilidad temporal de un instrumento se sigue el procedimiento

de test-retest correlacionado el resultado de ambas aplicaciones. Para determinar la consistencia interna, se pueden establecer las correlaciones entre la primera y la segunda parte; entre los reactivos pares y los nones; entre los reactivos y las calificaciones totales, y emplear los coeficientes de Kudder-Richardson y el de Alpha de Cronbach.

3. La confiabilidad de estabilidad temporal es adecuada para instrumentos que midan variables que se espere se modifiquen con el transcurso del tiempo o con base en el efecto de una intervención experimental; la confiabilidad de equivalencia de formas es la necesaria para hacer evaluaciones de variables que se modifican en un diseño antes-después; la confiabilidad de consistencia interna se debe calcular para aquellos instrumentos que se emplearán tan sólo una vez, como por ejemplo en investigaciones de campo, con propósitos muy específicos. Si el objetivo de la investigación o estudio es el de construir específicamente un instrumento, se deberán calcular todas ellas.

Page 99: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

IX. VALIDEZ DE LOS INSTRUMENTOS 9.1 Concepto de Validez Se dice que un instrumento es válido, cuando mide lo que pretende medir. Si se construyó

para medir inteligencia, y la mide, es válido; si se elaboró para medir actitudes, y las mide, es válido, etc. Aunque su definición es absolutamente sencilla, alcanzarla es uno de los problemas más difíciles. Así como existen diversos tipos de confiabilidad, también existen diferentes tipos de validez. A continuación presentaremos cada uno, y la manera de determinarlos.

9.2 Tipos de Validez La validez puede ser de diferentes tipos dependiendo de la forma en que se construye el

instrumento, o de los objetivos del investigador. A continuación se presentan los diversos tipos de validez.

9.2.1 De Face La llamada validez de face, es aquella que se dice tiene un instrumento que parece medir lo

que pretende. Por ejemplo: se dice que la prueba es de historia, por que tiene preguntas sobre datos históricos; se dice que es de aritmética, por que tiene problemas aritméticos. Para ciertas variables, esto es fácil y obvio de determinar. Pero para otras ya no. Sobre todo para variables como las que estudian los científicos sociales.

9.2.2 De Contenido La validez de contenido se puede confundir con la primera. De hecho es muy parecida a la

primera, pero aquí, son expertos los que dicen si el contenido de un instrumento mide lo que pretende. El procedimiento para determinar si este contenido es válido es el que se conoce como acuerdo interjueces. Los jueces que se emplean para determinar que tan de acuerdo están en que el contenido (los reactivos, afirmaciones o preguntas) de un instrumento miden lo que pretenden medir, son de dos tipos: expertos, o jueces especialmente entrenados para llevar a cabo los juicios. Se incluyen además, cálculos estadísticos para determinar si el grado de acuerdo alcanzado se debe a que efectivamente hay acuerdo entre ellos o si este se debe a un efecto aleatorio.

Este acuerdo entre jueces puede ser de dos tipos: el que se obtiene por medio de juicios

dicotómicos, y el que se obtiene por medio de juicios graduados. 9.2.2.1 Juicios Dicotómicos Cuando se emplea el procedimiento de juicios dicotómicos para establecer la validez de

contenido de un instrumento, se busca a un pequeño grupo de jueces "expertos", a quienes se les enseñan las preguntas o reactivos de la prueba, y se les pide que digan para cada uno de ellos si pertenecen o no al universo de contenido de la variable que se pretende medir. El grado de acuerdo entre los jueces debe ser de por lo menos de 85% para cada reactivo de los que constituyen la prueba. En ocasiones, los investigadores reportan un promedio del 85% de acuerdo entre los jueces, y también se considera como adecuado. Sin embargo, debe recordarse, que en el caso de reportar un promedio de acuerdo entre los reactivos de la prueba, esto significa que para algunos reactivos pudo haber un acuerdo mayor de 85%, pero para otros, el acuerdo individual de algunos reactivos pudo haber sido menor al 85%, y esto deberá tomarse en cuenta.

Page 100: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

9.2.2.2 Juicios Graduados Cuando se pretende establecer la validez de contenido por medio de juicios graduados,

simplemente se está elaborando el instrumento de acuerdo a los modelos de escalamiento de estímulos. Es decir, se pueden emplear los métodos de intervalos aparentemente iguales o el de pares comparados o intervalos sucesivos, para elaborar el instrumento. En este caso, se deberán seguir los procedimientos establecidos y señalados para esos métodos, y se obtendrá al final, un instrumento con validez de contenido. (Véase el Capítulo V).

Es necesario señalar, sin embargo, que este tipo de validez no es el más adecuado, ni el más

recomendable. Suele ser necesario, pero no suficiente. Cuando se opta por el, se debe considerar que en realidad es tan sólo un paso en el proceso de la elaboración del instrumento.

Cabe indicar también, que el procedimiento de juicios graduados, es superior al de juicios

dicotómicos, y que de preferencia no se debe emplear este último. 9.2.3 Concurrente La validez concurrente es aquella que hace referencia al hecho de que el instrumento se

comporta de manera semejante que otro que mide la misma variable, o que permite discriminar entre grupos extremos de la misma. Los procedimientos para determinarla empíricamente son: a) por medio de un criterio externo, y b) por medio de grupos contrastados.

9.2.3.1 Criterio Externo Un criterio externo con el cual se correlacionan los resultados obtenidos por los Sujetos en el

instrumento que se está tratando de validar puede ser de diferentes tipos: a) el juicio de expertos, quienes valoran a los mismos individuos que respondieron al instrumento, en aquella variable que se pretende medir; y b) otro instrumento, previamente validado, que mide la susodicha variable, que se aplica a los mismos individuos que respondieron al instrumento que se está validando. En ambos casos, se calculan las correlaciones de los puntajes obtenidos por los Sujetos de acuerdo a los expertos o en el otro instrumento, y los que obtuvieron en el instrumento que se está sometiendo al proceso de validación.

9.2.3.2 Grupos Contrastados Cuando se emplea este procedimiento para establecer la validez concurrente del

instrumento, lo que se hace es buscar Sujetos que puntúen alto y bajo en la variable medida, y comparar los resultados promedio obtenidos por los dos grupos (alto y bajo). Estos grupos alto y bajo se pueden obtener de dos maneras:

a) escogiendo de entre la muestra de construcción del instrumento al 25% de los Sujetos con

puntajes más altos y al otro 25% de Sujetos con los puntajes más bajos. Este procedimiento corresponde al método de escalamiento de personas por medio de la técnica Likert (Véase el Capítulo VI). Debe aclararse, que en este caso, lo que se compara por medio de la prueba t de Student, es el promedio de las calificaciones totales obtenidas por los individuos que contestaron el instrumento, y no los puntajes parciales de cada uno de los reactivos, como se hace en la técnica Likert. Sin embargo, el razonamiento subyacente es el mismo: si el instrumento mide lo que se pretende, éste debería ser respondido en forma diferente por un grupo que posee esa variable en gran cantidad que por otro que la posee en menor magnitud.

Page 101: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

b) escogiendo personas de grupos conocidos como poseedores de la variable en cantidad mínima y máxima. Por ejemplo, si se está elaborando una escala de actitudes hacia el liberalismo, se buscarán Sujetos pertenecientes a grupos liberales (partidos de izquierda) y a grupos conservadores (partidos de derecha). Se espera, que al comparar las respuestas promedio de estos dos grupos, se obtengan diferencias estadísticamente significativas.

En este caso, se aplica una prueba estadística adecuada, para valorar las diferencias entre

los grupos; ésta deberá arrojar resultados estadísticamente significativos, a una probabilidad igual o menor a 0.05.

Este tipo de validez es especialmente pertinente para aquellos estudios cuyo principal

propósito es el de diagnóstico, ya sea a nivel individual o grupal. 9.2.4 Predictiva La validez predictiva se refiere a la capacidad que tiene el instrumento para predecir al futuro.

Se requiere este tipo de validez, principalmente, cuando se pretende seleccionar personas, de acuerdo a un criterio, o grupo de ellos, para ocupar o desempeñar, alguna actividad, ya sea laboral, o educativa. Es decir, cuando se desea escoger a los individuos más aptos, o los más adecuados, se mide una o más variables, y a partir de ella(s) se predice el desempeño de estos Sujetos en el futuro. Este tipo de validez es primordial en los programas de selección de personal, y de alumnos, por ejemplo.

Existen dos procedimientos (que en realidad son uno y el mismo) para determinar este tipo

de validez, que dependen del número de variables predictoras que se empleen. Si sólo se emplea una (lo menos probable, ya que se sabe que el comportamiento es multicausal), se usa el procedimiento de regresión simple; si se emplean muchas variables predictoras se emplea el procedimiento de regresión múltiple (que es una extensión de la primera).

9.2.4.1 Regresión Simple Los procedimientos para determinar la validez predictiva de los instrumentos, en general

toman mucho tiempo. Esto se debe a que se tiene que permitir el paso del tiempo para medir la variable que se pretende predecir y poder entonces incluirla en un análisis de regresión.

Un procedimiento común sería por ejemplo, el siguiente caso. Supóngase que se desea

predecir el rendimiento académico a partir del nivel intelectual. Esto significaría que el investigador desea saber, a partir de las calificaciones obtenidas en una prueba de Inteligencia, la calidad o magnitud del rendimiento académico de los Sujetos. Esta situación requiere que el instrumento que mide inteligencia tenga validez predictiva. Para determinar la validez predictiva del instrumento, se tendrían que seguir los siguientes pasos: 1º se aplica el instrumento que mide inteligencia a todos los alumnos que se inscriben en el ciclo escolar x. 2º se espera a que los alumnos cursen el ciclo escolar, y obtengan sus evaluaciones del rendimiento escolar (por lo general son las calificaciones obtenidas en los cursos). 3º se promedian las calificaciones obtenidas. 4º se realiza un análisis de regresión simple, con la variable promedio de calificaciones como dependiente y el puntaje en inteligencia como independiente.

Una vez efectuado el análisis, el investigador se fija en los siguientes datos: a) el coeficiente de determinación (R²): éste debe ser alto; de preferencia del 60% en

adelante. Este coeficiente indica la cantidad de varianza de las calificaciones que queda explicada

Page 102: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

por la inteligencia. Es decir, la medida en que la inteligencia afecta, influye o está relacionado con las calificaciones escolares.

b) error estándar de medición: éste debe ser pequeño: de preferencia menor a l.0. Este indica

la cantidad de error que existe en la predicción de las calificaciones tomando como predictor a la inteligencia.

c) la f obtenida en la regresión debe ser estadísticamente significativa: de preferencia con

una p asociada de 0.05 ó menor d) el coeficiente de regresión (B) de la variable predictora (inteligencia) debe tener asociada

una f con una p ≤ 0.05. Si se obtiene todo lo señalado arriba, se dice que la confiabilidad del instrumento es igual al

coeficiente de determinación (R²). El valor adecuado de este coeficiente, deberá ser 0.80 o mayor. Sin embargo, valores menores --siempre y cuando se cumpla con los demás criterios --b) a d)], son adecuados.

9.2.4.2 Regresión Múltiple El análisis de regresión múltiple se emplea para establecer la validez predictiva de varios

predictores o variables, respecto a otra variable que se sucede en el futuro. La lógica expuesta anteriormente vale para esta situación. Como es de esperarse, los coeficientes de determinación (R²) en este caso, adquieren valores más altos; el error de medición es menor, la f de la regresión tiende a ser estadísticamente significativa. Los valores de los coeficientes de regresión B, pueden adquirir f's asociadas estadísticamente significativas o no. Cuando la f asociada al coeficiente de regresión tiene significancia estadística, quiere decir que esa variable es buena predictora de la que se pretende predecir. Una ventaja de este procedimiento es que se pueden descartar aquellas variables que resultan no ser buenas predictoras, y se puede entonces conservar, sólo aquellas que si fueron buenas predictoras. En este caso, como en el anterior, también tiene que transcurrir el tiempo, entre la medición de las variables predictoras, y la de la que se desea predecir, para poder llevar a cabo el análisis de regresión.

Un ejemplo adecuado sería el siguiente. Supóngase que se desea predecir la deserción

escolar entre alumnos universitarios. Supóngase que el investigador cree que entre las posibles causas de la deserción escolar se encuentran las siguientes: nivel socioeconómico, motivación, expectativas de la carrera, trabajar algunas horas al día, estado civil, nivel intelectual, promedio obtenido en ciclos escolares anteriores, índice de reprobación, lejanía del hogar respecto al centro de estudios,, para mencionar tan sólo algunas.

El investigador tendría que medir estas variables cuando el alumno solicita ingresar a la

Universidad. Tendría que recolectar información respecto a la cantidad de tiempo que los alumnos han abandonado la escuela (en términos del número de semestres, por ejemplo), y esperar a que se cumpliera el ciclo escolar completo (el de la carrera). Una vez que sucediera esto, tendría todos los datos necesarios para incluir en el análisis de regresión.

Los resultados le indicarían, en primer lugar, que tanto del fenómeno de deserción escolar

queda explicado por estas variables, considerando el valor del coeficiente de determinación (R²), y al mismo tiempo la validez predictiva de las variables predictoras.

Page 103: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

En segundo lugar, cuáles de las variables realmente son buenas predictoras del fenómeno, y cuáles se pueden descartar. Con esta información, el investigador podría pedirle a los nuevos aspirantes, que respondieran a los instrumentos que miden estas variables predictoras, y dependiendo de los valores obtenidos por ellos, mediante la ecuación de regresión correspondiente, podría predecir, con poco error, la probabilidad que los aspirantes tienen de desertar.

Algunos autores recomiendan realizar análisis de correlación, en lugar de regresión. Es

pertinente entonces aclarar, que el análisis de regresión permite predecir casos individuales, ya que la ecuación obtenida es una función matemática, que señala los valores que cada una de las variables predictoras deben tener para producir cambios en la variable que se está prediciendo. Las correlaciones sólo permiten predicciones gruesas, a nivel de promedios, y no de casos individuales. Por lo tanto, aunque el procedimiento es costoso, en términos del tiempo que tiene que transcurrir para poderlo efectuar, el beneficio posterior es mucho mayor que el obtenido con cualquier otro.

9.2.5 De Construcción La validez de construcción es en realidad la verdadera validez. Es decir, es la que determina

de manera específica si el instrumento mide lo que pretende. Como se señaló anteriormente, lo que se desea medir, por lo general, es un constructo hipotético, que deriva de una teoría, y permite así definirlo conceptualmente. Los procedimientos que se siguen para determinar la validez de construcción responden a preguntas como las siguientes: a) cuándo se mide este constructo o variable, y se relaciona con otros, ¿es esta relación la que predice la teoría? b) ¿discrimina el instrumento entre dos grupos que se supone difieren en forma extrema en la cantidad de variable poseída que se pretende medir? c) la estructura interna de la prueba, ¿refleja fielmente la estructura interna del concepto o constructo?

Dicho de otra manera, la validez de construcción es la que determina si se está midiendo el

constructo o variable que se pretende medir. Si los puntajes obtenidos en el instrumento se comportan como dice la teoría de donde procede, si se relaciona con aquellas variables con las que debería, y además lo hace en la forma predicha por la teoría, y por último, si refleja la estructura dimensional del concepto, en cuanto a su contenido, número y forma, el instrumento tiene validez de construcción, y mide realmente, lo que pretende medir. Este tipo de validez es la más importante y adecuada, y se recomienda establecerla cuando el objetivo principal de la investigación es la elaboración del instrumento que mide el constructo; también es recomendable establecerla si el instrumento se va a emplear en una sola ocasión y fue elaborado ad hoc, como medio de poner a prueba la existencia de relaciones entre variables, o hipótesis derivadas de alguna teoría.

A continuación se presentan los procedimientos seguidos para determinar la validez de

construcción. El investigador puede seguir todos o alguno de ellos. Los dos primeros son muy sencillos y el tercero es más complejo.

9.2.5.1 Correlación con Criterios Externos de Acuerdo a la Teoría El primer procedimiento se refiere al hecho de correlacionar los puntajes obtenidos por lo

Sujetos en el instrumento, con los que esos mismos Sujetos obtienen en otros instrumentos previamente validados, que miden otros constructos o variables, y observar entonces, si las correlaciones obtenidas son de la magnitud y dirección predicha por la teoría. Por ejemplo, si se pretende medir agresión, y se tienen puntajes de los Sujetos en otros instrumentos, como por ejemplo uno que midiera frustración, y otro que midiera autoritarismo, se podrían esperar relaciones como las siguientes, de acuerdo a algunas teorías de la agresión: una relación alta y positiva entre

Page 104: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

agresión y frustración; una relación positiva, pero no tan alta, entre agresión y autoritarismo. En este caso, un primer requisito sería el que los coeficientes de correlación calculados, fueran estadísticamente significativos, con un nivel de significancia de 0.05 o menor; que tuvieran el signo adecuado (positivo o negativo), y por último, que tuvieran la magnitud predicha. Si se cumplieran todos estos requisitos, se podría estar más seguro de haber alcanzado la validez de construcción en el instrumento en cuestión.

9.2.5.2 Grupos Contrastados En este caso se siguen los mismos pasos que los señalados para determinar la validez

concurrente por medio de grupos contrastados, presentada más arriba. Algunos autores como Nunnally (1967), consideran que la validez concurrente de grupos contrastados es en realidad validez de construcción, pues con ella se determina, si el instrumento es sensible al hecho de que un grupo posee grandes cantidades del atributo que se está midiendo, mientras que el otro no. En otras palabras, si el instrumento es respondido de manera diferencial por los dos grupos que supuestamente son diferentes, el instrumento, al reflejar esa diferencia, está midiendo el constructo que pretende medir. Otros autores, como Guilford (1954), Anastasi (), y Cronbach (), no consideran a la validez concurrente por grupos contrastados como validez de construcción.

9.2.5.3 Validez Factorial La validez factorial es el procedimiento más empleado para establecer la validez de

construcción de los instrumentos. Como se señaló en el Capítulo VII, el análisis factorial o de factores, es una técnica que permite construir instrumentos heterogéneos, que responden a las necesidades de construcciones hipotéticas muy complejas. Entre los resultados que se obtienen de la realización de un análisis factorial, algunos de ellos sirven para determinar la validez de construcción de los instrumentos elaborados con esta técnica. A continuación se presentan los resultados que permiten hacerlo.

9.2.5.3.1 Varianza Explicada Para autores como Kerlinger (), la cantidad de varianza explicada acumulada por los factores

extraídos en el análisis factorial, es un indicador de la validez de construcción. En este caso, la varianza explicada acumulada deberá alcanzar valores de 70% o más, para considerar que el instrumento es adecuado desde el punto de vista de su validez de construcción. Debe recordarse que la varianza explicada acumulada es en realidad la que corresponde a la varianza explicada de la matriz reducida de la matriz de intercorrelaciones. Es por esta razón que se exige un porcentaje tan alto para considerar válido al instrumento.

Page 105: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

9.2.5.3.2 Validez Relevante Autores como Guilford (1954), llaman validez relevante, al promedio de la raíz cuadrada de

las comunalidades de los reactivos que constituyen a un factor. Esto significa que se obtienen valideces relevantes individuales para cada uno de los factores extraídos. Sin embargo, los valores de estas valideces, también deberán alcanzar magnitudes de 0.75 y más.

El procedimiento para calcularlas es muy sencillo. Primero se determinan cuáles son los

reactivos que constituyen a cada factor. Se encuentra en el listado de resultados, la comunalidad estimada después de la rotación, que corresponda a los reactivos de cada factor. Se le saca raíz cuadrada a esta comunalidad, se suman todos los resultados, y se divide esta magnitud entre el número de reactivos del factor. Esto constituye, la validez relevante del factor. También aquí se exige que los datos alcancen magnitudes de 0.80 y mayores.

9.5.3.3 Estructura Factorial La validez que se refiere a la estructura factorial es principalmente importante en aquellos

instrumentos que se construyen para medir conceptos o constructos hipotéticos complejos. Esta validez se refiere al hecho de determinar si el constructo o concepto complejo queda bien representado en cuanto a las dimensiones que lo constituyen, en el instrumento que pretende medirlo. Es decir, si el concepto alude a diferentes dimensiones, éstas deberán estar representadas en el instrumento; tanto en cantidad, como en calidad.

Por ejemplo, supóngase que se define a la Autoestima desde el punto de vista conceptual

como: la percepción que tiene una persona acerca de la bondad con la que ejecuta los roles psicológicamente significativos para ella, así como la percepción que esta misma persona tiene de la manera en que otros significativos perciben que ella ejecuta esos mismos roles. En otras palabras, si el Sujeto es mujer, podría decirse que su autoestima está determinada por la forma en que ella cree que ejecuta sus papeles de esposa, madre, hija, ama de casa y profesionista, así como por la forma en que ella cree que personas importantes para ella (por ejemplo: el esposo, sus padres, sus hijos, y sus jefes) piensan que ejecuta esos mismos papeles. La combinación pesada de estas creencias, es la que determina la autoestima de la mujer. En otras palabras. de los roles o papeles que ella desempeña, algunos son, para ella, más importantes; así como también, de las personas importantes para ella, algunas lo son más que otras. La combinación de estas percepciones, con sus relativas importancias, es la que determina la forma en que ella se autoestime.

Los resultados de un análisis factorial deberán representar en forma adecuada a cada una de

las percepciones significativas para las mujeres, por ejemplo, así como sus importancias relativas. En este ejemplo hipotético, donde se podría plantear la hipótesis de que para las mujeres adultas, los papeles importantes de su vida son el ser madres, esposas y profesionistas, y los otros significativos podrían ser el esposo, los hijos y los jefes, se esperaría que se encontraran seis factores, cada uno de ellos correspondiendo a lo antes señalado. De la misma manera, si se estableciera que el orden de importancia de los papeles es: madre, la percepción que de ella como tal tienen sus hijos; esposa, la percepción que de ella como tal tiene el esposo, la profesión y la percepción que de ella como profesionista tienen sus jefes, la importancia relativa de los factores (cantidad de varianza explicada de cada uno de ellos) también debería quedar de manifiesto en los resultados. Si sucede lo anterior, se dice que el instrumento tiene validez de construcción, de acuerdo a su estructura factorial.

Page 106: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Cuando se opta por la determinación de la validez de construcción factorial, por lo general se exige que se cubran los tres requisitos señalados arriba. Es decir, que tenga validez en cuanto a la varianza explicada, en cuanto a la validez relevante, y en cuanto a la estructura factorial.

Por último, se pondrá un ejemplo de la validez factorial, empleando los resultados del ejemplo

presentado en el Capítulo VII. Desde el punto de vista de la varianza explicada, se observa que el Factor 1 explica el 70.4%

de la varianza; el Factor 2, el 12.9% de la varianza; y el Factor 3, el 7.0%. De esta manera, la varianza acumulada explicada por los tres factores es de 90.3%. Desde el punto de vista de la varianza factorial explicada, el instrumento es válido, si se desea conservar a los tres factores. Si se deseara conservar tan sólo al primero, aunque de manera no "pura", el instrumento también sería válido desde este punto de vista, ya que la cantidad de varianza explicada por este único factor es de 70.4%, que aunque no alcanza el valor de 75% acumulado, es definitivamente un factor importante por la cantidad de varianza que explica.

Considérese que se opta por la opción de tomar a los tres primeros factores, eliminando del

primer factor aquellas variables que cargan con pesos altos en los otros dos. De esta manera, el primer factor se referiría al sistema de enseñanza, y quedaría constituidos por las siguientes variables: permite la aplicación del conocimiento a situaciones prácticas, es creativo, entretenido, está sistematizado, permite retener el conocimiento, y es reforzante.

Si ahora sacamos la raíz cuadrada de las comunalidades que corresponden a estas

variables, obtenemos lo siguiente: Comunalidades √ 0.69836 0.8356793 0.60887 0.7803012 0.57609 0.8479325 0.62833 0.7926726 0.58843 0.7670071 0.72810 0.8532857 Σ = 4.9120094/6 = 0.8186682 La validez relevante del primer factor es de 0.8186682, (0.82) la cual es bastante adecuada. Para el segundo factor, siguiendo los mismos procedimientos, la validez relevante es de 0.75;

mientras que para el tercer factor es de 0.76. En general, la validez relevante es adecuada y aceptable.

Por lo que se refiere a la estructura factorial, se puede observar que se encontraron tres

factores, que representan en forma adecuada a los tres elementos del sistema de enseñanza - aprendizaje que se pretendían evaluar: el sistema de enseñanza, el profesor, y el contenido del programa. En este caso no se estableció cuál de los tres era más importante, por lo que no interesa el orden de aparición de los factores. Entonces, desde el punto de vista de la estructura factorial, se puede decir que el instrumento tiene validez de construcción.

Page 107: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Tomando en cuenta las tres maneras de establecer la validez de constructo del instrumento de este ejemplo, se puede concluir que este instrumento es válido para evaluar al profesor, al programa de una materia y al sistema de enseñanza seguido por el profesor.

9.3 Guía de Estudio 1. Señalar lo que se entiende por validez. 2. Distinguir los diferentes tipos de validez que existen. 3. Señalar cuando es adecuada cada uno de los tipos de validez 4. Indicar los procedimientos empíricos que se siguen para determinar cada tipo de

validez. 9.4 Autoevaluación 9.4.1. Preguntas 1. ¿Qué se entiende por validez? 2. ¿Qué se entiende por validez concurrente, predictiva y de construcción? 3. ¿Qué se entiende por validez concurrente, predictiva y de construcción? 9.4.2 Respuesta 1. Un instrumento válido, mide lo que pretende medir. 2. La validez concurrente es la que tienen un instrumento cuyas calificaciones

correlacionan alto con las calificaciones de otro que mide lo mismo, que hayan sido aplicados a los mismos sujetos. La validez predictiva es la que tienen un instrumento que permite predecir al futuro, con poco error. La validez de construcción es la que tiene un instrumento que se comporta como la teoría de la que deriva, indica.

3. La validez concurrente se recomienda para aquellos instrumentos que servirán para diagnosticar; la predictiva, para los que tienen que predecir; y la de construcción, para aquellos que se emplean en una sólo ocasión. Se deben determinar todos los tipos de validez, si el objetivo del estudio es específicamente desarrollar el instrumento en cuestión.

Page 108: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

X. PRESENTACIÓN DEL INSTRUMENTO FINAL Una vez terminados todos los cálculos necesarios para establecer las características

psicométricas y los procedimientos de calificación e interpretación de las calificaciones del instrumento, se procede a reportarlo, a ponerlo a la disposición de la comunidad científica, para que ésta pueda utilizarlo.

10.1 Manual del Instrumento El manual del instrumento es el documento que incluye toda la información importante que se

requiere para la correcta utilización de un instrumento de medición. La información se presenta de manera ordenada, para facilitar su consulta. A continuación se propone la organización de la información que debe contener un manual de este tipo.

En este documento se presenta también, en un Anexo, el instrumento en su versión final, así

como sus versiones iniciales y parciales. 10.1.1 Introducción En la sección de Introducción, se informa a la comunidad científica, el marco teórico

conceptual que sirviera de base para la definición y elaboración del instrumento que se presenta. Cuando se dice el marco conceptual, no necesariamente quiere significarse que se debe haber partido de una teoría en especial; pudo haber sido necesario tomar aspectos de dos o más concepciones teóricas, para satisfacer las exigencias conceptuales del investigador. Así mismo, se pudo haber iniciado la definición conceptual del constructo a medir, a partir de datos empíricos, recolectados para tal efecto.

Es decir, un investigador puede recorrer uno de los siguientes tres caminos, con objeto de

definir conceptualmente, la variable o constructo que pretende medir. Primero, puede tomar como punto de partida una teoría que satisfaga sus exigencias conceptuales. Por ejemplo, la teoría multidimensional de la inteligencia de Guilford (). Segundo, pudo haber recurrido a dos o tres posturas teóricas, por pensar que ninguna de ellas por sí sola era suficiente, y considerar que era más enriquecedor emplear dos o más de ellas. Por ejemplo, para medir autoestima pudo haberse basado en la teoría actitudinal de Coopersmith ( ) y la de los roles de Rokeach ( ). Tercero, pudo haber partido de lo que la población a la que se iba a medir, entendía por el concepto o variable. En este caso se le pregunta, en forma abierta, a una pequeña muestra de la población para la cual se elaborará el instrumento, qué es lo que ella entiende por el concepto o variable. Por ejemplo, si se desea medir autoconcepto, se le puede preguntar a una pequeña muestra de Sujetos, que indiquen de qué manera se describirían a ellos mismos. En seguida se llevaría a cabo un análisis de contenido de la información así recabada, para determinar la existencia de una o varias dimensiones, y a partir de ellas, iniciar la elaboración de los reactivos que mejor representaran a esas dimensiones.

Como el procedimiento empleado por el autor del instrumento pudo haber sido cualquiera de

los señalados arriba, es conveniente que se indique, en la introducción, cuál de ellos se siguió, y las razones que lo guiaron a hacerlo así y no de otra manera. Es decir, en la Introducción, habrá de señalarse el marco conceptual que haya guiado al autor, así como la fundamentación razonada del por qué de su elección, y del por qué de la eliminación de cualquier otra posible aproximación, si es que existe.

Page 109: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

En otras palabras, en esta sección, se fundamenta y se discute teóricamente, la adopción del marco de referencia que guió al investigador en el proceso de construcción del instrumento que está presentando.

10.1.2 Características Psicométricas En esta sección, el investigador presenta los datos correspondientes a la confiabilidad y la

validez del instrumento. 10.1.2.1 Confiabilidad El autor del instrumento señala cuál o cuáles de los tipos de confiabilidad se le determinaron

al instrumento, así como las razones que las justificaron. Se reportan entonces, los coeficientes de confiabilidad obtenidos, así como sus probabilidades asociadas. Si en el proceso de obtención de la confiabilidad se tuvieron que eliminar reactivos, se señalan cuántos y cuáles, así como las razones que llevaron a su eliminación. Se indican aquí también, las principales características de las muestras que se emplearon para determinar las confiabilidades, así como sus tamaños, y la forma en que fueron extraídas de la población.

10.1.2.2 Validez En esta sección se presenta la información concerniente a los tipos de validez que se

determinaron para el instrumento, las razones que justificaron su determinación, las magnitudes de sus coeficientes, sus probabilidades asociadas, el tamaño de las muestras empleadas para determinarlas, así como sus principales características.

10.1.3 Estandarización El proceso de estandarización se refiere a los pasos seguidos para desarrollar las normas de

calificación del instrumento, una vez que se han determinado su confiabilidad y validez. Estas normas de calificación o baremos son las tablas que permiten transformar los puntajes crudos en estandarizados, así como interpretar, darle significado cualitativo en términos del marco de referencia conceptual, a los puntajes obtenidos por los Sujetos a los que se les aplique el instrumento. Esta sección consta de dos subsecciones, que se presentan a continuación.

10.1.3.1 Muestras de Estudio En este apartado, se deberán describir, de la manera más amplia y cuidadosa que se pueda,

las características de las muestras que se emplearon para determinar las normas de calificación o baremos. Así mismo, deben señalarse los tamaños de las muestras, y los procedimientos que se sugirieron para su extracción. Esta información es sumamente importante para el futuro usuario del instrumento. Con ella podrá decidir si el instrumento se adecua a las características de la población que desea estudiar o investigar. Por ejemplo, si el instrumento es uno que mide actitudes hacia el supervisor, y fue desarrollado con una muestra de obreros automotrices, y el investigador lo desea emplear para jornaleros agrícolas, es probable que no sea el más adecuado, ya que pueden existir características fundamentalmente diferentes entre estos dos tipos de trabajadores. Otro ejemplo sería el caso de una escala de autoestima desarrollada para niños, la cual difícilmente se podría emplear para adultos.

Page 110: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

En otras palabras, la información contenida en este apartado le permite al investigador decidir, si el instrumento es el adecuado para sus propósitos de investigación, y así evitar cometer el error de emplearlo de manera indiscriminada; su empleo indiscriminado, puede atentar contra la confiabilidad y la validez del instrumento. Así mismo, el empleo de un instrumento inadecuado, no permite al investigador obtener una interpretación fidedigna ni correcta de los puntajes obtenidos por los Sujetos estudiados por él.

10.1.3.2. Normas de Calificación e Interpretación En esta sección se presenta la información correspondiente a la manera de calificar el

instrumento, así como la forma de interpretar los puntajes obtenidos por los Sujetos. 10.1.3.2.1 Valores Escalares Si el instrumento fue desarrollado por medio de un modelo de escalamiento de estímulos,

donde se obtienen valores escalares para los reactivos, como por ejemplo con el método de Intervalos Aparentemente Iguales, el de Pares Comparados, el de Intervalos Sucesivos, etc. En este caso, se debe incluir la información respecto a los valores escalares de los reactivos que constituyeron el instrumento final, así como sus valores Q o sus desviaciones estándar.

La calificación que obtienen los Sujetos se refiere a la media o mediana de los valores

escalares de las afirmaciones escogidas por ellos; en el capítulo V se presenta de manera detallada, el procedimiento de calificación. Se recordará también, que en el caso de estos métodos, se tiene un continuo psicológico que permite hacer una interpretación cualitativa de los resultados obtenidos por los respondientes (véase el Capítulo V).

10.1.3.2.2. Puntajes Factoriales Cuando se seleccionó el método del análisis factorial para la elaboración del instrumento, el

instrumento final estará constituido por factores, y cada uno de ellos por un conjunto dado de reactivos. Estos conjuntos de reactivos se habrán de calificar de manera que se obtengan puntajes factoriales para los Sujetos que los respondan.

Para obtener puntajes factoriales se recurre a la Matriz de Puntajes Factoriales, que deberá

presentarse en forma simplificada en el manual. Por forma simplificada se quiere decir que sólo se presentan los coeficientes factoriales de los reactivos que constituyen a cada factor ,así como las medias y desviaciones estándar de cada reactivo. En el manual también habrá de indicarse la manera de obtener las calificaciones factoriales. El procedimiento que se sigue es el de transformar los puntajes crudos obtenidos por los Sujetos, en puntajes z, y multiplicarlos por los coeficientes factoriales que les correspondan, llevando a cabo una suma algebraica de estos productos, a lo largo de todos los reactivos de cada factor. Las calificaciones así obtenidas, están en unidades z, y corresponden entonces a una escala intervalar, con una media de 0, y una desviación estándar de 1. Si el puntaje factorial es positivo, significa que el individuo tiene más del factor; si el puntaje es negativo, tiene menos del factor.

10.1.3.2.3 Baremos Se conoce como Baremos a las tablas que acompañan a los instrumentos, con objeto de

transformar los puntajes '"crudos" a otro tipo de puntaje, que al mismo tiempo que señala la

Page 111: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

magnitud de la posesión del atributo por el Sujeto, permite interpretar esa magnitud al respecto de la población en general.

Existen diferentes tipos de transformaciones que se han empleado para elaborar estas tablas

o baremos. A continuación se presentan algunos ejemplos de las más conocidas y utilizadas. También se explica la manera de construirlas y de utilizarlas.

10.1.3.2.3.1 Stens Los stens son transformaciones que se hacen de los puntajes "crudos" a diez intervalos de

unidades de desviación estándar, y de allí su nombre. El procedimiento para construir la tabla correspondiente es el siguiente. Se calcula la media del grupo para la variable en cuestión; se calcula la desviación estándar; las dos primeras desviaciones a la derecha y a la izquierda, se dividen en dos, y se deja a las terceras desviaciones, a la derecha y la izquierda, como estaban al inicio.

A continuación se presenta lo anteriormente señalado, en forma esquemática: Desviación Estándar Sten

-3σ a -2σ 1

-2σ a -1.5σ 2

-1.5σ a -1σ 3

-1σ a -0.5σ 4

-0.5σ a 0.00 5

0.00 a +0.5σ 6

+0.5σ a +1σ 7

+1σ a +1.5σ 8

+1.5σ a +2σ 9

+2σ a +3σ 10

10.1.3.2.3.2 Puntajes T El procedimiento para transformar puntajes "crudos" a puntajes T fue presentado y explicado

en el capítulo VI, y por esta razón, sólo se menciona. 10.1.3.2.3.3. Puntajes Z El procedimiento de transformación de puntajes "crudos" a puntajes z, es muy sencillo.

Consiste en desviar cada puntaje "crudo" de la media del grupo y dividirlo entre la desviación estándar. De esta manera, se transforma la calificación a unidades que pueden ser interpretadas basándose en la distribución normal, que señala a una media de 0 y una desviación estándar de 1.

10.1.3.2.3.4. Otras Consideraciones Es pertinente incluir en el manual, baremos para las diferentes edades o sexos, si la

investigación previa ha establecido que existen diferencias en los puntajes obtenidos por individuos de diferente edad o sexo.

Page 112: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

Es importante señalar que si por alguna razón, las muestras empleadas para la determinación de los baremos, no corresponden en sus características importantes a aquella en la que se va a utilizar el instrumento, será más conveniente elaborar unos baremos nuevos, específicos para esta muestra, y hacérselo saber al autor del instrumento.

10.1.4. Aplicación En esta sección se habrá de señalar si la aplicación del instrumento es individual o puede

hacerse en forma colectiva. Deben incluirse las instrucciones que habrán de darse a los Sujetos que responderán al instrumento; así como los ejemplos pertinentes, en caso de ser necesario.

En otras palabras, en esta sección se incluyen las instrucciones estandarizadas que habrán

de emplearse en la aplicación, así como indicaciones de la forma de aplicación: individual o colectiva.

10.2 Limitaciones y Sugerencias de Uso En este apartado se deben señalar las limitaciones que tiene el instrumento. Por ejemplo:

sólo se puede emplear con personas alfabetas; sólo se puede aplicar en forma individual; etc. También se deberán establecer en esta sección, recomendaciones respecto al poder de

generalización que tienen los datos recabados con el instrumento; los cuidados que deberán tenerse en virtud de que los coeficientes de algunos de los tipos de confiabilidad o de validez son limítrofes (son adecuados, pero no óptimos en términos de la magnitud alcanzada).

En esta sección también pueden hacerse sugerencias respecto al uso del instrumento, ya

sea en cuanto al tipo de muestras para las que es adecuado, o en cuanto al tipo de variables que valdría la pena relacionar con la que mide el instrumento desarrollado por el autor.

También es conveniente reseñar en esta sección, los usos y resultados que se han obtenido

con el instrumento, invitando a los futuros usuarios, a hacerle llegar al autor de la prueba, los resultados del uso de la misma, en investigaciones posteriores. En virtud de lo anterior, se recomienda al autor del instrumento, indique con toda claridad la institución de afiliación, así como su dirección o manera de establecer contacto con él.

Page 113: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

REFERENCIAS • Anastasi, A. (1961). Psychological Testing. Nueva York: The MacMillan Company. • Biddle, B.J. y Thomas, E.J. (Eds.) (1966). Role Theory: Concepts and Research. Nueva York:

Wiley. • Binet, A. y Simon, T. (1918). La Medida del desarrollo de la Inteligencia. Madrid: Sucesores de

Hernando. • Bogardus, E.S. (1923). Social Psychology. Cuarta Edición. • Coopersmith, S. (1967). The Antecedents of Self-Esteem. San Francisco: Freemanans Co. • Cronbach, L.J. (1951). Coefficient Alpha and the internal structure of tests. Psychometrika, 16,

297-334. • Cronbach, L.J. (1960). Essentials of Psychological Testing. Nueva York: Harper and Row. • Downie, N.M. y Heath, R.W. (1971). Métodos Estadísticos Aplicados. Nueva York: Harper and

Row. • Edwards, A.L.(1957). Techniques of Attitude Scale Construction Nueva York:

Appleton-Century-Crofts. • Guilford, J.P.(1954).Psychometric Methods. Nueva York: McGraw Hill Book Company. • Guilford, J.P. (1976). The Nature of Human Intelligence. Nueva York: McGraw Hill. • Gulliksen, H.(1950). Theory of Mental Tests. Nueva York: John Wiley and Son. • Guttman, L. (1944). A basis for scaling qualitative data. American Sociological Review,9,

139-150. • Harman, H.H. (1976). Modern Factor Analysis. Chicago: The University of Chicago Press. • Kerlinger, F.N.(1975). Investigación del Comportamiento. México: Nueva Editorial

Interamericana. • Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology.140.

Mc Guigan, F.J.(1975). Psicología Experimental, México: Editorial Trillas. • Nunnally,J. (1967). Psychometric Theory. Nueva York: McGraw Hill Book Company. • Russell, B.(1938).The Principles of Mathematics. Segunda Edición. Nueva York: Norton. • Siegel,S. (1976). Estadística No Paramétrica Aplicada a las Ciencias de la Conducta.

México: Editorial Trillas.

Page 114: MEDICIÓN EN CIENCIAS SOCIALES - bernardomiranda · 4.4 Instrucciones, Calificación y Opciones de Respuesta en Relación con el Nivel de Medición 4.4.1 Nivel de Medición de los

• Spearman, C. (1904). The proof and measurement of association between two things.American Journal of Psychology,15,72-101.

• Stevens, S.S, (1951). Mathematics, Measurement and Psychophysics En: S.S.Stevens (Ed.):

Handbook of Experimental Psychology. Nueva York: Wiley. • Thurstone, L.L. (1927a). A law of comparative judgement. Psychological Review, 34,273-286. • Thurstone, L.L. (1927b). A law of categorical judgement. Psychological Review, 34, 287-293. • Thurstone, L.L. y Chave, E.J. (1929). The Measurement of Attitude. Chicago: University of

Chicago Press. • Torgerson, W.S. (1967). Theory and Methods of Scaling. Nueva York: John Wiley and Sons,

Inc. Vite San Pedro.