84
Centro Universitario de Educación Superior Hermosa Provincia Fac. de Administración Notas de Estadística I I. INTRODUCCIÓN............................................................................2 MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN................................................2 EVALUANDO MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN...................................3 II. NIVELES DE MEDICIÓN....................................................................5 ESCALAS NOMINALES........................................................................5 TABLA 2.1. DISTRIBUCIÓN DE CRÍMENES......................................................7 ESCALAS ORDINALES........................................................................8 ESCALAS MÉTRICAS.........................................................................9 VARIABLES DICOTÓMICAS...................................................................11 REGLAS DE CATEGORIZACIÓN................................................................12 APÉNDICE: NOTACIÓN SUMATORIA............................................................12 III. MEDIDAS DE CENTRO....................................................................14 MODA....................................................................................14 La moda para datos métricos agrupados...................................................17 MEDIANA.................................................................................19 La mediana para datos ordinales.........................................................19 La mediana para datos métricos..........................................................20 La mediana para datos métricos agrupados................................................21 LA MEDIA ARITMÉTICA.....................................................................22 La media para datos métricos............................................................22 La media para datos métricos agrupados..................................................24 La media para datos dicotómicos.........................................................27 DISCUSIÓN...............................................................................28 Comparación de la media, la mediana y la moda...........................................28 Propiedades matemáticas de las medidas de centro........................................30 Otras medidas de centro basadas en valores ordinales....................................30 OTRAS MEDIAS............................................................................31 La media geométrica.....................................................................32 Media armónica..........................................................................34 Media generalizada......................................................................35 Resumen.................................................................................36 IV. MEDIDAS DE DISPERSIÓN.................................................................37 DESVIACIÓN ESTÁNDAR Y OTRAS MEDIDAS DE DISPERSIÓN BASADAS EN DESVIACIONES...............37 La desviación media y sus variantes.....................................................37 La varianza y la desviación estándar de una población...................................39 La varianza y la desviación estándar de una muestra.....................................43 La varianza y la desviación estándar para datos métricos agrupados......................44 La varianza y la desviación estándar para datos dicotómicos.............................45 Coeficiente de variación................................................................45 Diferencia media de Gini................................................................46 Resumen.................................................................................46 USOS DE LA VARIANZA.....................................................................47 Considerando valores inusuales..........................................................47 Evaluando la covariación entre variables................................................48 La selección de variables...............................................................49 Fuentes de variabilidad.................................................................49 MEDIDAS DE DISPERSIÓN BASADAS EN EL ORDEN...............................................50 Rango...................................................................................50 El rango intercuartílico y sus variantes................................................50 Generalizaciones útiles más allá de una sola variable...................................51 Gráficas de caja........................................................................51 Desviación mediana absoluta.............................................................52 Resumen.................................................................................53 MEDIDAS DE DISPERSIÓN BASADAS EN LA FRECUENCIA..........................................54 1 de 84

I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

I. INTRODUCCIÓN...................................................................................................................................................................... 2MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.......................................................................................................2EVALUANDO MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN..........................................................................3

II. NIVELES DE MEDICIÓN......................................................................................................................................................... 5ESCALAS NOMINALES......................................................................................................................................................... 5TABLA 2.1. DISTRIBUCIÓN DE CRÍMENES........................................................................................................................7ESCALAS ORDINALES.......................................................................................................................................................... 8ESCALAS MÉTRICAS............................................................................................................................................................ 9VARIABLES DICOTÓMICAS................................................................................................................................................11REGLAS DE CATEGORIZACIÓN........................................................................................................................................12APÉNDICE: NOTACIÓN SUMATORIA................................................................................................................................12

III. MEDIDAS DE CENTRO....................................................................................................................................................... 14MODA................................................................................................................................................................................... 14La moda para datos métricos agrupados.............................................................................................................................17MEDIANA.............................................................................................................................................................................. 19La mediana para datos ordinales..........................................................................................................................................19La mediana para datos métricos...........................................................................................................................................20La mediana para datos métricos agrupados.........................................................................................................................21LA MEDIA ARITMÉTICA...................................................................................................................................................... 22La media para datos métricos...............................................................................................................................................22La media para datos métricos agrupados.............................................................................................................................24La media para datos dicotómicos.........................................................................................................................................27DISCUSIÓN.......................................................................................................................................................................... 28Comparación de la media, la mediana y la moda.................................................................................................................28Propiedades matemáticas de las medidas de centro...........................................................................................................30Otras medidas de centro basadas en valores ordinales.......................................................................................................30OTRAS MEDIAS................................................................................................................................................................... 31La media geométrica............................................................................................................................................................ 32Media armónica.................................................................................................................................................................... 34Media generalizada............................................................................................................................................................... 35Resumen............................................................................................................................................................................... 36

IV. MEDIDAS DE DISPERSIÓN................................................................................................................................................37DESVIACIÓN ESTÁNDAR Y OTRAS MEDIDAS DE DISPERSIÓN BASADAS EN DESVIACIONES................................37La desviación media y sus variantes....................................................................................................................................37La varianza y la desviación estándar de una población.......................................................................................................39La varianza y la desviación estándar de una muestra..........................................................................................................43La varianza y la desviación estándar para datos métricos agrupados.................................................................................44La varianza y la desviación estándar para datos dicotómicos..............................................................................................45Coeficiente de variación........................................................................................................................................................ 45Diferencia media de Gini....................................................................................................................................................... 46Resumen.............................................................................................................................................................................. 46USOS DE LA VARIANZA..................................................................................................................................................... 47Considerando valores inusuales...........................................................................................................................................47Evaluando la covariación entre variables.............................................................................................................................48La selección de variables...................................................................................................................................................... 49Fuentes de variabilidad......................................................................................................................................................... 49MEDIDAS DE DISPERSIÓN BASADAS EN EL ORDEN.....................................................................................................50Rango................................................................................................................................................................................... 50El rango intercuartílico y sus variantes.................................................................................................................................50Generalizaciones útiles más allá de una sola variable.........................................................................................................51Gráficas de caja.................................................................................................................................................................... 51Desviación mediana absoluta...............................................................................................................................................52Resumen............................................................................................................................................................................... 53MEDIDAS DE DISPERSIÓN BASADAS EN LA FRECUENCIA...........................................................................................54Razón de variación............................................................................................................................................................... 55Índice de diversidad.............................................................................................................................................................. 56Índice de variación cualitativa...............................................................................................................................................56Entropía................................................................................................................................................................................ 57Otras medidas....................................................................................................................................................................... 58Resumen............................................................................................................................................................................... 58DISCUSIÓN.......................................................................................................................................................................... 58Comparaciones entre las medidas de dispersión.................................................................................................................58Propiedades matemáticas de las medidas de dispersión.....................................................................................................60Resumen............................................................................................................................................................................... 61

1 de 62

Page 2: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

2 de 62

Page 3: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

I. INTRODUCCIÓN.

 "La diversidad es la sazón de la vida" o, como dice el Francés, "vive la différence". Los estadistas concuerdan: el estudio de la diversidad y diferencias es de lo que trata la Estadística. El término estadístico para esto es "variación". Por ello, la estadística es algunas veces llamada la "ciencia de la variación". El concepto de variación enfatiza que una variable interesante es aquella que varía, de tal modo que no todas las observaciones tienen el mismo resultado para la variable.

     Si el Francés parece cautivado por "la différence", el Americano parece más fascinado con "lo típico". Queremos saber qué hace y piensa la gente típica, tal vez porque nosotros podemos estar seguros de no ser inusuales en nuestros acciones y actitudes. Los estadistas ponen atención en la medida de lo que es típico. El término estadístico para ello es "tendencia central" o, más simple, "centro". La variación hace énfasis en las diferencias en tanto el centro enfatiza lo típico. 

Esta monografía explica cómo medir el centro y la variación de una sola variable, como un antecedente para ser capaz de estudiar interrelaciones más complejas entre variables. Juntando el centro y la variación, en estas páginas se hace hincapié en que ninguna es suficiente por sí misma, es necesario entender ambas.  

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.

 En realidad hay una serie de cuestiones estadísticas que pueden ser preguntadas cuando se analiza una variable. La primera es ¿cómo puede medirse la variable?. Las variables pueden ser medidas a través de diferentes propiedades numéricas o no numéricas, y esto debe ser entendido antes de iniciar el análisis estadístico. Esta preocupación es discutida en términos de "niveles de medición", y se explica en el Capítulo 2. 

La siguiente pregunta estadística acerca de una variable es ¿qué tipo de distribución tienen sus valores?. El resumen estadístico de una variable debe incluir el examen de su distribución, especialmente en forma gráfica. El Capítulo 2, muestra también algunas formas de examinar distribuciones de variables. 

            La tercera pregunta estadística acerca de una variable es ¿qué resultado típico se encuentra en ella?. Esto es lo que llamaremos el centro o tendencia central de la variable. Los promedios son el ejemplo más familiar de los estadísticos de tendencia central. Las medidas de centro también son llamadas medidas de "localización" o "valores representativos". Un sólo número no puede hacer justicia a la descripción de una variable sobre la cual diferentes casos tienen diferentes valores, pero una medida de centro es un punto inicial útil para resumir variables. El Capítulo 3  explica una serie de medidas de centro. 

Pensando en términos de un valor típico de una variable llama la atención inmediatamente a la cuarta pregunta: ¿Qué tan típico es el valor típico?. Esto lleva a la medida de la dispersión de una variable a fin de ver cuánto los casos difieren en la variable. Esto es también llamado la "variación" en una variable, su "dispersión" o su amplitud. El capítulo 4  explica las medidas de dispersión. 

La quinta pregunta surge cuando una muestra es estudiada pero el investigador desea describir una "población" más grande: ¿Cómo generalizar los resultados de la muestra a la población?. La aplicabilidad de la distinción entre muestras y poblaciones a medidas de centro y de dispersión será presentada en el Capítulo 5. 

Una vez que la cantidad de variación en una variable ha sido medida, otras preguntas estadísticas pueden hacerse acerca de ella. Pueden compararse grupos para determinar cuál varía más, las variables pueden ser comparadas para verificar que tan similares son sus valores, las diferencias en una variable pueden ser analizadas para ver si corresponden a diferencias en posibles variables explicativas. Los Capítulos 4 y 5 introducen estos tópicos, mostrando formas en las cuales el concepto de variación se usa en la práctica. 

Los niveles de medición, la distribución de las variables, las medidas de centro y las medidas de dispersión son temas íntimamente ligados. El nivel de medición de una variable ayuda a determinar la forma apropiada de resumir su distribución, así como el uso de las adecuadas medidas de centro y de dispersión. La variación mide la dispersión alrededor del valor típico de una variable y la generalización de muestras a

3 de 62

Page 4: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

poblaciones está basada en la variación de la variable. En estos sentidos, los Capítulos 2 al 5 están fuertemente relacionados. 

Los tópicos tratados en esta monografía se refieren a lo más antiguo en estadística. Además de las maneras clásicas de verlos, hay algunas nuevas formas; en particular, ha habido un movimiento en estadística aplicada hacia el "análisis exploratorio de datos", usualmente a abreviado como EDA. Este análisis enfatiza la familiarización con los datos más que el sólo cálculo de uno o dos estadísticos de resumen. En parte la diferencia es de estilo: el estilo del EDA ha asumido nuevas frases tales como medidas de centro y medidas de dispersión y, adicionalmente, la escuela del EDA a propuesto nuevas medidas de centro y de dispersión. Esta monografía introduce las dos perspectivas: la clásica y la del EDA.  

EVALUANDO MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN.

 Al tratar con la tendencia central y la dispersión veremos que existen una serie de medidas alternativas. ¿Qué consideraciones afectan la elección entre diferentes alternativas en las medidas?. El primer criterio es que la medida sea: 

1. Apropiada para el nivel de medición de la variable.

 Este criterio es explicado en el Capítulo 2. Sin embargo, frecuentemente existe una serie de medidas que pueden ser usadas dentro del mismo nivel de medición, por lo que deben hacerse elecciones de entre éstas. 

Otra forma de preguntar esto es: a una cierta medida, ¿qué la hace un buen estadístico descriptivo?. Durante los años se han propuesto muchas propiedades deseables para los estadísticos de resumen; Yule y Kendall (1968: 103-104) establecen que un promedio debe estar: 

2. "Rígidamente definido" más que sólo aproximado,

3. Basado en todas las observaciones,

4. Simple y comprensible,

5. Calculado con facilidad,

6. Expresado en términos algebraicos, y

7. Robusto (poco afectado por fluctuaciones entre muestras). 

Aunque ninguno de estos criterios es absoluto, éstos son útiles para escoger y evaluar medidas de tendencia central y de dispersión. 

Otras seis propiedades adicionales para los estadísticos son: 

8. Único, más que multivaluado;

9. Generalizable a dos o más variables;

10. Resistente a datos raros (no sobre-afectado por casos extremos);

11. No sobre-afectado por combinaciones de categorías;

12. Definido aún cuando la variable tenga categorías con intervalos abiertos; y

13. Igual a los valores reales de los datos, o al menos en su propia métrica. 

4 de 62

Page 5: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Como las medidas se describen en los Capítulos 3 y 4, se hará mención cuando un estadístico cumpla con algunos de estos criterios o sea débil en alguno de ellos. 

La distinción entre poblaciones y muestras lleva a otros tres criterios para evaluar las estimaciones muestrales: 

14. Consistente para muestras grandes,

 15. Insesgado para muestras pequeñas, y

16. Eficiente cuando es comparado con otros posibles estimadores. 

Estos últimos criterios son demasiado técnicos y se considerarán hasta el final de esta monografía. 

Ningún estadístico es ideal de acuerdo a todos los 16 criterios, es necesario decidir cuáles criterios son los más importantes en la situación real de análisis de datos que se enfrente. Más aún, varias medidas podrán ser útiles para el mismo juego de datos dado que cada una es efectiva en mostrar diferentes aspectos de los datos.

5 de 62

Page 6: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

II. NIVELES DE MEDICIÓN.

 Un punto de inicio necesario en análisis estadístico es entender las propiedades de la medición de los datos. Esto es usualmente discutido en términos de cada "nivel de medición" de la variable. La medición en sí puede ser definida como el proceso de asignación de etiquetas o valores a las observaciones. Hay diferentes tipos de procesos de asignación, resultando en variables con diferentes propiedades matemáticas. 

Se distinguen diferentes niveles de medición, pero nosotros encontraremos útil dividir las variables en tres tipos: Nominales, ordinales y métricas. Las variables nominales consisten en una serie de categorías sin orden, como cuando se clasifica la religión de una persona en protestante, católico, judío, y así sucesivamente. La variable es ordinal cuando existe un orden en las categorías, pero no hay una unidad real de medición. Las variables métricas son aquellas para las cuales las categorías son intrínsecamente numéricas, como la edad de una persona. 

Distinguiremos una situación posterior en la medición: los datos dicotómicos. Una variable dicotómica tiene sólo dos categorías, como cuando uno trata con el género de una persona. Como veremos, las consideraciones usuales para los niveles de medición no se ajustan totalmente para cada variable. 

El nivel de medición de una variable es importante porque limita así los estadísticos que pueden ser apropiadamente usados sobre la variable. Por ejemplo, los valores pueden ser sumados y promediados significativamente sólo para datos estrictamente métricos. Las variables nominales no pueden ser sumadas y promediadas y usualmente es mejor no sumar y promediar las variables ordinales. Similarmente, el valor de los casos centrales no puede ser examinado para variables nominales cuyas categorías no siguen un orden. 

Deberían impedirse los análisis numéricos de variables ordinales dado que éstas son no numéricas. Sin embargo, sus categorías ordenadas presumiblemente reflejan una continuidad subyacente en el concepto y esto provoca la tentación de moverse de una variable ordinal hacia una variable métrica. Se regresará a esta discusión en varios puntos de la monografía. 

El nivel de medición de una variable debe ser considerado antes de desarrollar un análisis estadístico sobre ella, e incluso antes de la colección de los datos. En la etapa del análisis, aplicar técnicas estadísticas que requieren datos métricos a variables nominales sería una falacia. En la etapa de la recolección de datos, las versiones métricas de variables deberían ser obtenidas, si es posible, más que las versiones no métricas, si es que se planea un análisis a nivel métrico. Estas implicaciones pueden ser bien entendidas explicando cada nivel de medición con mayor detalle. 

ESCALAS NOMINALES.

         El nivel más bajo de medición involucra sólo categorías, sin orden entre ellas. Las variables medidas en esta forma son llamadas "variables nominales". Por ejemplo, la región de un país en la cual vive una persona (norte, sur, este, oeste) es una variable nominal. Estas regiones son sólo categorías sin ningún orden y sin propiedades realmente numéricas. 

Se pueden asignar números a las variables nominales, ya que facilitan su análisis en la computadora. Así, las regiones podrían ser codificadas como 1=norte, 2=sur, 3=este y 4=oeste. Sin embargo, éstos son sólo números arbitrarios. De la misma manera podríamos haber codificado con 300=norte, 20=sur, 4000=este y 1=oeste, dado que no hay un orden significativo en las categorías. 

Algunas variables nominales tienen categorías numeradas, si los números son asignados para etiquetar las categorías, pero el orden numérico no corresponde a una propiedad de los objetos. En estas condiciones, la variable es todavía nominal. Los números de seguro social son un ejemplo de números usados para etiquetar categorías. Puede haber algún sistema para asignarlos, pero no está basado en un principio simple de ordenación. A nadie le importa si su número de seguro social es menor que el de otra persona porque estos números no miden cuánto de una propiedad ordenada posee el objeto. 

6 de 62

Page 7: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Como se verá en el Capítulo 3 y 4, hay medidas de centro y dispersión que han sido desarrolladas para variables nominales, con base en las frecuencias relativas de las observaciones en cada categoría.

Antes de calcular resúmenes estadísticos de variables es importante examinar sus distribuciones. Una manera de hacerlo es presentando la distribución de frecuencia de la variable. Cada categoría es listada con su correspondiente frecuencia (el número de observaciones que cae dentro de dicha categoría). La notación que se usará para la frecuencia de la última categoría, se representará con la letra "k" y se escribirá f k. El número total de casos será denotado con "N". Nótese que la suma de las frecuencias de cada categoría separada debe ser igual al número total de observaciones. El símbolo Σ (la letra griega sigma) es comúnmente usada para representar una suma (con un subíndice para mostrar que la suma es sobre todos los posibles valores diferentes de k; esto es, sobre todas las categorías). Usando esta notación (explicada más adelante en el apéndice de este capítulo), 

f=N k

n

=1k

         Algunas veces es útil mostrar la proporción de casos que caen dentro de una categoría particular "k". Esta proporción será denotada por pk. Una proporción es el número de casos en la categoría, dividida por el número total de casos:

Nf=p k

k

         Nótese que las proporciones de las diferentes categorías de una variable siempre sumaran uno. Después de todo,

 

n

k

n

k

n

kk

kk N

Nf

NNfp

1 1 1

111

         Finalmente, la distribución de una variable puede ser representada por una distribución de porcentajes, que muestra el porcentaje de los casos que caen en cada categoría. Los porcentajes son justamente las proporciones multiplicadas por cien. Una distribución de porcentajes siempre deberá sumar 100%.

7 de 62

Page 8: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

TABLA 2.1. DISTRIBUCIÓN DE CRÍMENES

_________________________________________________________________

VARIABLE                         DISTRIBUCIÓN          DISTRIBUCIÓN

 CRIMEN                     DE LA VARIABLE EN  DE LA VARIABLE EN

                                               FRECUENCIA              PORCENTAJE

-----------------------------------------------------------------------------------------------

C         Homicidio                                  10,000                                 5

A         Violación                                   20,000                               10

T          Robo                                          40,000                               20

E         Asalto                                        60,000                                30

G         Allanamiento                            70,000                                35

O                     Mayor                             30,000                               15

R                     Menor                             40,000                               20

---------------------------------------------------------------------------------------------

Total                                                        200,000                       100

 

CINCO CATEGORÍAS MAYORES           ALLANAMIENTOSUBDIVIDIDO

ESTADÍSTICO        ALLANAMIENTO                                  ASALTO

-------------------------------------------------------------------------------------------

Razón de variación              0.650                                                 0.700

Índice de diversidad            0.735                                                 0.795

I. de variación cualit.           0.919                                                  0.954

Entropía                             2.064                                                2.409

Entropía estandarizada       0.889                                                 0.932

Como ejemplo, considérense los datos de la Tabla 2.1 que muestra las frecuencias de diferentes crímenes en una ciudad donde se reportaron 200,000 crímenes en una año. Las frecuencias se muestran en la segunda columna y los porcentajes correspondientes en la tercera columna. De acuerdo con estos datos, el 35% de los crímenes fueron allanamiento, 30% asaltos, 20% robos, 10% violaciones y 5% homicidios. 

8 de 62

Page 9: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Las distribuciones de frecuencia pueden ser presentadas de manera efectiva en gráficas; la más común de todas ellas es la gráfica de barras, como se muestra en la Figura 2.1, Sección A. Cada categoría se representa con una barra vertical cuya altura muestra la frecuencia de la categoría. Un diagrama relacionado es una gráfica circular, como se muestra en la Figura 2.1, Sección B. El círculo unitario es dividido en una serie de piezas, en donde el tamaño de la rebanada representa la proporción de casos que caen en cada categoría. Dado que la variable es nominal, el orden de las categorías para estos gráficos es arbitrario y por lo tanto no debe sobreinterpretarse.

Sección A: Barras para crímenes reportados

0

20000

40000

60000

80000

Homicidio Violación Robo Asalto Allanam

Sección B: Gráfica circular para crímenes reportados

FrecuenciaHomicidioViolaciónRoboAsaltoAllan

5%10%

20%

30%

35%

ESCALAS ORDINALES.

            Algunas variables no numéricas tienen un orden para sus categorías, estas son llamadas variables ordinales. Por ejemplo, en los hospitales se describe la condición de los pacientes como "descansando y confortable", "estable", "vigilado" o "crítico". Estas categorías son ordenadas pero no numéricas. Nótese especialmente que los intervalos entre estas categorías no son necesariamente iguales, podría haber sólo una pequeña diferencia entre describir la condición de un paciente como "confortable" y como "estable", en contraste con una gran diferencia al calificarlo de "vigilado" o "crítico". Dado que los intervalos entre categorías no son necesariamente iguales, esto es solamente una medición ordinal.

Los números son frecuentemente asignados a datos ordinales para facilitar su almacenaje y análisis en una computadora, pero esto no los convierte en datos realmente numéricos. Los números asignados a variables ordinales pueden ser llamados "números de orden", porque sólo el orden importa. Como resultado, sumarlos o aplicarles la mayoría de las operaciones aritméticas resulta inapropiado.

Un sistema común para anotar variables ordinales es llamado "notación entera": el número 1 es asignado a la primer categoría, el 2 a la segunda y así sucesivamente. Pero aún después de la notación entera, la variable es ordinal dado que las categorías, en realidad, no necesariamente tienen la misma distancia entre ellas en el continuo de los números enteros. 

9 de 62

Page 10: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Un tipo importante de datos ordinales son los datos de rango. Por ejemplo, es una costumbre referirse a las posiciones de los equipos deportivos en su liga, estas posiciones son numéricas, como tercero o cuarto en la liga, pero éstos son sólo números de orden. Después de todo, el equipo del segundo lugar puede tener un porcentaje de partidos ganados muy cercano al del tercer lugar, pero el del tercer lugar puede tener un porcentaje de partidos ganados mucho mayor que el del cuarto lugar. De esta forma, al examinar las posiciones de los equipos, hemos convertido en una escala ordinal a los porcentajes numéricos de partidos ganados por cada uno de los equipos. 

Se han desarrollado medidas especiales de tendencia central y de dispersión para datos ordinales, éstas serán presentadas en los Capítulos 3 y 4. 

Al tratar con datos ordinales, es importante entender la notación de un percentil. Un percentil aquella categoría de la variable bajo la cual cae un cierto porcentaje de las observaciones, por ejemplo, el 50° percentil es el valor bajo el cual caen el 50% de las observaciones; el 25° percentil (también llamado cuartil inferior), es el valor bajo el cual caen el 25% de las observaciones; el 75° percentil (el cuartil superior) es el valor bajo el cual caen el 75% de las observaciones; y así sucesivamente.  

Las distribuciones de variables ordinales son presentadas con el mismo tipo de instrumentos que las variables nominales.  

ESCALAS MÉTRICAS. 

Una variable métrica es aquella que tiene una unidad de medida, tales como pesos o centímetros. Típicamente, las variables numéricas contestan a las preguntas de ¿cuánto? y )¿cuántos?. Por ejemplo, el precio de los objetos es una variable métrica porque contesta a la pregunta de ¿cuánto cuesta el objeto?.

En realidad, hay dos grandes tipos de variables métricas: las de razón y las de intervalo. El nivel más alto de medición es la escala de razón. Las variables de razón son numéricas, con una unidad definida de medición y un punto cero real. Por ejemplo, la longitud es una variable de razón; es intrínsecamente numérica, está definida una unidad de medida (como los centímetros) y tiene un punto cero real (cero centímetros). 

El punto cero es esencial aquí. Debido al punto cero real es que los enunciados de razón pueden hacerse, tales como el de que una persona tiene dos veces la altura de otra. Si tiene sentido considerar un valor dos veces más grande que otro, entonces la variable es de razón. La multiplicación de una variable de razón por una constante no destruye se carácter de razón, pero la suma de una constante sí lo hace (por ejemplo, sí la hermana mayor es exactamente dos veces más alta que su hermano menor y si ambos crecen dos centímetros, la razón de sus estaturas ya no se conserva como 2:1). Como resultado, las variables de razón pueden, legítimamente, ser transformadas mediante la multiplicación, pero no por la suma. 

Otras variables numéricas tienen una unidad de medición definida, pero carecen de un punto cero real; éstas son llamadas variables de intervalo y como su más importante característica está el contar con intervalos iguales entre valores sucesivos. El ejemplo usual para una variable de intervalo es la temperatura medida en grados Fahrenheit o en grados Centígrados. La temperatura es intrínsecamente numérica y hay una unidad definida de medición (el grado), pero el punto cero no es real porque cero grados Fahrenheit o centígrados no significa ausencia de temperatura (la temperatura puede ser medida en una escala de razón, la escala Kelvin, que se basa en un cero absoluto). Debido a lo anterior, 20 grados centígrados no representan dos veces más calor que 10 grados centígrados. (Las tallas de los zapatos de los adultos es otro ejemplo de un nivel de medición de intervalo). 

Las unidades son de gran significado para las escalas de intervalo. Hay intervalos iguales, digamos, entre 20 y 21 grados centígrados, al igual que entre 10 y 11; la cantidad de la propiedad que se está midiendo (aquí calor), difiere en cada caso por el mimo monto, de ahí que los intervalos son reales. La multiplicación de una variable de intervalo por una constante no destruye su carácter de intervalo, tampoco lo hace la suma de una constante; como resultado, se les llama transformables por reglas lineales. 

10 de 62

Page 11: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Una complicación adicional para los datos métricos involucra al agrupamiento. Si una variable es continua, entonces sus valores pueden ser fraccionarios, tales como una temperatura máxima diaria de 31.8765 grados. Más que presentar valores exageradamente precisos, es común agrupar los resultados en clases o intervalos cuando se preparan presentaciones y análisis estadísticos, como cuando se dice que las temperaturas máximas están por los 30 grados. 

El agrupamiento de datos llama la atención hacia los límites de cada clase. Digamos, por ejemplo, que las clases están dadas de 70-79, 80-89, etc ¿)dónde clasificar un dato como 79.7 en este agrupamiento?. Los límites verdaderos o fronteras de una clase muestran de forma exacta dónde termina una clase y dónde inicia la otra. Así, si a los limites inferiores se les resta 0.5 y a los superiores se les suma esta misma cantidad, las clases quedarán expresadas como 69.5-79.5, 79.5-89,5, etc., por lo que el valor 79.5 forma parte de la última clase enumerada, sin ninguna indecisión posible. Nótese que estas clases tienen una anchura o intervalo de clase de 10, porque sus fronteras o límites reales están separados por 10 unidades; además, sus puntos medios o marcas de clase son 74.5, 84.5, etc., es decir, el resultado de sumar la frontera inferior y la superior de cada clase y después dividir entre 2. 

Las gráficas son efectivas para representar distribuciones de variables métricas. Una de éstas es el histograma, como el que muestra temperaturas diarias en la Figura 2.2, Sección A. Aquí, las áreas sobre las clases y no la altura de las barras es lo que representa las frecuencias, ya sean directas o relativas. El área total bajo el histograma es igual a 1, así, la proporción del área sobre el rango de valores muestra la proporción de casos que caen dentro del rango. Una forma relacionada de presentación gráfica el polígono de frecuencias, el cual se obtiene uniendo las marcas de clase en cada intervalo mediante una línea, como se muestra en la Figura 2.2, Sección B. Esta gráfica es más suavizada que el histograma. 

Un tipo de gráfica más moderna es el diagrama de tallo y hojas (mostrado en la Figura 2.2, Sección C), el cual lista los valores reales de los datos al tiempo que muestra la forma de la distribución. El primer dígito se encuentra a la izquierda de la línea; los valores de la derecha muestran los últimos dígitos de los datos. El primer renglón muestra que 65° ocurre dos veces; el segundo, que 70°, 72° y 73° aparecen una sola vez. El rango de los 70° ha sido dividido en dos categorías mediante renglones separados para valores de 70° a 74° y de 75° a 79° (lo mismo para el rango de los 80°). Nótese de la figura 2.2 que es común el uso de agrupamiento para histogramas, polígonos de frecuencia y el diagrama de tallo y hojas de variables métricas. 

FIGURA 2.2

a). Diagrama de tallo y hojas, b). Histograma y c). Polígono de frecuencias para temperaturas.

            6 | 55

                        7 | 023

                        7 |

                        8 | 12

                        8 | 67

11 de 62

Page 12: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

porcen

taje

64 68 72 76 80 84 880

10

20

30

40po

rcen

taje

64 68 72 76 80 84 880

10

20

30

40

VARIABLES DICOTÓMICAS.

            Muchas variables sociales son binarias, tales como si una nación participa en una guerra o no o si una rata da vuelta a la izquierda o a la derecha en un laberinto. La distinción del nivel   usual de medición importa menos, para medir la tendencia central y la dispersión de dichas variables dicotómicas, que para otros datos. 

Las variables dicotómicas pueden ser pensadas como nominales, con sólo dos categorías sin orden. O, la variable puede ser vista como dos extremos de una variable ordinal. Por ejemplo, si una nación va a la guerra o no, en cierto sentido

porc

enta

je

64 68 72 76 80 84 880

10

20

30

40

mide una variable ordinal subyacente acerca de la propensión de la nación a inmiscuirse en la guerra. 

Las variables dicotómicas también son frecuentemente tratadas como métricas mediante la asignación del valor 1 a una categoría (usualmente para marcar la presencia de algún atributo) y 0 para la otra categoría (para marcar su ausencia). En estas circunstancias la variable es llamada ficticia (dummy). Como un ejemplo, si el país fue o no a la guerra se puede anotar como 1/0, 1 cuando si va y 0 cuando no. Esta notación puede parece arbitraria, pero no hay pérdida de generalidad.

12 de 62

Page 13: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

La distribución para una variable dicotómica puede mostrarse dando la proporción de éxitos para una sola observación; es decir la proporción de unos como puestos a la proporción de ceros. Esta proporción o probabilidad es f1 (la frecuencia de los unos) dividida por el total del número de casos:

)Nf(-1=

Nf=p 01

 REGLAS DE CATEGORIZACIÓN. 

Hay dos restricciones en la categorización que deben cumplirse a cualquier nivel de medición: Una categorización apropiada debe ser mutuamente exclusiva y globalmente exhaustiva. La primera significa que todos y cada uno de los casos deben caer en una sola categoría, en tanto que el segundo requerimiento implica que todos los casos queden en algunas de las categorías, es decir, que ninguno de los datos quede fuera de la clasificación. Una variable que consiste de categorías que no son mutuamente exclusivas o globalmente exhaustivas debería ser revisada para hacer su categorización más consistente antes del análisis estadístico. 

El hacer una categorización exhaustiva frecuentemente requiere de incluir una o más categorías para representar valores perdidos. Por ejemplo, en el caso de la colecta de datos sobre la enfermedad de las personas, algunos hospitales no proveen información completa. Las categorías de datos perdidos son generalmente omitidas del análisis estadístico, cuando éstas son irrelevantes. 

APÉNDICE: NOTACIÓN SUMATORIA. 

En varios lugares en el texto es necesario examinar las sumas de una serie de valores. La convención usual es representar los valores separados por una letra para denotar la variable (como la x) y un subíndice para mostrar el número de caso: 1 para el primer caso, 2 para el segundo y así sucesivamente hasta N, donde N es el número total de casos. La suma de los valores de x se denota usando la letra griega sigma mayúscula. La notación completa para representar la suma de todas las x, de x1 a xN es: 

xxxx N21i

N

=1i

+...++=

esto se lee como la sumatoria de los x sub i, de i igual a uno hasta N. Esto es frecuentemente escrito en forma abreviada como Sxi, o de manera más simple como Sx

Algunas reglas de la sumatoria deben ser bien entendidas a fin de seguir sus derivaciones en el texto: 

1. Las suma de una constante N veces  es igual a N veces la constante:

Nc=c...++c+c=cN

=1i

2. Si cada valor de x es multiplicado separadamente por la misma constante "c" (c puede ser el número 2 o cualquier otro número), su suma es la misma que multiplicar la suma de los valores de x por la constante:

xxxxcxcxcxcx i

N

=1iN21N21i

N

=1i

c)=+...++c(=+...++=

 3. Si se deben de sumar parejas de valores de dos variables distintas, en donde el primer valor de cada par corresponde a una variable y el segundo a la otra, el resultado se puede obtener sumado todos

13 de 62

Page 14: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

los valores primeros de cada par y separadamente sumando los segundos valores de cada par y finalmente sumando estas sumas:

)y+x(...++)y+x(+)y+x(=)y+x( NN2211ii

N

=1i

yxsumfrom=)y...++y+y(+)x...++x+x(= i

N

=1ii

N

N21N21 +1=i

14 de 62

Page 15: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

III. MEDIDAS DE CENTRO.

 Las medidas de centro resumen el valor típico de una variable. Ellas son a menudo pensadas como promedios, aunque el promedio familiar no siempre es la vía más apropiada para resumir el centro. Hay tres principales estadísticos que son usados para indicar diferentes aspectos de lo que es típico en una variable: la moda, que deberá ser usada para datos nominales; la mediana, que es apropiada para datos ordinales; y la media, extensamente usada para datos métricos. Estas tres medidas de tendencia central serán presentadas en detalle en este capítulo, junto con otras medidas que son empleadas en circunstancias de medición específicas. La selección del estadístico apropiado para una situación de medición particular será enfatizada, pero deberá recordarse que puede ser útil emplear varias medidas para resumir diferentes aspectos de los datos. 

MODA. 

El resumen más simple de una variable es indicar qué categoría es la más común. La moda mide el centro de una variable indicando la categoría más típica.  

La moda para datos nominales. 

Si los datos son estrictamente nominales, entonces la única forma posible de evaluar la tendencia central es determinar qué categoría ocurre más frecuentemente: 

        Moda = Categoría cuya frecuencia es la más grande 

La moda puede determinarse también para datos ordinales y métricos, pero especialmente valiosa para datos nominales. Nótese que la moda es en realidad una categoría, y no la frecuencia de tal categoría. 

Como ejemplo, digamos que estamos tratando con datos de crímenes durante el año pasado en alguna ciudad: hubo 10,000 casos reportados de homicidio, 20,000 violaciones, 40,000 robos, 60,000 asaltos y 70,000 allanamientos (ver Tabla 2.1), entonces el allanamiento sería la moda dado que se reportaron más crímenes de este tipo que de cualquier otro. 

La moda es un estadístico importante para datos nominales porque es imposible trabajar con promedios para medir el centro de una variable nominal. El crimen promedio no puede ser determinado en la Tabla 2.1, por ejemplo, porque las categorías no son numéricas; aún si se asignan números a las categorías, calcular un crimen promedio de 3.80 no tendría significado dado que los números son arbitrarios. Nótese también que no tendría sentido promediar los porcentajes de las categorías: promediar 5%, 10%, 20%, 30% y 35% para obtener 20% como el índice del crimen promedio es un sinsentido, dado que cualquier distribución de casos entre las categorías daría un índice promedio de 20% de los casos por crimen. Los promedios sólo funcionan cuando la variable tiene una unidad de medición. 

La moda es una medida de tendencia central en el sentido mostrar cual es la categoría típica en una variable. El norteamericano promedio o típico es frecuentemente descrito como Protestante debido a que entre los residentes de Estados Unidos hay más protestantes que de cualquier otra religión. Este es un caso del uso de la moda como una medida de centro. 

Otra interpretación de la moda es que proporciona la mejor conjetura en cuanto a la categoría a la que pertenece un dato de una variable, si el objetivo es ser certero tan frecuentemente como sea posible; es decir, ninguna otra suposición sobre la categoría a la que pertenece un caso aleatorio será correcta tan frecuentemente como lo es la moda. Usando el ejemplo de la Tabla 2.1, digamos que una persona supuso el tipo de crimen de un reporte particular; dado que se reportaron más allanamientos que cualquier otro crimen, la mejor conjetura sobre un crimen particular es que sería allanamiento. Esta suposición no siempre sería correcta, pero sí al menos en 35% de las veces, un índice de éxito mayor que el logrado con cualquier otra conjetura. 

15 de 62

Page 16: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

La principal ventaja de la moda como un estadístico es que es fácil de obtener y de interpretar; consecuentemente, la moda es usualmente simple de comunicar y explicar a la gente.

Hay cuatro problemas involucrados al trabajar con la moda sobre datos no numéricos: 

Primero, puede no ser muy descriptiva de los datos dado que la categoría más común puede aún no ocurrir muy frecuentemente. Que el allanamiento es el crimen más común en una comunidad dice poco, aunque la prevalencia de tal crimen sea también indicada. Por sí misma, la moda proporciona poca información.

El segundo problema con la moda es que puede no ser única. Por ejemplo, dos categorías pueden ser igualmente posibles y más comunes que cualquiera otra; una variable con tal distribución es llamada bimodal. De hecho, varias categorías pueden ser igualmente probables y pueden ocurrir más frecuentemente que el resto, en cuyo caso la variable es multimodal. En el caso extremo, si cada categoría ocurriera con la misma frecuencia que las demás, no habría moda para la variable. 

Un tercer problema es que la moda puede ser grandemente afectada por la variación muestral. Imaginemos el tomar una serie de muestras y medir una variable que tiene una distribución bimodal con modas poblacionales X1 y X2: muchas muestras podrían tener a X1 como su moda, mientras muchas otras tendrían a X2. Así, la moda fluctuaría considerablemente de muestra a muestra. 

El cuarto problema es que la moda es muy sensible a cómo se combinen las categorías. El esquema de clasificación deberá estar al mismo nivel de generalidad para todas las categorías y no más general para unas que para otras. La moda puede, de hecho, ser manipulada tomando niveles de generalidad diferentes para las categorías. Por ejemplo, la Tabla 2.1 divide los 70,000 casos de allanamiento en 40,000 casos de robo menor y 30,000 casos de robo mayor: si se usaran estas dos últimas categorías en lugar del allanamiento solo, la moda ya no sería allanamiento sino asaltos, dado que habría más casos de asalto que cualquier otra categoría. Al leer

un análisis estadístico que reporta una moda siempre deberán examinarse las categorías para estar seguros de que la categoría modal no fue manipulada por el uso de categorías a diferentes niveles de generalidad. 

No obstante estos problemas, la moda es comúnmente usada para medir el centro para datos nominales porque se ajusta exactamente a los supuestos apropiados para tal nivel de medición.

La moda para datos métricos. 

Aunque la moda es particularmente importante para datos nominales, puede también ser usada para otras variables, incluso con datos numéricos. El obtener la moda de datos numéricos es justamente observar cual valor ocurre más frecuentemente. Si una variable se denota como "x", entonces: 

           xmodal = valor de x con mayor frecuencia 

Por ejemplo, la Tabla 3.1, Sección A reporta datos hipotéticos del número de guerras en las cuales han participado siete naciones. En este caso la moda es 1 porque tal valor ocurre más con mayor frecuencia. 

Ocasionalmente suceden confusiones sobre cuál es el valor modal para datos métricos. Por un lado, la moda es un valor real y no la frecuencia con que ocurre. Con los datos en la Tabla 3.1, el valor 1 ocurre dos veces, pero la moda es 1 y no 2; de la misma manera, la moda no es el valor mayor (50), sino el que ocurre más frecuentemente: el 1.

 

16 de 62

Page 17: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Tabla 3.1. Guerras del siglo XX (datos hipotéticos)

--------------------------------------------------------------------------------------------------------------------        Sección A                                             Sección BNúm. de guerras por nación           Distrib. de frecuencia de guerras Nación y Núm. de guerras             Núm. de guerras       Frec.               %-------------------------------------------------------------------------------------------------------------------Argelia                      1                                   1                     2                    28.6Australia                    2                                  2                     1                    14.3Inglaterra                    3                                  3                     1                    14.3Suiza                        50                                  4                     1                    14.3Tanzania                     1                                 9                     1                    14.3Togo                         9                                  50                    1                    14.3Turquía                        4                                              Número de casos      7                                             7        100.1-------------------------------------------------------------------------------------------------------------------Centro:                                  Dispersión:               Población:                 Muestra: Moda              1         Desv. media                        11.43     Mediana         3        Varianza                                273.14                       318.67Media           10        Desv. estándar                        16.53                        17.85                                 Coef. de variación                  1.65                             1.78Rango medio  25.5              Dif. media de Gini                   15.71Cuartil sup.    9(6.5)*   Cuartil inf.     1(2.5)               Rango                                           49Punto Medio  5(4.5)             Rango intercuartílico                   8(4)

 Trimedia        4(3.75)           Desviación cuartílica                  4(2)Biponderado  8.03               Coef. de var. cuartíl.                    0.8(0.44)                                               MAD                                             8.43                                               Coef. de dispersión                    2.81                                               D de Leik                                 0.63                                               Razón de variación                     0.71                                               Índice de diversidad                   0.82                                               Índice de var. cualit.                    0.98                                               Entropía                                     2.52                                               Entropía estandarizada                  0.98---------------------------------------------------------------------------------------------------------

 

Para cambiar a un ejemplo real, la Tabla 3.2, Sección A, lista qué tan frecuente, cada presidente de Estados Unidos desde Hoover hasta Reagan, fue electo presidente.

  La Sección B presenta los mismos datos como una distribución de frecuencias. La primera columna muestra el número de veces que un presidente fue electo y la segunda muestra cuántos presidentes, durante este periodo de tiempo, fueron electos dicho número de veces. El valor modal para tal distribución es la categoría con la frecuencia más alta en la columna de frecuencias. El valor que ocurre con mayor frecuencia lo hace 5 veces y corresponde a elegir un presidente, por lo tanto, la moda es 1.

 

17 de 62

Page 18: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Tabla 3.2. Presidentes de Estados Unidos, 1928-1984

-------------------------------------------------------------------------------------------------------------------            Sección A                                                     Sección BPresidente                Veces electo             Veces electo       Frec.       %-------------------------------------------------------------------------------------------------------------------Hoover                                   1                                  0              1           10.0Roosevelt                              4                                  1              5           50.0Truman                                  1                                  2              3           30.0Eisenhower                           2                                  3              0             0.0Kennedy                                1                                  4              1           10.0Johnson                                 1                 Nixon                                     2                                 Total          10        100.0Ford                           0                     Carter                        1        Reagan                                 2                                Número de casos                10                              -------------------------------------------------------------------------------------------------------------------Centro:                                  Dispersión:                Población:                Muestra: Moda             1          Desv. media             0.80     Mediana bruta          1Mediana exacta   1.3           Varianza                    1.05                            1.17Media                   1.5            Desv. estándar         1.02                            1.08                                               Coef. de variación     0.68                          0.72Rango medio            2          Dif. media de Gini     1.13Cuartil sup.                2 Cuartil inf.                  1          Rango                             4Punto medio             1.5     Rango intercuartílico    1

 Trimedia                    1.25    Desviación cuartílica    1Biponderada             1.505  Coef. de var. cuartíl.     0.33                                               MAD                                0.70                                               Coef. de dispersión       0.70                                                                                D de Leik                        0.35                                               Razón de variación       0.50                                               Índice de diversidad      0.64                                               Índice de var. cualit.      0.85                                               Entropía                        1.68                                               Entropía estandarizada 0.84--------------------------------------------------------------------------------------------------------------------

 La moda para datos métricos agrupados.

         La agrupación es una estrategia común al enfrentarse con variables numéricas. En lugar de enlistar separadamente cada posible valor de la variable, ésta es dividida en un conjunto de clases que cubre todo su rango de valores. En estas condiciones, la moda muestra cual clase ocurre más frecuentemente: 

              Moda = Clase con mayor frecuencia 

El ejemplo a ser usado en esta sección involucra a las temperaturas máximas diarias (ver figura 2.2). Una temperatura exacta (como 82) podría ser anotada o el dato podría ser agrupado contando cuántos días tuvieron temperaturas altas del orden de los 70s, 80s, etc. 

Algunas complicaciones más surgen al trabajar con datos métricos agrupados. Por un lado, la moda es fuertemente afectada por el número de clases y su tamaño. Supóngase que tratamos con temperaturas

18 de 62

Page 19: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

máximas para una ciudad redondeadas a un número entero (ver Tabla 3.3). Considérese, por ejemplo, las temperaturas máximas 65°, 65°, 70°, 72°, 73°, 81°, 82°, 86° y 87°, la moda de estas temperaturas en forma separada es 65° (Sección A), pero la moda es el rango de 70°-74° si son agrupadas en clases de cinco grados (Sección B), y el rango de 80°-89° si se agrupan en clases de diez grados (Sección C). La moda puede ser muy inestable cuando se agrupan los valores. 

Cuando se trabaja con datos numéricos agrupados se hace una distinción entre la moda cruda y la moda refinada. La moda cruda es precisamente el punto medio del intervalo de la categoría con mayor frecuencia. Esto es: 

     Moda cruda = Punto medio del intervalo de mayor frecuencia 

Usando las clases con anchura 10° en la Tabla 3.3, Sección C, la categoría con mayor frecuencia es 80°-89°, de ahí que la moda cruda sería 84.5°. En contraste, la moda refinada ajusta el valor modal de acuerdo a las frecuencias relativas de las clases

adyacentes. Empuja el valor modal hacia la clase adyacente que cuenta con mayor frecuencia. Sean: F i la frontera inferior de la clase modal, w la anchura del intervalo de clase, fmo la frecuencia de la clase modal, fa la frecuencia de la clase anterior a la clase modal y fp la frecuencia de la clase posterior a la clase modal. La fórmula para la moda refinada es entonces: 

)f-f(+)f-f()f-fw(

+F=MRpmoamo

amoi

 

En la Tabla 3.3, Sección C, la anchura del intervalo de clase es 10°, la clase modal es 80°-89°, la frontera inferior de esta clase es 79.5°, su frecuencia es 4, la frecuencia de la clase anterior (70°-79°) es 3 y la frecuencia de la clase posterior (90°-99°) es 0. De esta forma, la moda refinada es: 

81.5=4+1

10+79.5=0)-(4+3)-(4

3)-(410+79.5=MR 

La moda refinada está en la primera parte de la clase 80°-89°, lo que refleja que la mayor parte de los días tuvo temperaturas por debajo de la clase en relación con los que las tuvieron por encima de ella.

Tabla 3.3. Temperaturas máximas diarias.

--------------------------------------------------------------------------------------------------         Sección A                                            Sección BTemperatura    Frecuencia             Temperatura       Frecuencia--------------------------------------------------------------------------------------------------    65°            2                                              65°-69°              2    70°            1                                              70°-74°              3    72°            1                                              75°-79°              0    73°            1                                              80°-84°              2    81°            1                                              85°-89°              2    82°            1            86°            1                                   Número de casos      9    87°            1                                                              Moda                    70°-74°Número de casos    9                         Moda cruda             72°                                                  Moda refinada              70.75°Moda             65°     

 ------------------------------------------------------------

19 de 62

Page 20: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

                                                                       Sección C                                                           Temperatura       Frecuencia                                               -----------------------------------------------------------                                               60°-69°                                  2                                               70°-79°                                  3                                               80°-89°                                  4                                               Número de casos     9                                               Moda                                     80°-89°                                               Moda cruda                           84.5°                                               Moda refinada                      81.5°-----------------------------------------------------------------------------------------------------------------

MEDIANA.

 Cuando las categorías de una variable están ordenadas, una medida de centro debe tomar en cuenta dicho orden. La mediana lo hace al encontrar el valor de la variable que corresponde con el caso intermedio. Ésta es una medida de posición, que muestra la categoría para la observación central. 

La mediana para datos ordinales.

 La forma usual de resumir un valor típico para una variable ordinal es determinar la categoría en la que cae la observación central: 

             Mediana = Categoría del caso central 

La mediana es una medida de localización, posicional o de orden con la cual se localiza la posición de un valor típico a lo largo del ordenamiento de una variable. Recuérdese que la mediana calculada con datos ordinales no es numérica, dado que la variable ordinal tampoco lo es. 

Como ejemplo, digamos que siete personas califican el servicio de una compañía, tres de las cuales consideran que es "excelente" y cada una de las demás piensan que es "muy bueno", "bueno", "regular" y "malo". La persona central calificó al servicio de la compañía como "muy bueno", por lo ésta es la mediana para la presente escala ordinal. 

La mediana es importante para datos ordinales, en parte debido a las limitaciones de otras medidas para tales datos. La moda puede obtenerse para datos ordinales, pero no toma en cuenta el orden de las categorías, cosa que hace a la  

medición un poco mejor que solamente una clasificación nominal; más aún, la moda puede no ser representativa para una variable ordinal. Supongamos que tres alumnos galardonados en una generación comparten el primer lugar porque todos ellos tienen promedios de calificación perfectos y cada uno de los 97 estudiantes restantes cae en diferentes categorías, aunque por muy poca diferencia en sus promedios; la moda en este ejemplo correspondería a los galardonados, aunque ellos son extremadamente poco representativos de la generación completa. 

Al mismo tiempo, no tendría sentido calcular promedios de datos ordinales debido a que los números de las categorías son arbitrarios. Por ejemplo, digamos que se pide a las personas que califiquen el servicio proporcionado por una compañía, y usamos números enteros para distinguir las categorías (1 para excelente, 2 para muy bueno, etc). Encontrar que el promedio de calificación del servicio es 2.43 no sería muy significativo, debido a que las unidades entre las cinco etiquetas verbales no son necesariamente iguales. Después de hacer esta advertencia, es necesario admitir que se está convirtiendo en práctica común el calcular promedios de variables ordinales, muchos investigadores están encontrando que es una forma útil de resumir sus datos, aún cuando al hacerlo se incrementa la probabilidad de llegar a conclusiones falsas. 

Hay dos ventajas principales con la mediana: primero, es relativamente fácil de obtener y segundo, está basada en la distribución completa y sólo en una parte, como sucede con la moda. 

20 de 62

Page 21: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Hay dos complicaciones a considerar en el trabajo con la mediana:  

La primera es que una categoría es intermedia sólo con respecto a un cierto orden, por lo que es indispensable pensar en términos de tal ordenamiento al determinar la mediana. Decidir qué es la subyacente propiedad ordenada y entonces ordenar los casos de acuerdo con esta propiedad antes de calcular la mediana. Las categorías deben estar ordenadas apropiadamente antes de determinar la mediana. Por ejemplo, si se les pide a siete personas evaluar el servicio de una compañía y el orden en que dieron las respuestas fue "malo", "excelente", "excelente", "regular", "excelente", "muy bueno" y "bueno", el dato central es "regular", pero este no es realmente la categoría mediana; Las categorías deben ponerse primero en un orden evaluativo adecuado: excelente, excelente, excelente, muy bueno, bueno, regular y malo, así, la categoría mediana para evaluar el servicio de la compañía es "muy bueno". 

La segunda complicación involucra el determinar el caso central. El centro está bien definido cuando el número de casos es impar, no así cuando es par. Imagínese un pequeño salón de clases donde hay una fila con sólo tres estudiantes en ella, el estudiante central es claramente el segundo estudiante, independientemente del lado donde se inicie la cuenta; sin embargo, ¿qué pasa si hay cuatro estudiantes en la fila?,  

¿Quién es el estudiante central?. En cierto sentido, el segundo y el tercer estudiantes forman juntos el centro, en otro sentido, no hay centro: la posición central está entre el segundo y el tercer estudiante. La forma usual de pensar acerca de la mediana para un número par de casos es que se encuentra a la mitad entre los dos casos centrales. 

Hay una fórmula para determinar qué caso ordenado es el central. Si hay N observaciones, entonces el caso central es: 

             Mediana = Categoría del caso (N+1)/2 avo 

Así, con tres casos, N=3 y la mediana es la categoría del caso (3+1)/2=2°; con cuatro casos, N=4 y la mediana es (4+1)/2=2.5avo caso, a la mitad entre el segundo y el tercer caso. 

La mediana para datos métricos. 

Aunque la mediana es más importante para datos ordinales, algunas veces es también usada para variables métricas. Para datos métricos, la mediana indica el valor de la variable (que llamamos x) para el caso central. Al igual que para datos ordinales, es esencial que esté ordenada apropiadamente antes de calcular la mediana. Si hay N observaciones ordenadas, entonces la observación central es la (N+1)/2 ava. Así, para N impar: 

        xmediana = valor de x del (N+1)/2 avo caso ordenado 

y para N par: 

   xmediana = promedio del N/2 avo y [(N/2)+1] avo caso ordenado

por cierto, (N+1)/2 no es la mediana para N impar; es la localización de la mediana en un conjunto ordenado de valores. 

Como ejemplo, regresemos al número de guerras en las cuales diferentes países participaron (Tabla 3.1, Sección A). Con los países listados en orden alfabético, el número de guerras son 1, 2, 3, 50, 1, 9 y 4, lo cual hace parecer que la clase central es 50, pero no es así. La variable es el número de guerras en las que el país ha luchado y los valores deben ponerse en un orden apropiado (1, 1, 2, 3, 4, 9 y 50), antes de obtener la mediana; por lo que, bajo este orden, la mediana resulta ser 3 guerras. 

21 de 62

Page 22: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

 Con datos numéricos para un número par de casos, la mediana es definida como la mitad entre los valores de los dos casos centrales. Por ejemplo, digamos que tuvimos datos de la participación en las guerras de solo cuatro países y el número de guerras en las que estuvieron fue 1, 3, 4 y 50 respectivamente. ¿El caso central sería el segundo con 3 guerras?, o ¿el tercero con 4?, o ¿cuál?. La mediana es 3.5, la mitad entre 3 y 4, aunque ningún país haya estado en 3.5 guerras.

Hay dos ventajas adicionales de la mediana para datos numéricos: 

Primero, no se ve afectada por valores extremos de la variable. Algunas medidas de centro son considerablemente influenciadas por casos atípicos extremos (como el valor 50 en el ejemplo anterior), pero la mediana no; amablemente captura el lugar donde se encuentra el centro de la distribución, y no es afectada por valores extremos inusuales. Como resultado, la mediana es considerada como un estadístico resistente. 

Una segunda ventaja especial de la mediana es que algunas veces puede ser calculada aún cuando la distribución tenga extremos abiertos. Considérese, por ejemplo, el problema de determinar la edad típica de muerte de varias generaciones de egresados de preparatoria; digamos que una generación tuvo sólo cinco egresados: uno que murió joven a los 30 años, un segundo que vivió hasta los 67, un tercero que murió a los 80 años y dos más que aún viven tienen ambos 87 años de edad. La edad mediana de muerte de esta generación es claramente 80 años, la que puede ser determinada sin esperar a que mueran los dos miembros sobrevivientes. Ni la moda ni el promedio pueden determinarse en este ejemplo, sólo la mediana. Nótese también en el ejemplo que la mediana no es influenciada por datos extremos (la persona que muere muy joven, de manera inusual). 

Debido a estas dos ventajas especiales, la mediana útil algunas veces aún apara datos métricos. La mediana debería tomarse en cuanta cuando hay datos extremos o cuando el proceso observado tiene extremos abiertos. 

La mediana tiene en realidad una propiedad óptima especial para datos métricos. El describir esta propiedad requiere de la introducción de un concepto nuevo: la desviación de una observación respecto de una cierta medida de centro. Cierta notación es útil aquí: etiquetemos la variable en estudio como "x", entonces x i es la observación del i-ésimo caso; sea xc la medida de centro usada, así, la desviación d i para el i-ésimo caso es di = xi - xc. Esta desviación muestra qué tanto difiere el valor de la i-ésima observación de la variable respecto de la medida de centro. A continuación definimos la desviación absoluta como la magnitud con signo positivo de tal desviación: 

                       І di І = І xi - xc  І 

La propiedad especial de la mediana es que la suma de estas desviaciones absolutas alrededor de la mediana es mínima. (Una implicación de esta propiedad es que la desviación absoluta promedio es mínima cuando se toma en relación con la mediana, un resultado que se usará en el próximo capítulo). Esta propiedad especial da a la mediana una interpretación de "mejor conjetura". La mediana es la mejor suposición del valor de un caso, si el objetivo es minimizar la desviación absoluta; si el signo del error en la conjetura no importa, pero su magnitud sí, entonces la mediana es la mejor suposición del valor de un caso de la variable.

La mediana para datos métricos agrupados. 

Ocurre un problema con la mediana para datos métricos agrupados al determinar el caso central cuando hay una serie de casos que comparten el mismo valor. Si el precio de 5 artículos en una ferretería fueran $2, $4, $4, $7 y $30, entonces,  ¿es el primer 4 o el segundo 4 el valor central?. En principio, ésta parece ser una pregunta sin sentido, porque 4 es 4 ( ¡es 4!); pero digamos que estos precios han sido redondeados al entero más cercano, en otras palabras, $4 representa un costo de entre $3.50 hasta $4.49. Si los precios son $2, $4, $4, $7 y $30, entonces hay un sentido real en el que el caso central es el segundo de los artículos de $4. No conocemos el valor exacto de los artículos, pero podríamos asumir que cualquier valor entre $3.50 y $4.49 es igualmente probable por lo que el artículo más caro esta probablemente más cercano a $4,49 que a $3.50. Otra manera de conceptualizar esto es preguntarnos qué tan "adentro" de la clase se encuentra el valor central:

22 de 62

Page 23: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

debido a que hay más casos por arriba de $4 que por debajo, debemos avanzar dentro de la categoría de $4 hasta obtener el caso central, de ahí que el valor central estará en el lado mayor de $4. 

Al tratar con la mediana de datos métricos agrupados, se hace una distinción entre mediana bruta y mediana exacta. La mediana bruta es justamente el valor correspondiente a la marca de clase de la clase que contiene al dato central: 

        Mediana bruta = Marca de clase de la clase mediana 

La fórmula para calcular la mediana exacta en esta situación es:

fC)-w(0.5N+F=ME

mei

donde Fi es la frontera inferior de la clase que contiene al percentil 50 (o clase mediana), C es la frecuencia acumulada hasta antes de la clase mediana, fme es la frecuencia de la clase mediana y w es la anchura del intervalo de la clase mediana. Se considera aquí que los casos se distribuyen uniformemente a lo largo del intervalo de la clase mediana. En el ejemplo anterior, la mediana bruta es $4, pero la mediana exacta es $4.25. Usualmente, todo lo que se requiere de un conjunto de números es su mediana bruta, pero algunas veces la mediana exacta resulta ser de interés. 

Si regresamos al ejemplo del número de veces que un presidente fue electo (Tabla 3.2, Sección A), en el periodo 1928-1984, los valores fueron 1, 4, 1, 2, 1, 1, 2, 0, 1 y 2; puestos en un orden apropiado (Sección B), los valores se leerían: 0, 1, 1, 1, 1, 1, 2, 2, 2, 4. La mediana bruta es 1 y la mediana exacta es 1.3. La mediana exacta se encuentra en la parte superior del rango 1 (0.5-1.4999), dado que tenemos que movernos por la mayoría de los casos 1 hasta obtener el caso central. 

LA MEDIA ARITMÉTICA. 

Generalmente la forma más efectiva de resumir datos métricos es promediar los valores de la variable. Este estadístico es conocido técnicamente como la media. Es una medida de tendencia central para variables netamente numéricas. 

La media para datos métricos. 

La moda y la mediana pueden ser obtenidas para datos métricos, pero no toman en cuenta toda la información contenida en este tipo de datos, en tanto la media sí lo hace. 

La forma más común para determinar el valor típico de una variable numérica es calcular el promedio aritmético de sus valores, a lo que se le llama la media. Para obtener la media, se suman todos los valores y el resultado se divide entre el número de casos. Aunque es fácil calcular la media a partir de la descripción anterior, resulta importante familiarizarse con la notación que se usará para otros cálculos estadísticos. La notación para la media de una variable x es:

x

llamada x-barra. La fórmula para la media es entonces: 

Nxxx

N

xx N

N

ii

211

23 de 62

Page 24: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

 En esta fórmula, N representa el número total de casos, la letra i indica el número de caso (primero, segundo, etc.), xi es el valor del i-ésimo caso y la letra griega mayúscula sigma ( ) indica la suma. Como se indicó en el apéndice del Capítulo 2, la notación abajo y arriba de la sigma se lee como la suma desde i=1 hasta N y es una forma de decir que estamos sumando todos los valores de x i. Después de obtener la suma de las x's, se divide entre N para obtener la media. 

Como un ejemplo, la Tabla 3.1, Sección A, presenta valores hipotéticos para el número de guerras en las que han participado siete países durante el siglo XX. Para obtener la media de los números, primero sumamos todos los valores (1+2+3+50+1+9+4=70) y luego dividimos entre el número de casos (7 naciones) para

obtener una media de 10 (=70/7). De forma similar, para obtener el número medio de veces que los presidentes, desde Hoover hasta Reagan, fueron electos (Tabla 3.2, Sección A), sumamos los números (cuya suma es 15) y luego dividimos entre el número de presidentes (10), lo que nos lleva al resultado de 1.5 (=15/10). 

La media tiene una serie de propiedades que la hacen única y útil. A fin de presentarlas, es necesario

usar la notación de desviaciones respecto a la media: d i = xi - x .   Esta desviación muestra la distancia que hay entre cada valor y la media. 

La primera propiedad de importancia para la media es que la suma total de desviaciones con respecto a ella es cero. La prueba es directa: 

0ii

iiiii xx

Nx

NxxNxxxxx

 La media es única en este sentido: la suma total de desviaciones con respecto a cualquier otro valor será siempre mayor. Que la suma total de desviaciones respecto a la media sea cero implica también que el promedio de las desviaciones con signo respecto a la media es cero.

Esta propiedad lleva a una interpretación de la media como un estadístico de "mejor conjetura". Digamos que queremos suponer el valor de una puntuación particular, tal que la suma de los errores con signo (o el promedio de los errores con signo) en la suposición sea mínima. Debido a que la suma de las desviaciones con signo respecto a la media es cero, la media es la mejor conjetura de la puntuación de la variable, si el objetivo es minimizar la suma (o el promedio) de los errores con signo. 

La segunda propiedad importante de la media es que la suma de las desviaciones negativas respecto a la media es igual a la suma de las desviaciones positivas. Este es el caso porque el gran total de desviaciones es cero, por lo que las desviaciones negativas se compensan con las desviaciones positivas. Esta propiedad lleva a una interpretación especial de la media como un punto de balance (o de equilibrio) para la distribución de los valores. Es un punto de balance en el sentido de que las desviaciones negativas se compensan con las desviaciones positivas. Para cualquier distancia a que se encuentren los valores por abajo de la media, ésta será compensada por algunos valores que se encuentran igualmente distantes por arriba de la media. 

 La tercera propiedad de la media involucra desviaciones al cuadrado: La suma de las desviaciones al cuadrado respecto a la media es más pequeña que la suma de las desviaciones al cuadrado respecto a cualquier otro valor. Para probar esto, considérese la desviación de la observación x i respecto a un valor

arbitrario x0. La desviación xi-x0 no cambia si el mismo valor (digamos x ), es sumado y restado de ella:

  00 xxxxxx ii

 Elevando al cuadrado ambos lados de esta identidad se obtiene:

24 de 62

Page 25: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

  200

2´20 2 xxxxxxxxxx iii

 A continuación se aplica la sumatoria a ambos lados de la igualdad para obtener la suma de desviaciones al cuadrado respecto a un valor arbitrario x0, la cual se va a minimizar:

  200

220 2 xxxxxxxxxx iii

  Los tres términos del lado derecho de esta ecuación deberán ser examinados separadamente. El primer término es la suma de las desviaciones al cuadrado respecto a la media. El segundo término es cero dado que

0222 000 xxxxxxxxxx ii  = 0, porque la suma de desviaciones respecto a la

media es cero. El tercer término es precisamente N 20xx  porque 2

0xx  es una constante que se debe sumar a si misma N veces. Un término al cuadrado no puede ser negativo, por lo que el tercer término se

minimiza cuando x0 = x   , en cuyo caso el término es igual a cero. Como resultado, la suma de las desviaciones al cuadrado respecto a un valor fijo arbitrario x0 se minimiza cuando dicho valor es la media. Como se verá en el próximo capítulo esta propiedad de mínimos cuadrados es importante al medir la dispersión de una variable métrica.

En adición a las propiedades antes descritas, hay dos ventajas adicionales de la media como una medida de centro. Primero, es más estable que otras medidas posibles: sobre muestras repetidas, la media tendría menos variación que cualquier otra medida de centro. Segundo, otros estadísticos importantes (especialmente la varianza y covarianza) están basados en desviaciones respecto a la media. Estas ventajas se volverán más evidentes en capítulos posteriores.

 Tres problemas respecto a la media deben ser mencionados. Primero puede tener valores fraccionarios, aún cuando la variable misma pueda tomar sólo valores enteros. Este problema es evidente el tabla 3.2, donde el número medio de veces que los presidentes fueron electos es 1.5, un valor que no puede ocurrir. Este es un verdadero problema para la interpretación de valores fraccionarios, más que una limitación de la media en sí. 

Un segundo problema con la media es que no puede ser calculada cuando las categorías extremas de la variable tienen límites abiertos. Por ejemplo, el ingreso promedio sería indeterminado si una categoría incluye ingresos de un millón o más.

 Un problema final con la media es el hecho de ser fuertemente afectada por casos extremos. Recuérdese el primer ejemplo (tabla 3.1) que involucra el número de guerras en las que siete naciones habían participado. La moda fue uno y la mediana tres, pero la media fue mucho más grande: 10 guerras. La media aquí es mucho mayor que las otras medidas de tendencia central debido a que se ve afectada por el valor 50, en tanto la moda y la mediana no son sensible a él. La moda y la mediana tienden a estar alrededor de donde se encuentra la mayor parte de los datos, pero la media puede ser atraída hacia el caso extremo. Dado que la media es afectada por extremos atípicos, se le considera no resistente en contraste con medidas de centro más resistes tales como la mediana.

 La media para datos métricos agrupados.

 Una versión especial de la fórmula de la media se puede usar cuando los datos están agrupados. Cuando varias clases tienen el mismo valor la suma en el numerador puede simplificarse. En lugar de sumar los valores separados, cada valor es multiplicado por su frecuencia y estos productos son sumados posteriormente. Esta suma es dividida por el número total de casos para obtener la media. La fórmula para la media con datos agrupados es:

i

iiii

fxf

Nxf

x

25 de 62

Page 26: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

 donde fi es la frecuencia de la categoría i.

Como un ejemplo, considérense otra vez los datos de la Tabla 3.2 sobre el número de veces que 10 presidentes, desde Hoover hasta Reagan, fueron electos. Podemos resumir los datos como: un presidente fue electo cero veces, cinco fueron electos una vez, tres lo fueron dos veces y uno, cuatro veces. El cálculo original de la media se hizo sumando todos los valores separados, pero sería equivalente multiplicar 1(0), 5(1), 3(2) y 1(4), luego sumar los productos y finalmente dividir entre 10 para obtener la media de 1.5. Así, la fórmula de la media para datos agrupados da el mismo resultado que la fórmula usual; ésta resulta ser una fórmula más fácil cuando algunos valores ocurren repetidamente. 

Cuando una variable continua es agrupara en clases de intervalos mayores que 1, la fórmula de la media puede ser usada con un ajuste menor: la marca de clase deberá usarse como el representante de la clase. Por ejemplo, al tratar con temperaturas diarias, si las fronteras de la clase son 79.5° y 89.5°, entonces 84.5° (la marca de clase) deberá usarse para representar a la clase en el cálculo de la media. Cuando sea posible, es mejor calcular la media y otros estadísticos directamente de los datos originales que usar las fórmulas para datos agrupados, aunque algunas veces no hay alternativa, como cuando se calculan estadísticos de tablas de datos publicados en las que las variables ya han sido agrupadas. 

Una medida estrechamente relacionada es la media ponderada. En la mayoría de las situaciones de recolección de datos, cada elemento es muestreado con igual probabilidad; sin embargo algunas veces hay sobre muestreo de ciertas partes de una población. Por ejemplo, digamos que el objetivo de un estudio es comparar la tasa de muertes de una enfermedad particular en los hospitales del sur y los hospitales del norte, y digamos que el 20% de los hospitales de Estados Unidos se encuentran en el sur en tanto que el 80% está en el norte. Si las investigaciones permitieron estudiar un total de 100 hospitales el muestreo equiprobable llevaría a seleccionar cerca de 20 hospitales en el sur, lo que podía ser una muestra demasiado pequeña para hacer inferencias confiables en relación con las tasas de muerte en los hospitales del sur. En esta situación, el investigador optaría por doblar el tamaño de muestra de los hospitales sureños, por lo que serían seleccionados 40 en lugar de 20. Escoger 40 hospitales del sur y 40 del norte aseguraría suficiente cobertura de ambas áreas para permitir el cálculo de estadísticos para cada región. Deberían calcularse medias separadas para el norte y para el sur, utilizando la fórmula usual para la media. Sin embargo, los hospitales del sur han sido sobre muestreados, por lo que una fórmula especial ponderada es necesaria para calcular la media nacional.

 La fórmula para la media ponderada es:

i

iip

wxw

x

        donde wi representa el peso de la i-ésima observación. Los pesos compensan las altas probabilidades de seleccionar algunas observaciones en relación con otras. El peso de la i-ésima observación sería:

fNp=wi

ii

 donde fi es la frecuencia de la categoría i en la muestra y p i es la proporción poblacional conocida de tal categoría. Si una muestra incluye 40 hospitales del sur, en lugar de 20, la muestra fue doblada, por lo que cada hospital debería ser ponderado por el factor 0.5

 (=0.20x100/40). Los hospitales del norte fueron correspondientemente subrepresentados (60 en lugar de 80), por lo que ellos deberán ser ponderados por un factor de 1.33 (= 0.80x100/60).

         Muchas encuestas de opinión pública sobre muestrean partes específicas de la población y entonces usan variables ponderadas para compensar. Por ejemplo, el estudio de la Elección Nacional Americana de 1964 dobló el tamaño de la muestra de negros a fin de tener más entrevistas para describir las posturas

26 de 62

Page 27: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

afroamericanas. El archivo para tal estudio incluye los pesos (los w i) necesarios para calcular las medias globales y otros estadísticos.

 Otra situación de ponderación ocurre cuando hay una serie de muestras con medias separadas para cada una, pero resulta de interés una media conjunta. Las muestras pueden no ser del mismo tamaño por lo que al calcular la media global se requiere ponderar cada muestra separada por el número de casos en los que se basa. Por ejemplo, digamos que una variable se mide cada tres años, con 1000 personas en la muestra para el primer año, 800 para el segundo y 500 para el tercero; dado que el número de casos es diferente en cada año sería inapropiado sumar las medias anuales y dividirlas por el número de años. En su lugar una media combinada debería reflejar la inequidad numérica de cada media, dando mayor peso a los años con más cantidad de personas. Para una media conjunta, deberá usarse la siguiente fórmula:

 

j

jj

NxN

x

 donde _j es la media de la muestra j y N j es el número de casos en la muestra j. Un ejemplo de los cálculos para una media conjunta se encuentra en la tabla 3.4.

 Tabla 3.4. Cálculos para la media conjunta.

--------------------------------------------------------------------------------------------------------------------

AÑO      TAMAÑO DE MUESTRA (N)       MEDIA x     SUM DE X=N ix        VARIANZA

-------------------------------------------------------------------------------------------------------------------

2001          1,000                              1.3                     1,300.00                             0.25

2002            800                               1.1                        880.00                             0.36

2003            500                                  0.9                       450.00                             0.16

  Total       2,300                                                             2,630.00

 

Media de medias = (1.3 + 1.1 + 0.9)/3 = 1.1

Media conjunta = [(1.3)(1000)+(1.1)(800)+(0.9)(500)]/2300 =1.143

Varianza conjunta=[(999)(0.25)+(799)(0.36)+(499)(0.16)]/2297=0.269

-------------------------------------------------------------------------------------------------------------------

 

La media para datos dicotómicos.

 ¿Los datos dicotómicos deben resumirse mediante modas, medianas o medias?. La respuesta es que se puede usar cada una de ellas. La moda muestra cuál de las dos categorías ocurre más frecuentemente, al igual que la mediana bruta. La media tiene una interpretación más especial. 

27 de 62

Page 28: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Si la variable dicotómica se codifica como 1 para una categoría (llamada éxito) y 0 para la otra categoría, entonces la media muestra la proporción de casos que caen en la categoría 1. Si la proporción de casos con resultado 1 se denota con "p", entonces la media de una variable dicotómica es: 

x  = p

 Para ver esto, úsese la fórmula para datos agrupados. El número de observaciones con resultado 1 sería pN y el resto de las observaciones, N-pN tendrían como resultado 0. La media es entonces: 

pNpN

NpN

NpNNpNx

001

 Tomemos, por ejemplo, la asistencia a la iglesia: si una persona fue o no a la iglesia la semana pasada. Digamos que sólo el 15% de las personas asistió (ver Tabla 3.5). La categoría modal es "no asistencia"; de igual forma, la persona mediana no fue a la iglesia. Si se anota un 1 para asistencia y un 0 para no asistencia, la media sería 0.15, mostrando que el 15% de la gente asistió. La codificación 1/0 de la variable dicotómica (conocida como la creación de una variable ficticia o "dummy") lleva a una interpretación intuitiva de la media: la proporción de casos que caen en la categoría 1.

Tabla 3.5. Distribución de la asistencia a la iglesia.

--------------------------------------------------------------------------------------------------------------------

ASISTENCIA            CODIFICACIÓN                   FRECUENCIA            PROPORCIÓN

--------------------------------------------------------------------------------------------------------------------

Asistió                                   1                                             30                      0.15 = p

No asistió                              0                                             170                    0.85=1-p

 

   Total                                                                                      200                  1.00

 

Media                         0.15= [(30)(1)+(170)(0)]/200                                            = p

Varianza                     0.1275 = (0.15)(0.85)                                                        = p(1-p)

Desviación estándar 0.3571

-------------------------------------------------------------------------------------------------------------------

DISCUSIÓN. Comparación de la media, la mediana y la moda.

         La Tabla 3.6 resume una serie de propiedades de la moda, la mediana y la media que han sido discutidas en este capítulo. La gráfica también valora estas medidas de acuerdo con varios criterios para resúmenes estadísticos que fueron presentados en el capítulo 1. Algunas de las conclusiones en la tabla 3.6 son

28 de 62

Page 29: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

debatibles, pero aún así proporcionan un punto de inicio útil. Propiedades técnicas adicionales serán presentadas al final de capítulo 5.

Tabla 3.6. Propiedades de las medidas de centro.

         Seleccionar de entre las tres medidas clásicas de centro depende principalmente de dos consideraciones: la distribución de los valores de la variable y el nivel de medición.

Primero, hay diferentes formas de distribución para variables métricas. Una de estas es la distribución simétrica unimodal como se observa en la figura 3.1, sección a. En ésta, la moda, la mediana y la media se encuentran todas en el centro de la distribución. Dado que la moda, la mediana y la media son iguales para una distribución simétrica unimodal, el escoger entre ellas no tiene importancia. Un caso contrastante es una distribución sesgada, como en la sección b. Aquí los valores pequeños predominan, pero hay algunos valores atípicos muy grandes. A esto se le conoce como sesgo positivo, porque la cola de la distribución se extiende a la derecha. La moda es el valor que ocurre más frecuentemente, el caso central es más grande y por lo tanto también la mediana. En vista de que la media es afectada por valores extremos, esta resulta aún más grande. Así, la moda es la más pequeña, le sigue la mediana y la media es el valor mayor para distribuciones con sesgo positivo. En contraste, una distribución con sesgo negativo (sección c) tiene la mayor cantidad de valores grandes, con algunos valores demasiado pequeños; aquí, la moda es la más grande, le sigue la mediana y la media es el valor más pequeño. La mediana es frecuentemente usada para resumir datos numéricos debido a que la media puede ser fuertemente afectada por valores extremos.

 

FIGURA 3.1

 a). Distribución simétrica, b). Distribución con sesgo positivo y c) Distribución con sesgo negativo.

Cantidad = 31

Media = 16.0

Mediana = 16.0

Moda = 12.0    * los valores de la media, moda y mediana deben ser iguales

Distribución simétrica

-17 3 23 43 630

5

10

15

20

25(X 0.001)

Datos: -3, -12, 12, 12 –14, 15, -13, 16, 17, -17, 22, 3, 12, 12, 12, 14, 15, 16, 26, 17, 17, 22, 27, 28, 29, 29, 34, 34, 36, 37, 51.

 Número de datos = 20

Media = 23.05

29 de 62

Page 30: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Mediana = 19.5

Moda = 12.0

Distribución con sesgo positivo

0 10 20 30 40 50 600

0.005

0.01

0.015

0.02

0.025

0.03

Datos 3, 12, 12, 12, 14, 15, 16, 16, 17, 17, 22, 27, 28, 29, 29, 34, 34, 36, 37, 51.

 

Número de datos = 20

Media = 6.85

Mediana = 19.5

Moda = 16.0

Distribución con sesgo negativo

-70 -40 -10 20 50 800

3

6

9

12

15(X 0.001)

Había un fuerte sesgo positivo en nuestro ejemplo del número de guerras en las que diferentes naciones lucharon (tabla 3.1) debido a que una nación participó, en forma exagerada, en 50 guerras. Los valores de las medidas de centro siguen el esquema de las variables positivamente sesgadas: la moda es 1, la mediana es 3 y la media es 10. El valor de la mediana es más típico de la distribución global que la media en este caso. La mediana esta generalmente mucho más cercana a la media que a la moda, aunque este ejemplo muestra que dicha regla no siempre se cumple.  

Más allá de la forma de distribución de los valores, el nivel de medición debe ser considerado al escoger cuál de estas medidas de centro debe usarse. La regla más simple es usar la moda para datos nominales, la mediana para datos ordinales y la media para datos métricos. Adicionalmente un estadístico de nivel más bajo puede ser usado con seguridad para un nivel más alto de medición, como el usar la moda para datos ordinales o la mediana para datos métricos 

Realmente hay controversias considerables sobre el uso de estadísticos basados en datos numéricos, como la media, al aplicarse a datos ordinales. La regla estricta del nivel de medición es que las medias jamás deberían calcularse con datos ordinales, pero dicho análisis se ha convertido en práctica común. Aquellos investigadores que, bien intencionados, toman la media de variables ordinales arguyen que hay variables

30 de 62

Page 31: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

continuas latentes (aunque con error al nivel manifiesto) subyaciendo a las variables ordinales y que los resultados enteros de variables ordinales usualmente producen resultados estadísticos que podrían estar sumamente cercanos a lo que sería obtenido por las categorías numeradas realmente desconocidas. Por el contrario los puristas de la estadística arguyen que hay una probabilidad de llegar a falacias estadísticas serias porque los resultados basados en puntuaciones enteras podrían ser muy diferentes de aquellos basados en las puntuaciones reales subyacentes. Esta controversia probablemente no será resuelta en un tiempo corto; entre tanto, es mejor mantenerse cerca del nivel de medición de los datos como un primer paso y tomar en cuenta directamente cuando se viola tal nivel.

Al observar las variables no se siente siempre la necesidad de seleccionar una única medida de centro. Las diferentes medidas proporcionan diferentes partes de información y algunas veces es útil el observar estos múltiples aspectos de los datos. Así, en el ejemplo de las guerras usado a través de todo este capítulo, la mediana podría ser la mejor opción si solo una medida debiera reportarse, pero la moda y la media también dan información relevante. Múltiples medidas se muestran bajo las tablas en esta monografía de tal suerte que los lectores pueden comparar los resultados proporcionados de cada una. 

Hay algunas medidas de centro adicionales, pero son usadas con menos frecuencia por lo que algunos lectores podrían querer saltar hacía el capítulo siguiente. 

Propiedades matemáticas de las medidas de centro.

 La media, la mediana y la moda para datos métricos pueden transformarse mediante una regla lineal: sumar una constante k a todos los valores de la variable incrementa su centro en una cantidad k, multiplicar cada valor por una constante m multiplica su centro por la cantidad m. Matemáticamente:

  )]x([(m)centro+k=)mx+Centro(k ii  

Como un ejemplo, si una variable x es medida en una escala de 0 a 100, con 50 como punto neutral, y si el investigador quiere convertir la variable a una escala de -100 a +100, con 0 como punto neutral, la regla de

conversión sería 2x-100, con el valor medio trasladado como  2 x -100.

 Otras medidas de centro basadas en valores ordinales.

 El interés del análisis exploratorio de datos ha llevado al desarrollo de una serie de nuevas medidas de centro para variables ordinales. En la filosofía subyacente al análisis exploratorio de datos (EDA), estas medidas son útiles para proporcionar un entendimiento del centro de una variable. Tienden a ser particularmente resistentes a datos extremos, es decir, sus valores no son atraídos por datos distantes de la mayoría. 

Algunas de estas medidas requieren del cálculo previo de los cuartiles. Recuérdese que el cuartil inferior Q1 es donde se encuentra el percentil 25 y el cuartil superior Q3 está en el percentil 75. En realidad hay dos diferentes formas de localizar los cuartiles: una dice que el cuartil inferior corresponde al caso (N+1)/4 y el superior al caso 3(N+1)/4; éstas son fórmulas de uso fácil, pero frecuentemente proporcionan cuartiles que se encuentran entre dos valores. Por ejemplo, con 6 casos el primer cuartil sería el caso 1.75, a tres cuartas partes del camino entre el caso 1 y el 2. La otra forma de localizar los cuartiles es pensarlos como las medianas de las dos mitades del conjunto de datos, incluyendo a la mediana general en cada mitad; así, para 6 casos, la mediana general está entre el tercero y el cuarto caso, por lo que de acuerdo a lo antes dicho, el primer cuartil estará la mitad de los primeros tres casos (esto es, el caso 2) y el tercer cuartil estará a la mitad de los segundos tres casos (es decir, el caso 5). En este libro se usa la primera forma de determinar los cuartiles. 

Un conjunto de medidas basadas en EDA involucra promedios de valores percentiles. El rango medio es el promedio de los valores más pequeño y más grande:                

31 de 62

Page 32: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

2min máxxx

RM

 Regresando al ejemplo de las guerras de la Tabla 3.1. Sección A, el valor mayor es 50 y el menor 1, por lo que el rango medio es 25.5 guerras. El punto medio es el promedio de los cuartiles inferior y superior:

2Q+Q=PM 31

 En el mismo ejemplo, el valor del cuartil inferior es 1 y el del cuartil superior es 9, por lo que el punto medio es 5 guerras. De manera más general, el promedio de los valores de x-ésimo percentil inferior y del x-ésimo percentil superior proporciona un resumen medio. El rango medio, el punto medio y otros resúmenes medios, pueden ser usados como medidas de centro. 

Comparando estos diferentes estadísticos de resumen medio se obtiene una indicación del grado de simetría de la distribución. En una distribución simétrica, el rango medio, el punto medio, la mediana y todos los demás resúmenes medios serían iguales. Si la variable es sesgada con algunos casos inusualmente altos, el rango medio sería mayor que el punto medio, el cual sería mayor que la mediana (como en el ejemplo de las guerras). Si la variable tiene sesgo en sentido contrario, el orden mencionado sería inverso.

Otra medida para el centro basada en EDA, es conocida como la trimedia o más fácil estimador sistemático. Es una combinación de la mediana y los cuartiles, dándole mayor peso a la mediana que a los cuartiles. La fórmula es:

  4Q+2M+Q=TM 31

 En el ejemplo de las guerras, el valor del primer cuartil es 1, el de la mediana es 3 y el del cuartil superior es 4. La trimedia es en realidad el promedio de la mediana y del punto medio definido antes. Una ventaja de la trimedia como una medida de centro es que combina el énfasis de la mediana sobre el valor central con la atención que tiene el punto medio sobre los extremos. 

Algunos programas de computadora producen un estadístico de tendencia central adicional, basado en EDA: el biponderado o bicuadrado ponderado. Su fórmula es muy complicada para calcularla a mano. Mosteller y Tukey reportan que el biponderado tiene una varianza baja de muestra a muestra, es resistente al efecto de valores extremos (como lo es la mediana) y es sensible a cambios en la mitad de su rango (al igual que la media). Puede ser útil para explorar distribuciones de datos, pero es muy poco intuitiva. 

OTRAS MEDIAS. 

La media común discutida antes (técnicamente llamada media aritmética) es el promedio más comúnmente usado, pero algunos otros promedios que se usan para evitar el efecto de valores extremos o para manipular tipos particulares de datos a nivel razón.

 Medias equilibradas. 

Existen dos formas para controlar los efectos de la sensibilidad de la media a valores extremos: desecharlos o (***winsorize***) antes de calcular dicha media. Desechar los valores extremos significa excluirlos definitivamente del análisis, como se hace en las competencias de clavado olímpico cuando las calificaciones más alta y más baja dadas por los jueces a un clavado son desechadas antes de calcular la evaluación media. A diferencia, ***winsorizing*** los datos implica cambiar los valores más extremos por los siguientes menos extremos. Como ejemplos: la media equilibrada 5%, desecha el 5% inferior y el 5% superior de las observaciones antes de su cálculo; mientras la media ***winsorized*** con 20 observaciones cambia el valor

32 de 62

Page 33: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

más alto (el 5% más alto) al segundo valor más alto y el más valor bajo (el 5% más bajo) al segundo valor más bajo. Estas son soluciones ad hoc que frecuentemente son efectivas para mejorar la resistencia de la media. Expresar matemáticamente estos estadísticos requiere primero de ordenar los valores de la variable de menor (x1) a mayor (xN). Entonces, la j/N-ésima media equilibrada, T(j), es:

2j-N

x=T(j/N)

i

j-N

1+j=i

 y la j/N-ésima media ***winsorized***, W(j), es:

N

+ jxx+jx=W(j/N)

j-Ni

j-N

1+j=i1+j

 Una media equilibrada que se ha propuesto como un estadístico alternativo a la media aritmética es la media central, que es el promedio de la mitad central de las observaciones. Si las observaciones se han acomodado en orden numérico, la fórmula para la media central es:

xN2=MC i

43N

4N=i

 Este estadístico es mucho más resistente a valores extremos que la media, aunque algunos estadistas consideran que ignora demasiados casos extremos. Rosenberger y Gasko examinaron las propiedades de una serie de medidas equilibradas y encontraron que la media central tiene las propiedades más deseables.

 

La media geométrica. 

Algunas veces se usan medias especiales para datos medidos a nivel razón. La media geométrica es usada para resumir una variable cuando su cambio relativo es el que se mide. En tanto la media aritmética suma los diferentes valores de la variable antes de dividir entre el número de casos, la media geométrica multiplica a todos los valores en conjunto y entonces extrae la raíz correspondiente al número de casos. La fórmula para la media geométrica es:

}x{=MG N1

i

N

=1i

donde la letra mayúscula pi representa la multiplicación de todos los valores de x i entre sí. Por ejemplo, considérense los números 2 y 8, su media aritmética es 5, en tanto su media geométrica es 4, obtenida mediante la multiplicación de los dos números (8x2=16) y la extracción de la raíz cuadrada de ese producto. Si tres números fueran multiplicados entre sí, la raíz cúbica de su producto debería extraerse para obtener la media geométrica, y así sucesivamente. 

La media geométrica es útil cuando los valores de una variable se incrementan exponencialmente con el tiempo; esto es frecuentemente el caso para cuentas de dinero. Digamos que el presupuesto de una agencia pública se dobla en un año y se incrementa ocho veces al siguiente año (ver tabla 3.7). Dentro de dos años su

33 de 62

Page 34: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

presupuesto debería incrementarse por un factor de 16 como se muestra en la sección a; pero, ¿cuál es el promedio anual de la tasa de crecimiento para la agencia?. La media aritmética daría una respuesta equivocada. La media aritmética de 2 y 8 es 5, pero el presupuesto de la agencia se ha incrementado por un múltiplo de 5 dos años seguidos, su presupuesto se habría incrementado por un factor de 25 (sección b) y no el factor observado de 16. La media geométrica de 2 y 8 es 4, y aún así la agencia experimentó el mismo crecimiento como si su presupuesto se hubiera cuadruplicado en ambos años (sección c). La media geométrica captura adecuadamente la tasa de crecimiento promedio sobre los dos años, mientras que la media aritmética no mide ninguno de los aspectos del proceso del presupuesto. 

Una forma alternativa de calcular la media geométrica utiliza logaritmos. Recuérdese que el logaritmo de un producto es la suma de los logaritmos de los factores, y que el logaritmo de la raíz N-ésima de x es 1/N por el logaritmo de x. Por consiguiente la media geométrica puede calcularse obteniendo los logaritmos de todos los valores, promediándolos después y determinado el antilogaritmo del resultado. Esto es:

                     log(MG) = promedio [log (xi)]

por lo que:

                   MG = antilog {promedio [log (xi)]}

 donde promedio significa la media aritmética.

 La versión logarítmica de la ecuación implica que la media geométrica le da más peso a los valores cuanto más cercano estén a 1. Los valores mucho mayores que 1 (y fracciones muy pequeñas) tienen menos efecto sobre la media geométrica que los cercanos a 1, esta la razón por el que una media geométrica de 4 está más cerca del valor 2 que del 8 en el ejemplo anterior.

Tabla 3.7.  Medias para tasas de crecimiento.--------------------------------------------------------------------------------------------------------------

Sección A. Crecimiento del presupuesto de la agencia Año                                       Presupuesto                         Tasa de crecimiento--------------------------------------------------------------------------------------------------------------2000                                      $100,000                   2001                                      $200,000                                                       22002                                  $1,600,000                                                       8 Media aritmética                                                                             5=(2+8)/2

Media geométrica                                                                          4= (2x8)-------------------------------------------------------------------------------------------------------------

Sección B. Efectos del 5% anual en la tasa de crecimiento Año                                       Presupuesto                         Tasa de crecimiento-------------------------------------------------------------------------------------------------------------2000                                      $100,000                   2001                                      $500,000                                                      52002                                  $2,500,000                                                      5--------------------------------------------------------------------------------------------------------------

Sección C. Efectos del 4% anual en la tasa de crecimiento Año                                       Presupuesto                         Tasa de crecimiento--------------------------------------------------------------------------------------------------------------2000                                      $100,000                   2001                                      $400,000                                                      42002                                  $1,600,000                                                      4--------------------------------------------------------------------------------------------------------------

34 de 62

Page 35: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Media armónica.

Otro promedio para datos numéricos es la media armónica, que es usada cuando se promedian tasas. Mientras la media aritmética toma el promedio de los valores de una variable, la media armónica está basada en los recíprocos de los valores; es el recíproco de la media de los recíprocos:

x1

N=

x1

N1

1=MH

ii

N

=1i

             La media armónica se usa principalmente para promediar diferentes tasas. Digamos que en el año 2000, a la ciudad de Chicago le toma 3 meses para alcanzar 150 asesinatos, una tasa de 50 asesinatos por mes; en el mismo año, a Detroit le lleva 5 meses para llegar a los mismos 150 asesinatos, una tasa de 30 por mes. ¿Cuál es la tasa promedio combinada de las dos ciudades?. Podría parecer que 40 asesinatos por mes es la respuesta, pero no es el caso. En total, las dos ciudades experimentan 300 asesinatos en 8 meses, lo que da una tasa promedio de 37.5 asesinatos por mes (ver tabla 3.8). ¿Cómo puede ser este el caso?. A Detroit le toma un tiempo mayor en llegar a 150 asesinatos a una tasa menor y un mayor tiempo a menor tasa empuja hacia abajo la tasa promedio. Para calcular esto como una media armónica: 

5.37

501

301

21

1

21

11

21

1

tasatasa

             La fórmula de la media armónica también puede representarse a través de los recíprocos de cada uno de los valores para calcular a continuación el promedio de estos recíprocos y al final tomar el recíproco del resultado. Esto es:

             Recíproco de MH = Promedio de los recíprocos de xi

por lo tanto:

            MH = Recíproco del promedio de los recíprocos de xi

TABLA 3.8 Tasas de asesinatos en dos ciudades.

 

CIUDAD                    ASESINATOS                      TIEMPO (meses)     TASA (por mes)

Chicago                       150                                                  3                                 50

Detroit                         150                                                  5                                 30

   Total                          300                                                  8

 

Media aritmética:                                                       40 = (50+30) /2                

Media armónica:                                                     37.5 = 2/[(1/50) + (1/30)]    

35 de 62

Page 36: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            La media armónica da el mayor peso a los valores más pequeños, porque el recíproco de un número pequeño es mayor que el recíproco de un número grande; este efecto es evidente en el ejemplo anterior donde la media armónica está más cercana a la tasa menor (30) que a la tasa mayor (50).           

            Un resultado básico es que la media geométrica está siempre entre los valores de la media armónica y de la media aritmética:

 MH ≤MG ≤ x

   

Media generalizada. 

Las fórmulas alternativas dadas anteriormente para la media geométrica y la media armónica sugieren una formulación más general de la media. Sea T una transformación (tal como calcular el logaritmo, el recíproco o el cuadrado) y M una media generalizada, entonces: 

T (M) = Promedio de T (xi)

 Definamos T1 como la inversa de la transformación T (la transformación que deshace la transformación original), por lo que:

 T1 [T (x)] = x

 Como un ejemplo : la raíz cuadrada es la operación inversa de elevar al cuadrado. La media generalizada M se puede expresar como: 

M = T1 {Promedio [T(xi)]}

 La media geométrica es un caso especial de esta formulación, donde T es la transformación logarítmica y la inversa T1 del logaritmo es la transformación antilogaritmo (también llamada exponenciación). La media armónica es otro caso especial, donde T es el recíproco  y T1 es el recíproco del recíproco, dado que 1/(1/x) = x. La media aritmética también se ajusta a esta formulación, donde T es la transformación identidad, es decir:

T (x), y T1 es también una tranformación identidad.

 La formulación de la media generalizada sugiere que las medias aritmética, geométrica y armónica son solamente tres de un conjunto más grande posible de medias. Como un ejemplo final de esta formulación general, consideremos la media cuadrática (MC), conocida también como raíz media cuadrada. Sea la transformación T el elevar al cuadrado un valor, por lo que la inversa T1 de tal transformación será el extraer la raíz cuadrada; entonces:

 El cuadrado de (MC) = Promedio del cuadrado de (Xi), por lo tanto:

  2PrPr ii xomedioxcuadradoomedioMC

             La media cuadrática da más peso a los valores con mayor magnitud, ya sean positivos o negativos. Ésta se usará en la discusión de las medidas de dispersión para variables métricas en el Capítulo 4.

             La media geométrica, la media armónica y la media cuadrática no pueden ser transformadas mediante una transformación lineal, como sucede con la media, la mediana y la moda. En realidad, estas tres medias generalizadas son transformadas adecuadamente por un multiplicador [Centro (mx i) = (m)centro(xi)], pero no por

36 de 62

Page 37: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

una constante sumada a cada valor [ Centro (k+x i) ≠ k+centro (xi) ]. Esto muestra que estas medias son apropiadas para datos a nivel razón y no para datos a nivel de intervalo.

              Resumen.

             Una serie de diferentes medidas de centro pueden ser usadas con datos numéricos. La más común es la media aritmética, con la mediana para cuando existe algún dato extremo o cuando la variable tiene abierto alguno de sus extremos. Los promedios especiales son apropiados para trabajar con crecimientos relativos y con tasas. Las medidas basadas en el Análisis Exploratorio de Datos también son útiles al tratar con datos extremos.

 

37 de 62

Page 38: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

IV. MEDIDAS DE DISPERSIÓN            La tendencia es sólo una propiedad de interés al resumir la distribución de una variable. No sólo queremos encontrar el valor típico de una variable, sino también queremos conocer qué tan típico es ese valor. Esto implica movernos a considerar la dispersión de la variable. 

            Las medidas de dispersión más importantes han sido desarrolladas para datos numéricos—los estadísticos estrechamente relacionados: varianza y desviación estándar. Se han desarrollado otras medidas para la dispersión  con niveles más bajos de medición, usando la adaptación del concepto de variación. 

            Las medidas de dispersión aumentan de valor con una mayor variación en la variable. Todas son iguales a cero cuando no hay dispersión. La máxima variación para variables métricas y ordinales se define cuando los casos están igualmente separados en dos categorías extremas—polarización. La máxima dispersión para variables nominales se define de dos maneras: cuando hay una distribución uniforme de casos entre las categorías, independientemente del número de ellas (uniformidad) o, cuando cada categoría ocurre solamente una vez (individualidad). En este capítulo se darán ejemplos de estas definiciones. 

            Otra complejidad al tratar con medidas de dispersión es su calidad abstracta. No es intuitivamente claro, por ejemplo, qué significado dar a una dispersión de 10. Como resultado, es común normar los valores de dispersión. Un procedimiento para normar es dividir el valor de dispersión obtenido entre el máximo valor de dispersión posible para el estadístico, de tal suerte que un valor de 1 representa la máxima dispersión. Otro procedimiento para normar, usado en el coeficiente de variación y otros estadísticos, es dividir la dispersión entre el correspondiente valor de tendencia central; esto en ocasiones es descrito como la obtención de una medida absoluta de dispersión, porque las unidades de medición de la variable son removidas. Los procedimientos para normar se usarán varias veces un poco más adelante. 

DESVIACIÓN ESTÁNDAR Y OTRAS MEDIDAS DE DISPERSIÓN BASADAS EN DESVIACIONES.

             La mayoría de las medidas de dispersión para datos métricos están basadas en desviaciones respecto al valor de la medida aritmética. Los datos métricos tienen una unidad de medición, por lo que una desviación muestra el número de unidades en que una observación difiere del valor de la media:

    

xxd 11

             Por ejemplo, si el número medio de condenas anteriores de un conjunto de acusados criminales es 4, entonces la desviación de un acusado con 20 condenas previas es 16 (=20-4) y la desviación para un acusado sin condenas previas es –4 (=0-4) . Una serie de medidas de dispersión han sido ideadas para resumir el tamaño de estas desviaciones a través de promediarlas (promediar las desviaciones absolutas o las desviaciones al cuadrado). Cada una de estas posibilidades serán descritas a continuación. Las medidas de dispersión para datos métricos más importantes son los estadísticos estrechamente relacionados: varianza y desviación estándar, pero es útil discutir la desviación media primero.   

             La desviación media y sus variantes.

             Una medida simple de dispersión parecería ser la desviación promedio respecto a la media:

n

d

n

xxn

i

n

i

11

11

         Recuérdese, sin embargo, de la discusión de las propiedades de la media en el capítulo 3, que la suma de las desviaciones respecto a la media es siempre igual a cero; como resultado, el promedio de las desviaciones respecto a la media sería igual a cero para cualquier variable. Por ejemplo, la tabla 4.1 muestra el número de condenas previas de 10 prisioneros: si 8 acusados tuvieron 0 condenas previas y 2 tuvieron 20 condenas, la media para el número de condenas previas es 4. La suma de las desviaciones es 8 (-4)+2 (16) = -32+32=0, por

38 de 62

Page 39: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

lo que el promedio de las desviaciones respecto a la media es cero (ver Tabla 4.1, columna 3). Debido a que siempre es cero por definición, el promedio de las desviaciones respecto a la media no puede indicar cuál distribución de valores tiene mayor dispersión.

             Las desviaciones respecto a la media podrían producir una medida de dispersión más útil si promediáramos los valores absolutos de las desviaciones. A esto se le conoce como desviación media y su fórmula es:  

  n

d

n

xxDM

n

i

n

ii

11

1

La desviación media tiene un mínimo de R/n y un máximo de R/2, donde R es el rango de los datos, es decir, el valor mayor menos el menor. 

            En el ejemplo de crímenes (Tabla 4.1), si 8 acusados no tienen condenas previas y los otros dos tienen 20 cada uno, la suma de las desviaciones absolutas es 64 (4 por cada uno de los 8 acusados, más 16 por cada uno de los otros 2), y la desviación media es entonces igual a 6.4. Este valor captura bien la noción de medida de dispersión típica. 

Tabla 4.1. Medidas de dispersión basadas en desviaciones.

 

Acusado        N°. Condenas           Desviación     Desviación    Desviación    Valor

                             Previas                                            absoluta         cuadrada  cuadrado

 

A                                 0                     -4                                4                     16         0                              

B                                 0                     -4                                4                     16         0

C                                0                     -4                                4                     16         0

D                                0                     -4                                4                     16         0

E                                 0                     -4                                4                     16         0

F                                 0                     -4                                4                     16         0

G                                0                     -4                                4                     16         0                      

H                                 0                     -4                                4                     16         0

I                               20                        16                               16                256           400                         

J                              20                    16                                   16                 256         400

Sumas:                  40                      0                                     64                 640         800

Media:                     4                      0                                     6.4                 64=varianza

                                                                                                                    8=desv.est

Desviación media =64/10=6.4

Varianza =[800-(40²/10)]/10 = [800-160]/10 =64

Desviación estándar =

Coeficiente de variación = 8/4=2

Diferencia media de Gini =320/45 = 7.11

 

Mediana = 0

Desviación media absoluta = 40/10 = 4

39 de 62

Page 40: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

La desviación es una medida de dispersión plausible, muestra qué tan lejos están los datos, en promedio, respecto al valor de la media, cuando se ignoran los

signos de las desviaciones; sin embargo, ésta no es usada con frecuencia. Por un lado, el tratar con valores absolutos no permite llegar a generalizaciones útiles cuando uno se mueva hacia los estadísticos para más de una variable; por el otro, la desviación media respecto a la media aritmética no tiene ninguna de las propiedades estadísticas especiales de unicidad (recuérdese del capítulo 3, que el promedio de las desviaciones absolutas es realmente mínimo cuando las desviaciones son tomadas respecto de la mediana, y no respecto de la media aritmética). La desviación media sería un estadístico intuitivamente atractivo, pero carece de propiedades matemáticas llamativas. 

 La varianza y la desviación estándar de una población.

             Una mejor manera de trabajar con desviaciones respecto a la media es elevarlas al cuadrado. En tanto el tomar valores absolutos lleva a molestas manipulaciones algebraicas cuando generalizamos más allá de una variable, el elevar al cuadrado lleva a propiedades estadísticas útiles. Como resultado, la manera usual de medir la dispersión para variables métricas involucra cuadrar las desviaciones respecto  a la media y promediar estas desviaciones cuadradas. A esto se le llama la varianza de una variable. ( En realidad, esta definición es para el parámetro varianza de la población completa; estimar el estadístico varianza  con base a una muestra más pequeña de la población, requiere modificar ligeramente esta formulación, tal y como se mostrará en la siguiente sección). 

            La varianza poblacional es el promedio de las desviaciones cuadradas respecto de la media:

 

N

d

N

xN

i

N

i

11

2

11

2

 donde la letra griega σ² (sigma cuadrada) se usa para representar la varianza poblacional, en tanto la letra griega μ (mu) es usada para representar a la media poblacional.

             El estadístico varianza es inusual en un sentido importante: la operación de elevar al cuadrado implica que la varianza no está en las unidades originales de medición. Por ejemplo, si quisiéramos medir el producto interno bruto de los países en dólares, la varianza estaría en dólares al cuadrado. Podemos regresar a las unidades originales de medición extrayendo la raíz cuadrada a la varianza; el estadístico resultante, llamado desviación estándar, es una medida de dispersión muy común. La fórmula para la desviación estándar poblacional es: 

N

d

N

xN

i

N

i

11

1

21

            Como un ejemplo, consideremos las condenas previas de criminales acusados mostrados en la Tabla 4.1. El número medio de condenas es 4: los primeros 8 acusados tienen 4 condenas menos que la media, lo que lleva a desviaciones cuadradas de 16; los últimos 2 acusados tienen 16 condenas más que la media, lo que lleva a desviaciones cuadradas de 256. La suma de desviaciones al cuadrado es (8’ 16) + (2’ 256) = 128+ 512 = 640; el promedio de las desviaciones cuadradas es entonces 640/10 = 64, que es la varianza (ver Tabla 4.1.) . Dado que la varianza está en unidades inusuales de condenas al cuadrado, extraemos la raíz cuadrada para obtener 8 condenas.

Aunque las fórmulas anteriores para la varianza y la desviación estándar en términos de desviaciones respecto a la media son fáciles de seguir conceptualmente, son difíciles de emplear cuando se hacen los cálculos a mano. Por ejemplo, resultaría tedioso calcular las desviaciones cuadradas respecto a una media de 2.634. Afortunadamente, hay fórmulas de cálculo para la varianza y la desviación estándar que son más  fáciles de emplear. Tres fórmulas de cálculo equivalentes para la varianza poblacional son:

40 de 62

Page 41: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

2

1

12

2

NN

Xx

N

i

N

ii

i

N

xNxN

ii

1

22

2  

xN

xN

ii

2

1

2

2

y las fórmulas de cálculo para la desviación estándar son las correspondientes raíces cuadradas de estas fórmulas.

Las fórmulas de cálculo involucran la suma de valores al cuadrado, que no es lo mismo que elevar al cuadrado la suma de los valores. Por ejemplo, tomemos los valores 1 y 2: su suma es 3, por lo que el cuadrado de la suma es 9; sin embargo, los cuadrados de los datos son 1 y 4, que suman 5, y ésta es la suma de datos al cuadrado usada antes del signo menos en las fórmulas de cálculo. Las calculadoras científicas pueden calcular sumas de x y de x² con menos operaciones que las requeridas al usar desviaciones respecto de la media.

Se puede mostrar fácilmente que la fórmula de cálculo es equivalente a la fórmula de definición. Primero elevemos al cuadrado las desviaciones:

222 2 xxxxxx iii

aplicando la sumatoria a ambos lados de la expresión:

222 2 xxxxxx iii

al aplicar las reglas de la sumatoria se obtiene:

222 2 xNxxxxx iii

2

22 2

Nx

NxNx

xxx ii

iii

Nx

Nxxxx ii

ii

2222 2

Nxxxx i

ii

222

 ahora solamente dividimos entre N para obtener la varianza:

41 de 62

Page 42: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

NNxx

Nxx

ii

i

222

2

         Regresando al ejemplo de los acusados criminales, donde 8 de ellos no tienen condenas previas y los otros 2 tienen 20 cada uno, el cálculo de la varianza supondría sumar el cuadrado de 0 ocho veces ( lo que da una suma parcial de 0 ) y sumar el cuadrado de 20 dos veces (2´ 400 = 800); a continuación sumar los valores originales (=40), elevar al cuadrado dicha suma ( 40² = 1600) y dividirla por el número de casos ( 10 ) para obtener 160. Finalmente, para obtener la varianza habría de restarse este último 160 de la suma de cuadrados ( 800 ) para obtener 640, que se dividiría entre el número de casos ( 10 ), llegando al resultado de 64. La desviación estándar es, por supuesto, la raíz cuadrada de la varianza, es decir, 8 condenas.

            La desviación estándar se incrementa debido a valores extremos; así, en el ejemplo anterior, la desviación estándar de 8 es mayor que la desviación media de 6.4, dado que el elevar al cuadrado las desviaciones incrementa el impacto de valores grandes debidos a datos extremos. Esta falta de resistencia a valores extremos puede parecer un problema de la desviación estándar, pero la ventaja de trabajar con cuadrados en lugar de valores absolutos lo compensa, por lo que la desviación estándar es la medida usual de dispersión.

            Como otro ejemplo, la Tabla 4.2 muestra precios hipotéticos de casas vendidas en tres  ciudades durante la semana pasada, junto con las medias y las varianzas para cada ciudad. Estas ciudades tienen la misma media en el precio, pero las varianzas son distintas. Los precios de las casas en la ciudad A muestran una dispersión muy pequeña, en la ciudad B hay mayor dispersión y en la ciudad C se da una distribución de precios desde las casas muy baratas hasta las muy caras. Este ejemplo muestra también porqué es útil resumir una distribución usando su dispersión y su tendencia central: estas tres ciudades tienen centros idénticos, pero sus diferentes dispersiones llaman la atención hacia las distintas distribuciones de los precios.

            

Tabla 4.2. Precios de casas en tres ciudades ( en dólares )

                                   Ciudad A         Ciudad B        Ciudad C

                                     96,000            45,000            45,000

                                   101,000            83,000            47,000

                                   105,000         100,000            43,000

                                     99,000         117,000          155,000

                                   101,000         150,000          154,000

                                     98,000         105,000          156,000

Media                        100,000         100,000          100,000

Varianza                 8´000,000   1,021´333,333   3,026´666,667

Desv. Estándar              2,828.43           31,958.31          55,015.15

Coef. De variación               0.03                      0.32                   0.55

             Puede darse otra serie de interpretaciones de la varianza y de la desviación estándar. Primero, la desviación estándar frecuentemente es interpretada como una raíz de la media de las desviaciones cuadradas. Recuérdese la discusión de la media cuadrática en el capítulo previo –es la raíz cuadrada del

42 de 62

Page 43: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

promedio de los valores al cuadrado. La desviación estándar es similar, excepto que eleva al cuadrado las desviaciones respecto a la media, en lugar de los datos crudos. La desviación estándar es la raíz cuadrada del promedio de las desviaciones al cuadrado, por lo que es una media cuadrática de las desviaciones, también conocida como la raíz de la media de las desviaciones cuadradas.

            Una segunda interpretación de la varianza y de la desviación estándar está basada en lo que se denomina una lógica de mínimos cuadrados ( Blalock, 1972: 59 ). Una propiedad de la media mencionada en el capítulo 3 fue que la suma de las desviaciones al cuadrado respecto a la media es mínima, esto lo podemos replantear como una propiedad de la varianza: la varianza calculada respecto a la media es la más pequeña en relación con el promedio de desviaciones respecto de cualquier otro valor. Esta minimización es una propiedad especial de la varianza. Recuérdese que la desviación promedio respecto a la media es mínima; los únicos estadísticos de dispersión calculados respecto a la media, que son mínimos, son la varianza y la desviación estándar. La tercera interpretación de la varianza y la desviación estándar involucra otra posible medida de dispersión –el promedio de las diferencias al cuadrado entre todos los pares de observaciones:

N

ji

Cxx

2

2

donde el coeficiente binomial del denominador se reduce a N ( N-1 )/2. Se puede mostrar que el promedio de las diferencias al cuadrado es igual a 2σ²N / ( N-1 ); por lo tanto, la varianza es proporcional al promedio de las diferencias al cuadrado entre todos los pares de observaciones. Cuanto más sean diferentes los valores en los pares de casos, mayor será la varianza y la desviación estándar del conjunto de datos. En efecto, si tomamos el promedio de las diferencias cuadradas entre todos los pares de observaciones, incluyendo la observación consigo misma, tendremos Σ( xi-xj )² = 2σ². Así, la desviación estándar es proporcional a la raíz de la media del cuadrado de todos los pares posibles de diferencias:

N

xxN

ji2

21

            Esto lleva a la pregunta de cuándo la varianza y la desviación estándar son máximas; de acuerdo al resultado que se acaba de obtener, son máximas cuando el promedio de las diferencias cuadradas entre todos los pares de observaciones es máximo, lo que sucede cuando los datos están polarizados, con la mitad de las observaciones en el valor máximo y la otra mitad en el mínimo, dado que es entonces cuando las desviaciones cuadradas respecto a la media son máximas. Digamos que hay un número par (N) de observaciones, exactamente igual a N/2 de estas observaciones equivalen al Xmáx y el otro N/2 corresponden al Xmín. Las

desviaciones (Xmáx- x ) = d = mínxx , por lo tanto, la suma de las desviaciones cuadradas respecto a la media es Nd². La varianza poblacional es d² y la desviación estándar es d. Por ejemplo, una variable cuyos valores estuvieran entre 0 y 100 tendría su varianza máxima si la media fuera 50, la mitad de los casos valieran 0 y la otra mitad 100; su varianza seria 2500 y su desviación estándar 50. Más generalmente, si R representa el rango de la variable (R=xmáx-xmín), entonces la varianza máxima es (R/2)² y la desviación estándar máxima es R/2.

Una propiedad más de la varianza deberá mencionarse aquí: Las varianzas son aditivas bajo una circunstancia especial: si dos variables son estrictamente independientes una de la otra, entonces la varianza de su suma es igual a la suma de sus varianzas. Si, por ejemplo una varianza es llamada A y la otra B y si éstas son independientes entre sí, entonces la varianza de su suma es:

222BABA

Esta regla es importante porque algunas veces permite la descomposición de la varianza de una variable “X” en partes separadas que se deben a elementos independientes, como se discutirá más adelante. Nótese, de paso, que esta regla para las varianzas no es aplicable a las desviaciones estándar:

BABABA 222

43 de 62

Page 44: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            La desviación estándar satisface la mayoría de las reglas de Yule y Kendall para un buen estadístico, listadas en el capítulo 1: es rígidamente definida, basada en todas las observaciones, algebraica y mínimamente afectada por fluctuaciones de muestreo. Sin embargo, es tedioso calcularla, no resistente a valores extremos y, más importante aún, no es fácilmente comprendida. La desviación estándar que es tan abstracta, que sus valores son más difíciles de interpretar. No obstante, la desviación estándar es la medida de dispersión más importante para variables métricas. La utilidad de la desviación estándar se volverá más clara muy pronto.           

            La varianza y la desviación estándar de una muestra.

            Técnicamente, la varianza y la desviación estándar han sido definidas, hasta aquí, para poblaciones completas y no para muestras de casos. Sin embargo, la varianza y la desviación estándar así definidas carecen de algunas propiedades óptimas cuando se trabaja con muestras. Este problema será discutido en el capítulo 5 más directamente, aquí es suficiente decir que se requiere una pequeña modificación a la fórmula de definición para ser aplicable a las muestras. En lugar de dividir la suma de desviaciones al cuadrado entre el número de casos, esta suma deberá dividirse entre el número de casos menos 1. Las fórmulas para las versiones muestrales de la varianza (denotada como s²) y de la desviación estándar (denotada como s) son:

11

1

2

1

2

n

d

n

xxS

n

ii

n

ii

11

1

2

1

2

n

d

n

xxS

n

ii

n

ii

             Nótese que esta ligera modificación tendrá un impacto despreciable cuando el número de casos sea grande, después de todo, el resultado es casi el mismo cuando un numerador es dividido entre un número grande o entre ese número menos 1. La modificación puede tener un impacto más sustancial cuando el número de casos es pequeño, digamos menos de 100, y particularmente si es menor de 60.

            Las fórmulas de cálculo para la varianza de una muestra son:                                              

11

222

2

n

nx

x

nxx

S

ii

i

Las fórmulas de cálculo para la desviación estándar son sólo las raíces cuadradas de estas fórmulas. Una vez más, la suma de valores al cuadrado en la fórmula no es lo mismo que elevar al cuadrado la suma de valores.

            Una complicación adicional ocurre cuando se muestrea una población finita; las fórmulas dadas hasta ahora asumen el muestreo de una población finita. Sin embargo, el tamaño de la población debe tomarse en cuenta cuando se muestrea, sin reemplazo, una población finita. Si el tamaño de una muestra se denota como n y el de la población como T, entonces la varianza es:

T

Tn

xxS i 1

1

22

o lo que es lo mismo: 

Tn

xxS i 11

1

22

44 de 62

Page 45: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            El factor de corrección 1-(1/T) está cercano a 1, excepto para poblaciones pequeñas, por lo que el ajuste tiene poco impacto a menos que el tamaño de la población sea menor que 100.

 

 La varianza y la desviación estándar para datos métricos agrupados.

            Otras versiones de las fórmulas de la varianza y de la desviación estándar se pueden usar cuando los datos están agrupados: Cuando se trabaja con una distribución de frecuencias en la cual cada valor de la variable x se enlista junto con su frecuencia correspondiente “f”, la varianza poblacional puede calcularse como:

N

df

N

xfN

iiii

N

ii

1

22

12

o las fórmulas de cálculo:                                                             

NN

xfxf

i

N

ii

i

N

ii

2

12

12

N

xNxf i

N

ii

22

12

21

2

2 xN

xfN

iii

 

 Las fórmulas apropiadas para la varianza muestral son:

11

1

22

1

n

df

n

XxfS

n

iiii

n

ii

o las fórmulas de cálculo:

11

222

2

n

nxfxf

nxxf

Sii

iiii

            La desviación estándar es la raíz cuadrada de estas fórmulas de varianza.

            Cuando se trabaja con una variable continua que ha sido agrupada en clases, las fórmulas anteriores se pueden emplear con la marca de clase como representante de cada intervalo y f, como la frecuencia de la clase. Así, si las fronteras del intervalo son 2 y 3, la marca de clase 2.5 deberá usarse para representar al intervalo.

45 de 62

Page 46: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            Algunas veces es necesario reunir varianzas provenientes de diferentes muestras. Por ejemplo, considérese la combinación de varianzas de muestras separadas de tres años diferentes (digamos con distinto número de casos de cada muestra) en una varianza común. Si hay J muestras y representamos la varianza de

la muestra j como s j ², y su correspondiente número de casos como n j , entonces la fórmula de la varianza conjunta es:

Jnsn

sj

jj

2

2 1

                                                                                 

Estos cálculos se ilustran en la tabla 3.4. Si todas las muestras tienen el mismo tamaño, digamos n, la fórmula se reduce al promedio de las varianzas muestrales:

Js

JnJsn

S jj

22

2 1

           

  La varianza y la desviación estándar para datos dicotómicos.

            Las fórmulas de la varianza y la desviación estándar pueden simplificarse más para datos dicotómicos. La varianza de una variable dicotómica es:

2       =p (1-p),

donde p es la proporción de éxitos. Para ver esto, digamos que una variable binaria se codifica como 1/0, con p como la proporción de casos codificados con 1, por lo que 1-p es la proporción de casos codificados con 0. De acuerdo a la versión de cálculo de la fórmula de la varianza sería:

222

21

2

2 011p

NpNNp

N

xfN

iii

pppppN

Np

10 222

La desviación estándar, por supuesto, es la raíz cuadrada de la varianza. Nótese que la varianza es máxima cuando la proporción p está cercana a ½; así, la varianza máxima es 0.25 cuando p=0.5, y disminuye a 0.16 cuando p=0.2, o 0.8, y a 0.09 cuando p=0.1 o 0.9.

            El género es un ejemplo típico de una variable dicotómica, dado que toma sólo dos posibles valores: hombre o mujer; digamos que se anota 0 para los hombres y 1 para las mujeres, si el 53% de la población fueran mujeres, entonces la varianza para el género sería 0.53´0.47=0.249.  

            Coeficiente de variación.

            Los valores de la desviación estándar resultan difíciles de interpretar directamente, dado que su monto depende de la unidad con la cual se haya

medido la variable. Por ejemplo, una desviación de 100, ¿es grande o pequea?; sería grande si estuviésemos analizando el peso de las personas, pero sería pequeña si el análisis fuese de ingresos anuales.

46 de 62

Page 47: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            El coeficiente de variación o coeficiente de variación relativa es un estadístico que se usa para dar un mejor sentido de qué tan grande es una desviación estándar. Diide la desviación estándar entre la media de la variable, como se muestra en la siguiente fórmula: 

xCV

            Por ejemplo, si un grupo de gente tiene un peso promedio de 150 libras con una desviación estándar de 100, el coeficiente de variación del peso sería 0.667. Si el ingreso anual promedio fuera de $ 20,000 y la desviación estándar de 100, el coeficiente de variación del ingreso sería 0.005. Estos coeficientes de variación se pueden comparar en forma legítima para encontrar que los pesos son más variables que los ingresos.

            Una interpretación alterna del coeficiente de variación está en términos de la variación relativa. Definamos la desviación relativa para la observación i como (xi-_) /_, después, elevemos al cuadrado el coeficiente de variación (s/_). Cuadrar la desviación estándar de una variable dividida entre su media, da la varianza dividida entre la media al cuadrado. Esto puede simplificarse:

nxxn

xxxx i

i

2

2

22

la segunda parte es precisamente el promedio de las desviaciones relativas al cuadrado; así, el coeficiente de variación al cuadrado es igual al promedio de las desviaciones relativas al cuadrado. Esto es el porqué al coeficiente de variación se le conoce algunas veces como el coeficiente de variación relativa. 

             Diferencia media de Gini.

            Una última medida de dispersión para variables métricas está basada en las diferencias, más que en las desviaciones. La diferencia media de Gini, es la media de los valores absolutos de las diferencias entre todos los pares de valores:

                  n

ji

C

xxg

2

                             para todo i  j

 

 o también:

                  1

nn

xxg ji

                             para todo i  j   

            La diferencia media de Gini tiene atractivo intuitivamente hablando, muestra la diferencia típica entre un par de valores. Por ejemplo, en la tabla 4.1, la diferencia media es 7.11, mostrando que la diferencia típica en primeras condenas entre pares de acusados fue de 7.11, un valor que está cercano a la desviación estándar de 8, pero que es más fácilmente interpretable. Sin embargo, no generalizable de forma útil a más de una variable, por lo que la diferencia media no se usa de manera frecuente en el análisis estadístico.

             Resumen.

            La varianza y la desviación estándar son las medidas de dispersión más importantes para variables métricas. La desviación media y la diferencia media de Gini son conceptualmente más simples, pero la varianza y la desviación estándar son los estadísticos que se generalizan más allá del caso de una variable y que tienen propiedades matemáticas importantes.

47 de 62

Page 48: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I             USOS DE LA VARIANZA.

            Hasta ahora se ha afirmado que la desviación estándar y la varianza son estadísticos importantes sin mostrar el porqué. Algunos de sus usos serán descritos en esta sección, otros se explicarán en el siguiente capítulo. Esta discusión es breve e introductoria y está diseñada principalmente para enfatizar la multitud de usos del concepto de varianza en análisis de datos y diseños de investigación.

 

            Considerando valores inusuales.

            Uno de los usos de la variación de una variable es evaluar qué tan inusual es un valor de la variable. La medida empleada para esto es llamada puntuación estándar o puntuación z. Si la variable es x, su i-ésima observación es xi, su

 media esμ y su desviación estándar es σ, entonces la puntuación Z correspondiente a x i es:

ii

xZ

Como una ilustración, la puntuación estándar para la gente con 20 condenas previas, en el ejemplo de crímenes antes usado, es 2.0, si la media es 4 y la desviación estándar es 8. Ellos tienen una puntuación de 2 unidades de desviación estándar por arriba de la media.

            Las puntuaciones Z de una variable se denominan estandarizadas porque siempre tienen una media de 0 y una varianza de 1. Primero consideremos su media:

  =

011

11

x

nnx

n

dado que la suma de desviaciones respecto a la media siempre es 0. Ahora consideremos su varianza:

2

021

2 1

n

x

z

11 2

2

21

nx

Dado que las variables estandarizadas tienen una varianza de 1, tienen también una desviación estándar de 1.

Frecuentemente se estandariza en el análisis estadístico para remover algunas fuentes de diferencias entre las variables. Un ejemplo típico involucraría la construcción de un índice aditivo de variables separadas. Usualmente, los índices aditivos se crean precisamente para sumar puntuaciones crudas de las variables. Sin embargo, eso sería inapropiado si las variables tienen magnitudes o varianzas muy diferentes (como cuando se construye una medida del estatus de la gente con base en los valores de sus casas y de sus asadores) y particularmente si son medidas en diferentes unidades (como cuando se construye una medida del estatus con base en el ingreso en dólares y en la educación en años). En tales casos, las variables deberán estandarizarse primero para después crear un índice mediante la suma de puntuaciones estandarizadas. 

Lo que hace particularmente útiles a las puntuaciones estandarizadas es que las leyes de la estadística y la probabilidad proporcionan información sobre qué es una puntuación estándar inusual. De acuerdo con la desigualdad de Chebychev; independientemente de la forma de la distribución de x, no más de la proporción (1/k)2 de los casos tendrán puntuaciones estándar más grandes que k. Esto es:

48 de 62

Page 49: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

2

1Prk

kxx

ob i

Por ejemplo, la probabilidad de que el valor absoluto de una puntuación Z sea mayor o igual a 2, no es más grande que ¼.

            Si la variable tiene una distribución simétrica, entonces la probabilidad de una puntuación Z cuyo valor absoluto es mayor o igual que K, no es mayor que (4/9) (1/k)2. Esto es:

2

194Prk

kxx

ob i

Así, si la variable tiene una distribución simétrica, la probabilidad de que la magnitud de una puntuación Z sea mayor que 2, es a lo más de 1/9.

Media, Desv. Est.0,1

Figura 4.1: Distribución Normal

Z

y

-5 -3 -1 1 3 50

0.1

0.2

0.3

0.4

             Si la variable tiene la distribución acampanada llamada curva normal (Figura 4.1), entonces su distribución concuerda con resultados ya tabulados. Por ejemplo, la probabilidad de que una puntuación Z sea mayor o igual 1.96 (o menor o igual que –1.96) es 0.05, contra el ¼ para valores más allá de 2 en la desigualdad más general de Chevychev o el 1/9 para una distribución simétrica general. La tabla que muestra la probabilidad de valores particulares bajo la curva normal se incluye en la mayoría de los textos de estadística. 

            Evaluando la covariación entre variables.

            Otro uso estadístico de la varianza involucra la comparación de varianzas en dos variables para ver el monto con que éstas covarían. Esto se mide usualmente por medio de un coeficiente de correlación. Para el caso de variables métricas, éste se denomina el “r” de Pearson y es el promedio de los productos de los valores estandarizados de las variables “x” y “y”.

n

ZZr

n

iyixi

1

Los valores de este estadístico van desde 0, cuando no hay covarianza, hasta 1 (o-1), cuando hay covarianza máxima.

            Las correlaciones son examinadas cuando se evalúa una causalidad, sin embargo, por sí solas no prueban que una variable cause a la otra. De cualquier manera, no encontrar correlación entre dos variables sugiere una falta de conexión causal entre ellas. Al estudiar la causalidad, se hace una distinción entre la variable dependiente, que es la causada, y la variable independiente, que puede estar produciendo las diferencias observadas en la variable dependiente. El cuadrado del coeficiente de correlación de Pearson (r2)

49 de 62

Page 50: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

muestra la proporción de la varianza de la variable dependiente “y” que puede explicarse mediante una regla de predicción lineal basada en la variable independiente “x”. Por ejemplo, una correlación arriba de 0.7 muestra que más de la mitad de la varianza en la variable dependiente puede ser explicada por la variable independiente, Así, las correlaciones son interpretadas en términos de varianzas.

            El estadístico varianza es especialmente importante en análisis de muchas variables, dado que la varianza de la variable dependiente frecuentemente se puede descomponer en forma útiles. Recuérdese la regla de la sección previa en que las varianzas (pero no loas desviaciones estándar) son aditivas cuando se están sumando resultados independientes. Este resultado esa menudo utilizado en análisis multivariado, cuando se puede probar que los efectos particulares son independientes unos de otros. La interpretación de r2

en el párrafo anterior estaba basada en esta idea, al descomponer la varianza de la variable dependiente en varianza explicada, debida a la relación lineal con la variable predictiva, y el reto como varianza del error, que no puede ser explicada mediante la predicción lineal.

 

            La selección de variables.

            Es importante considerar a la variación en la etapa del diseño de la investigación. La lección más simple es que se requiere variabilidad en una variable, si ésta va a ser útil. Digamos que los determinantes del comportamiento criminal estuvieran bajo estudio: un investigador podría recabar las edades de los prisioneros y resumirlas para determinar la edad típica de los criminales. Sin embargo, sin datos similares para los no criminales, el estudio no podría usarse para checar si los criminales son más viejos o más jóvenes que el resto de la población. Estudiando sólo a los prisioneros no hay varianza en la variable dependiente. El examen de las variables que carecen de variación rara vez es útil.

            De manera similar, deberá haber variación en las variables independientes. Para examinar los efectos del género sobre el ingreso, por ejemplo, estudiar sólo mujeres no sería suficiente. La parte interesante es cómo difieren los hombres de las mujeres, dado que esto permitiría un examen de las causas de variación entre géneros. Crear un diseño de investigación sin varianza en alguna de las variables destruye la posibilidad de obtener conclusiones del estudio.           

            Fuentes de variabilidad.

            ¿Por qué hay diferencias en los puntajes de una variable?. Una clasificación de las fuentes de variabilidad en medición se enfoca a la distinción entre valores reales y valores observados. De acuerdo con esta clasificación, el valor observado de una variable está compuesto de su valor real más un término de error. Este término de error puede a su vez ser descompuesto en dos términos: un término de tendencia sistemática y un término de error aleatorio. Asumamos que los valores reales, las tendencias sistemáticas y el error aleatorio no están correlacionados, esto es que el único tipo de tendencia sistemática sería una constante sumada a la puntuación real. La varianza observada de una variable puede ser entonces descompuesta en su varianza real y su varianza de error (porque un término de tendencia constante carecería de varianza). El término de error aleatorio es dividido algunas veces en sus varias fuentes, tales como: error de medición, error de codificación y error de muestreo, y cada uno de estos errores pueden tener una varianza asociada a ellos. La medición es así asunto de minimización de fuentes particulares de varianza de error.

            En investigación experimental, la parte de la varianza asociada con las variables manipuladas se considera como varianza sistemática, que será maximizada. La parte asociada con otros factores es considerada como varianza  

extraña, que será controlada mediante la asignación aleatoria de los sujetos a diferentes grupos experimentales. La varianza restante debida a fluctuaciones aleatorias se considera como varianza de error, que será minimizada al controlar las condiciones experimentales o al incrementar la exactitud de las mediciones. Esta clasificación lleva a la sugerencia de Kerlinger, en su libro de texto de diseños de investigación, de que el investigador debe “maximizar la varianza sistemática, controlar la varianza extraña y minimizar la varianza de error”. Así, el diseño de investigación en sí mismo puede ser considerado como un ejercicio para el control de la varianza. A fin de cuentas, el concepto de varianza es de importancia crítica tanto en el diseño de investigaciones como en el análisis de datos.           

50 de 62

Page 51: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            MEDIDAS DE DISPERSIÓN BASADAS EN EL ORDEN.

            El concepto de dispersión también es aplicable a datos ordinales, aunque la dispersión rara vez es medida a un nivel ordinal puro de medición. Las medidas de dispersión para datos ordinales serán descritas en esta sección, junto con medidas que están basadas en el orden de los valores numéricos. Las principales medidas de dispersión discutidas en esta sección son el rango y, especialmente, el rango intercuartílico.

            Rango.

            La medida de dispersión más simple, basada en el orden, es el rango de los valores: la diferencia entre el mayor y el menor de los datos:

R = Xmáx – Xmín.

            El rango indica cuánto la variable varía en la práctica. Su mínimo valor es 0 cuando no hay dispersión en la variable. Como un ejemplo, digamos que se cuenta  el número de primeras condenas de 10 criminales acusados; si cada acusado tuvo exactamente 4 condenas previas, el rango será 0. El rango sería 20 sí el número de condenas anteriores fuera de 20 como máximo y 0 como mínimo.

            La principal ventaja del rango como medida de dispersión es su facilidad de cálculo. Sin embargo, se ve muy afectado por valores extremos, aún en el caso de que éstos no sean atípicos. Por ejemplo, si 9 acusados no tuvieron condenas previas y el restante tuvo 20, el rango sería de 20 dado este único valor extremo. Como resultado, al rango se le considera como una medida de dispersión resistente. Generalmente se prefieren medidas más resistentes. 

            El rango intercuartílico y sus variantes.

            Esta sensibilidad del rango a casos extremos algunas veces se remedia usando alguna de sus variantes como lo es el rango intercuartílico ( también conocido en la literatura del EDA como la dispersión media, dispersión H o dispersión F ). Para esta medida, determínese el valor que corresponde al percentil 75 (Q 3: cuartil superior) y el valor del percentil 25 ( Q1: cuartil inferior); el RIQ es la diferencia entre estos dos valores:

RIQ = Q3 – Q1

Al cortar los casos extremos, el RIQ es menos sensible a valores lejanos que el rango completo, por lo que es una medida de dispersión más resistente.

            Como se describió en el capítulo 1, el análisis exploratorio de datos enfatiza el familiarizarse con los datos a un nivel intuitivo, así como el uso de estadísticos resistentes. El RIQ es un estadístico favorecido en EDA, dado que es intuitivo, resistente y tiene propiedades deseables sobre una variedad de distribuciones diferentes de la variable.

            La limitación del RIQ es que hay una cualidad ad hoc para su cálculo, dado que no hay nada mágico en torno a los percentiles 25 y 75. En efecto, algunos defensores del EDA sugerirían calcular una variedad de estadísticos del estilo del RIQ, tales como la diferencia entre el octavo superior y el inferior de la distribución, y así sucesivamente. Esta multiplicidad de posibles rangos sirven como un recordatorio de que los estadísticos basados en el EDA están pensados para exploración, más que como estadísticos de resumen final.

            Una serie de variantes del RIQ también han sido propuestas como medidas de dispersión. La desviación cuartílica ( o rango semi-intercuartílico o también rango cuartil) es el rango intercuartílico dividido entre 2:

DQ 213 QQ

La división entre 2 tiene la intención de dar al estadístico el sabor a una desviación típica respecto al centro, aquí cuánto los cuartiles típicamente se desvían de la mediana. La DQ también puede pensarse como el promedio del rango entre el percentil 25 y el 50 y entre éste y el percentil 75.

51 de 62

Page 52: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            El rango intercuartílico y sus rangos relacionados tienen un valor de 0 cuando no hay dispersión en la variable y sus valores no tienen límite al incrementarse la dispersión. El RIQ es muy fácil de calcular, pero no lleva a  

Generalizaciones útiles más allá de una sola variable.

            La interpretación del tamaño de los coeficientes de dispersión basados en rangos depende de las unidades en las cuales ha sido medida la variable. Siguiendo la lógica de los coeficientes de variación, una versión normada se puede obtener mediante la división del estadístico de dispersión entre una medida de centro. El coeficiente de variación cuartílica (CVQ) es la diferencia intercuartílica dividida entre la suma del primero y del tercer cuartiles:

CVQ = 31

13

QQQQ

Este estadístico es igual a la desviación  cuartílica dividida entre el punto medio (definido en el capítulo 3), el cual enfatiza el uso de la lógica de los coeficientes de variación. 

            Gráficas de caja.

            Uno de los desarrollos más inventivos en estadística en los años recientes ha sido la creación de nuevos procedimientos gráficos para la exploración de datos. En particular, las gráficas de caja (también conocidas como diagramas de caja y bigotes) han sido ideadas para presentar la distribución ordinal de variables. La gráfica de caja muestra simultáneamente la mediana de una variable, su rango y su rango intercuartílico y enfatiza cuáles observaciones son extremas. Así, las gráficas de caja dan una visión rápida tanto del centro como de la dispersión.

(Datos de la Esperanza de vida en Salud de la población Mundial según la OMS, anexos, pág. 9)

Gráfica de caja y extremos

Esperanza de vida en Salud General25 35 45 55 65 75

 

Figura 4.2. Sección A: Tasas de la Esperanza de vida en Salud para la población Mundial General.

Número de datos = 191

Moda = 56.8262

Mediana = 60.5

Moda = 65.0

52 de 62

Page 53: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Variance = 151.429

Standard deviation = 12.3056

Minimum = 25.9

Maximum = 74.5

Range = 48.6

Primer Cuartil = 47.8

Tercer Cuartil = 65.8

 

            Nótese las tres líneas verticales en la gráfica: la del centro representa la mediana, mostrando que para estos datos su valor está alrededor de 60.5; las otras dos barras verticales muestran el primer cuartil (alrededor de 47.8) y el tercer cuartil (por el 65.8). Hay una caja en torno a estas tres líneas verticales; la longitud horizontal de ésta representa el rango intercuartílico. Más allá del RIQ, valores dentro del 25.9  al 47.8 igual a 21.9 veces la dispersión del primer cuartil es decir entre el bigote izquierdo y la primer línea vertical   (RIQ). Del primero o del tercer cuartil se muestran y están conectados a la caja principal con líneas, pintorescamente llamadas bigotes. En algunos casos los valores extremos entre 25.9 y 65.8 veces el RIQ desde el primero o el tercer cuartil (digamos aquellos que quedan fuera de los cercados interiores) son dibujados con estrellas. Valores extremos mayores que 65.8 veces el RIQ del primero o del tercer cuartil (aquellos que quedan fuera de los cercados exteriores) son dibujados con círculos rellenos.

            Las gráficas de caja son particularmente útiles al comparar la distribución de la misma variable para diferentes subgrupos de observaciones. La figura 4.2, sección B, muestra gráficas de caja para la inflación de 1948 a 1966 y de 1967 a 1985, separadamente. La tasa de inflación mediana parece ser más alta en el último período, así como fue mayor el RIQ, aunque el primer período experimentó más valores mensuales atípicos. Las diferencias de los subgrupos aparecen a primera vista en estas gráficas. Al comparar diferentes gráficas de caja pueden resaltarse diferencias en medianas, cuartiles, dispersiones y/o valores extremos.

            El resto de las medidas en este capítulo son usadas menos frecuentemente, por lo que algunos lectores podrían saltar al siguiente capítulo en este punto.           

            Desviación mediana absoluta.

            Otra posible medida de dispersión basada en el orden es el promedio de las desviaciones absolutas respecto a la mediana. Si la desviación di es definida como la diferencia aritmética entre el valor de una observación xi y la mediana (di = xi – xmed), entonces la desviación mediana absoluta (DMA), algunas veces llamada desviación promedio, es el promedio de estas desviaciones con valor absoluto: 

n

xxDMA

n

imedi

1

Como un ejemplo, la mediana para la tabla 4.1 es 0, las desviaciones absolutas respecto a la mediana suman 40 y el número de casos es 10, por lo que la DMA es 4.

            Esta desviación promedio respecto a la mediana es mínima comparada con la desviación promedio respecto de cualquier otra posible medida de centro. El trabajo con EDA sugiere que la DMA tiene propiedades deseables sobre una variedad de distribuciones de la variable.

53 de 62

Page 54: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            Tal y como el coeficiente de variación es la desviación estándar normada a través de dividirla entre su media, el coeficiente de dispersión (CD) es la desviación mediana absoluta normada a través de dividirla entre la mediana:

med

medi

nxxx

CD

Esta es una medida de dispersión que corrige el efecto de la magnitud de la variable.

            Aunque la DMA tiene algunas interpretaciones útiles, los valores absolutos son tediosos de manipular algebraicamente. Por esta razón, la DMA no permite generalizaciones útiles cuando uno considera estadísticos para más de una variable. Como resultado, esta medida de dispersión se usa raramente.

            La D de Leik.

            La medida de dispersión ordinal más pura fue desarrollada por Leik (1966) en su estudio de consenso. Primero, asúmase que la variable ha sido acomodada en su orden apropiado. Denotemos las proporciones de las observaciones en cada una de las k diferentes categorías como p1, p2, ..., pk. Definamos la proporción acumulada para las k categorías como ck = Σpj para j  k. Entonces se la diferencia dk = ck si ck £0.5 y 1 – ck en cualquier otro caso. Leik propone como medida de dispersión: 

  12

kd

D k

como un ejemplo, digamos que hay cuatro individuos y tres categorías, con una persona en la primera categoría, dos en la segunda y una en la última (ver tabla 4.3, sección A). Las proporciones acumuladas para las tres categorías son c1= 0.25, c2= 0.75 y c3= 1.00. Las correspondientes diferencias son d1= 0.25, d2=  0.25 y d3= 0. La D de Leik es 2 (0.25+0.25+0)/(3-1)=0.5. Este estadístico es 0 si no hay dispersión: si toda la gente cae en la misma categoría (sección B). La máxima dispersión ocurre cuando los casos están polarizados, con la mitad en cada extremo, en cuyo caso D toma un valor máximo de 1 (sección C).

            La lógica de la D de Leik es completamente apropiada para datos ordinales, sin requerir una conversión a puntuaciones numéricas, pero es usada con muy poca frecuencia.

           

            Resumen.

            Hay una serie de medidas de dispersión basadas en el orden. El rango es muy poco resistente para ser útil. El RIQ y la desviación mediana absoluta tienen algunas propiedades útiles, pero no se pueden generalizar a más de una variable. La D de Leik es estrictamente ordinal, pero rara vez es usada. Al poner estas consideraciones juntas, las medidas de dispersión basadas en el orden están limitadas en su valia. Como resultado, la varianza y la desviación estándar son usadas frecuentemente, aún con datos ordinales.

  

54 de 62

Page 55: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Tabla 4.3. Ejemplos para ilustrar la D de Leik.

                                   Sección A. Cálculo de la D de Leik

                        Categoría 1               Categoría 2               Categoría 3               Suma

Frecuencia                1                                 2                                 1                     4

Proporción                0.25                            0.5                              0.25                1.0

Prop. Acumulada     0.25                            0.75                            1.00

Diferencia                 0.25                            0.25                            0.00                0.5

                  D=2 x 0.5/ (3-1 ) =0.5

                                                           Sección B. Sin dispersión

                        Categoría 1               Categoría 2               Categoría 3               Suma

Frecuencia                0                                 4                                 0                     4

Proporción                0.00                            1.0                              0.00                1.0

Prop. Acumulada     0.00                            1.00                            1.00

Diferencia                 0.00                            0.00                            0.00                0.0

                  D= 2 x 0/ (3-1) = 0

                                                           Sección C. Máxima dispersión

                        Categoría 1               Categoría 2               Categoría 3               Suma

Frecuencia                2                                 0                                 2                     4

Proporción                0.5                              0.0                              0.5                  1.0

Prop. Acumulada     0.5                              0.5                              1.00

Diferencia                 0.50                            0.50                            0.00                1.0

                  D= 2 x 1/ (3-1) = 1.0

 

MEDIDAS DE DISPERSIÓN BASADAS EN LA FRECUENCIA.

            La dispersión puede medirse para variables nominales en términos del grado de heterogeneidad de la variable. Dispersión 0 denota homogeneidad completa (todos los casos caen en la misma categoría), mientras que valores mayores indican mayor heterogeneidad. Las medidas de dispersión para variables nominales están basadas en las frecuencias de las categorías. Al leer esta sección deberá tenerse en mente que no existe un acuerdo simple sobre las medidas de dispersión para datos nominales.

55 de 62

Page 56: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

Razón de variación.

            La medida de dispersión más simple para datos nominales se llama razón de variación. Es precisamente la proporción de casos que no caen en la categoría modal:

RV = 1- nf almod

donde se usa f para denotar la frecuencia, por lo que fmodal es la frecuencia de la categoría modal y n es el número total de casos. Ésta es una medida de dispersión útil porque muestra qué tan descriptiva es la moda de sus datos.

            Para un ejemplo de la razón de variación ver los datos de la afiliación religiosa en la tabla 4.4. La religión modal para la columna 2 es protestante, con 40% de la muestra. La razón de variación es 0.6.                                                                                                                      

 Tabla 4.4. Distribuciones de religiones.

__________________________________________________________________

Religión         Real      Unanimidad     Polarizada      Individualidad       Uniforme

Protestante    80                   6                     3                     1                     2

Católica         60                   0                     3                     1                     2

Judía              10                   0                     0                     1                     2

Musulmana    --                     0                     0                     1                     0

Otra                20                   0                     0                     1                     0

Ninguna         30                   0                     0                     1                     0

  Total             200                 6                     6                     6                     6

Moda        Protest.        Protest.        no única         no única         no única

__________________________________________________________________

Religión          Real      Unanimidad     Polarizada      Individualidad       Uniforme

__________________________________________________________________

 

Razón de var. 0.6          0.0                  0.5                0.83                         0.67

Índice div. 0.715            0.0                  0.5                0.83                         0.67

IVQ                 0.894       0.0                  1.0                1.0                           1.0

Entropía         2.009       0.0                  1.0                2.58                         1.58

Entropía est.  0.865       0.0                  1.0                1.0                           1.0

56 de 62

Page 57: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

           

            La razón de variación sería 0 si todos los casos cayeran en la misma categoría. Su máximo valor depende del número de categorías de la variable. Si hay k categorías y cada una ocurre con igual frecuencia n/k ( una distribución uniforme ), entonces la razón de variación es 1-(1/k), que se aproxima a 1 cuando el número de categorías tiende al infinito. Así, su máximo valor es bajo individualidad –cuando cada caso está en una categoría separada.

            La razón de variación es simple de calcular, pero tiene la desventaja de estar basada sólo en la proporción de casos de la categoría modal. Otras medidas de dispersión nominales toman en cuenta a todos los casos.

           

            Índice de diversidad.

            Una segunda medida de dispersión para variables nominales es el índice de diversidad (ID). Ésta es una medida de dispersión basada en la proporción de casos en cada categoría. Eleva al cuadrado cada una de estas proporciones, suma los cuadrados y sustrae esta suma de cuadrados de 1:

k

ik ppppID

1

21

222

21 11

donde p, es la proporción de casos en la categoría i, k es el número de categorías y Σ se utiliza para la suma de

los términos p2i  para cada categoría. Este índice muestra el grado de concentración de los casos en unas

cuantas categorías, dado que al elevar al cuadrado las proporciones, se enfatizan más las proporciones grandes que las pequeñas.

            En el ejemplo de las religiones (Tabla 4.4), con 40% de protestantes, 30% de católicos, 5% de judíos, 10% de otra y 15% de ninguna, la suma de las proporciones cuadradas es 0.16 + 0.09 + 00025 + 0.0225 = 0.285, por lo que ID = 1 – 0.285 = 0.715.

            El índice de diversidad ha sido desarrollado de manera independiente en muchos campos como una medida de heterogeneidad. Por ejemplo, es lo mismo que la medida de fraccionalización desarrollada por Taylor y Hudson y también Waldman, para resumir la dispersión entre  los números de votos recibidos por los partidos políticos en elecciones con varios partidos.

            El índice de diversidad se aproxima a 0 si casi todos los casos caen en la misma categoría y es máximo bajo individualidad, cuando cada caso está en una categoría separada. Sin embargo, su máximo valor depende del número de categorías, por lo que el ID no puede ser comparado entre distribuciones con diferente número de categorías. Si hubiera k categorías con igual proporción de casos en cada una, el ID tendría el valor máximo de (k-1)/k. Así, en el ejemplo de las religiones, la diversidad máxima es 0.8 (=4/5), dado que hay 5 grupos religiosos. Lo que hace esto inusual es que el valor máximo se incrementaría si el número de categorías fuese mayor. Por ejemplo, si subdividiéramos a los protestantes en bautistas, presbiterianos, metodistas, luteranos y otros protestantes, tendríamos 10 categorías, con una diversidad máxima de 0.9 (=9/10). Para muchos propósitos es más útil que el índice de diversidad sea normado para ir de 0 a 1, independientemente del número de categorías.

 

            Índice de variación cualitativa.

            Una tercera medida de dispersión para datos nominales, el índice de variación cualitativa (IVQ), norma el índice de diversidad, por lo que el valor 1 siempre representa la máxima dispersión. Para hacer esto, simplemente se divide el ID entre su máximo valor para el número de categorías que se tengan. (k-1)/k. La fórmula es:

57 de 62

Page 58: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

kk

pppIVQ k

11 22

221

            En el ejemplo de las religiones de la tabla 4.4 con 5 categorías, el índice de variación cualitativa es 0.715/0.8 = 0.894. Este valor alto del IVQ indica que hay una considerable dispersión entre las religiones en esta muestra. El IVQ es 0 cuando todos los casos caen en una sola categoría y 1 bajo uniformidad, cuando los casos están repartidos uniformemente entre todas las categorías.

           

             Cuál de las medidas de dispersión nominales es más útil depende en parte de cómo se defina la dispersión nominal. Digamos que comparamos la competencia de partidos políticos en dos naciones: un sistema bipartidista en el que cada partido ganó el 50 % de los votos y un sistema multipartidista en el que cada uno de los 10 partidos obtuvo el 10 % de los votos. El IVQ sería 1 en cada caso, dado que la diversidad es máxima dado el número de categorías. Todavía hay un sentimiento real de que existe más dispersión en el sistema con 10 partidos respecto al bipartidista. Si sentimos que es importante capturar esta dispersión, deberíamos regresar al índice de diversidad, donde encontraríamos un valor de 0.9 para el sistema multipartidista, respecto a 0.5 para el bipartidista. Así, la corrección por el número de categorías seria inapropiada cuando la existencia de más categorías, por si misma, significa mayor diversidad. 

Entropía.

            Una cuarta medida de dispersión para variables nominales está basada en la teoría de la información. Los estadísticos basados en esta teoría calibran cuánta información es transportada por una distribución. No hay incertidumbre cuando todos los casos caen en la misma categoría y a mayor dispersión de los casos entre las categorías, mayor incertidumbre.

            Se cuentan los distintos “bits” o trozos independientes de información. Por definición, hay exactamente un bit de incertidumbre en una elección entre dos alternativas iguales. Menos incertidumbre existiría si una alternativa fuera más popular que la otra. Una elección equitativa entre dos opciones provee un bit de incertidumbre, una elección nivelada entre 4 (22) alternativas proporciona 2 bits de incertidumbre, si la elección fuese 8 (24) opciones, se producirían 3 bits, y así sucesivamente. Así, el número de bits independientes de información puede ser calculado mediante el logaritmo, de base 2, del número de alternativas, ajustado por sus popularidades diferenciales.

            La entropía (o incertidumbre) se mide al tomar en cuenta la proporción de casos en cada categoría. Esta proporción se multiplica por el negativo de su logaritmo ( usualmente de base 2 ), lo cual da: -p1log2 (p1). La incertidumbre de una distribución es definida como la suma de estos valores para todas las categorías:

k

i

k

iiiii ppppxH

1 1102

' log3219.3log

             La segunda versión de la fórmula para la entropía está en términos de los logaritmos comunes de base 10.

            En el ejemplo de las religiones de la tabla 4.4, la entropía es 2.009, esto puede ser interpretado diciendo que la dispersión entre las categorías es aproximadamente igual a la incertidumbre al escoger entre 4 religiones de igual prevalencia.

            No hay incertidumbre cuando todas las observaciones están en la misma categoría, en tal caso p1= 1. Por definición, el logaritmo de 1 es 0, por lo que la entropía vale 0 en estas circunstancias. En contraste, si hay una distribución uniforme entre todas las categorías, entonces la entropía es – Σ(1/k) log 2(1/k) = -k  (1/k)[log2(1) – log2 (k)] = -1 [0-log2(k)] = log2 (k). En otras palabras, a mayor número de categorías, mayor será la incertidumbre; así, su máximo valor depende del número de categorías, con el valor más grande bajo condiciones de individualidad.

58 de 62

Page 59: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            El estadístico entropía puede normarse, de tal suerte que su máximo valor sea 1, independientemente del número de categorías que tenga la variable. La fórmula de entropía se puede modificar para tener esta característica al dividirla entre su valor máximo y obtener así lo que se conoce como entropía estandarizada:

J1=

k

ppk

i

2

1211

log

log

En el ejemplo de las religiones, la entropía estandarizada es 0.865

            El estadístico entropía es poco usado porque los logaritmos de base 2 son tediosos de calcular y porque la mayoría de los investigadores no se sienten cómodos con los logaritmos. Sin embargo, las bases teóricas de este estadístico son muy fuertes. Otras medidas de dispersión nominales tienen una base ad hoc para ellas, en tanto la entropía está elegantemente basada en la teoría de la información. Una ventaja adicional es que la entropía se generaliza fácilmente a varias variables, por lo que las medidas de asociación, basadas en la incertidumbre, entre dos variables pueden usarse para determinar cuánto una variable explicativa ayuda a reducir la incertidumbre de la categoría de la variable dependiente a la cual pertenece un caso. 

            Otras medidas.

            Se han ideado otra serie de medidas de dispersión para datos nominales, usualmente por investigadores al resolver sus propios problemas. Así, los científicos del área política desarrollaron una serie de medidas de dispersión para las curules ganadas por diferentes partidos en legislaturas multipartidistas. Un ejemplo es el estadístico de fragmentación de Rae y Taylor, que es la proporción de pares de casos que no están en la misma categoría; es aproximadamente igual al índice de diversidad para un número grande de casos. De manera similar, los biólogos construyeron una serie de índices de diversidad ecológica, donde la existencia de un número grande de especies muy semejantes en cantidad es considerada como alta diversidad. También otra serie de disciplinas desarrollaron medidas de equidad o integración, tales como 1-Σ |pk – (1/k)|, que está basado en la diferencia entre las partes proporcionales y la parte proporcional promedio.

 

Resumen.

            No hay un acuerdo común sobre cuál de las medidas de dispersión basadas en frecuencias es la mejor. En efecto, los programas de cómputo rara vez proporcionan alguna de éstas. Cada una tiene un valor de 0 cuando todos los casos están en la misma categoría. A mayor heterogeneidad en las observaciones, más grande es el valor de estos estadísticos. Como se muestra en las últimas cuatro columnas de la tabla 4.4, entre ellos difieren en su valor máximo. El índice de variación cualitativa y la entropía estandarizada tienen valores máximos de 1 cuando la distribución es uniforme, las otras son máximas cuando cada caso está en una categoría separada, con su valor mayor dependiendo del número de categorías. 

DISCUSIÓN.

            Comparaciones entre las medidas de dispersión.

            Todas las medidas de dispersión aceptan la misma definición de 0 variación, pero usan diferentes interpretaciones de lo que es máxima dispersión (ver tabla 4.5). Las medidas métricas y ordinales son máximas cuando la variable está polarizada, con la mitad de los casos en el valor máximo y la otra mitad en el valor mínimo. Las medidas basadas en las frecuencias, en cambio, son máximas cuando hay una distribución uniforme de casos entre las categorías o cuando hay tantas categorías como número de observaciones. También, algunas medidas de dispersión están normadas, ya sea para tener un valor máximo de 1 o mediante la división entre un valor de tendencia central para controlar el efecto de la unidad de medición de la variable. Los valores normados son generalmente más interpretables, aunque con los valores crudos las medidas de dispersión ser puras.

59 de 62

Page 60: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            Tabla 4.5. Condiciones de valor máximo para medidas de dispersión.

Medida                      Valor              Cond. Máx.                Máx. depend.            Normada

                                   Máximo          p/núm. De                  del núm. De

                                                           Casos fijo                  categorías.

Desv. Media             ilimitado         polarizado                             no                   no

Varianza                    ilimitado         polarizado                             no                   no

Desv. Estándar         ilimitado         polarizado                             no                   no

Coef. De variac.       ilimitado                                                        no                   si

Dif. Media de Gini    ilimitado         polarizado                             no                   no

Rango                        ilimitado                                                        no                   no

Rango intercuart.      ilimitado         polarizado                             no                   no

Desv. Cuartílica        ilimitado         polarizado                             no                   no

Coef. Var. Cuart.      ilimitado                                                        no                   si

Desv. Med. Absol.    ilimitado         polarizado                             no                   no

Coef. De dispers.     Ilimitado                                                        no                   si

D de Leik                      1                 polarizado                             si                     no

Razón de variac.      →1                 individualidad                       si                     no

Índice de divers.       →1                 individualidad                       si                     no

Índice var. Cualit.      →1                 uniformidad                           no                   0-1

Entropía                     ilimitado         individualidad                       si                     no

Entropía estándar     →1                 uniformidad                           no                   0-1

            La tabla 4.6 compara las principales medidas de dispersión descritas en este capítulo respecto a los criterios deseables para estadísticos descriptivos listados en el capítulo 1. Algunas de las evaluaciones de la tabla son debatibles, pero proporcionan un punto de inicio útil para la consideración de los estadísticos. Las ventajas de la desviación estándar ( y la varianza) son el ser algebraicas, estables bajo el muestreo y generalizables a dos o más variables. El rango intercuartílico es más fácil de entender y de calcular, más resistente a valores extremos y con frecuencia puede ser calculado para variables con extremos abiertos. Las medidas basadas en frecuencias generalmente no cumplen con los criterios, pero son las apropiadas para datos nominales. Más que escoger una sola medida de dispersión, con frecuencia es más apropiado usar varias de ellas al mismo tiempo para resaltar diferentes aspectos de la dispersión.

60 de 62

Page 61: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

 

Tabla 4.6. Propiedades de las medidas de dispersión.

Propiedad                             índice de diversidad            Rango Inter.-       Desviación

                                                                                                Cuartílico             estándar

Nivel de medición                Nominal o >                          Ordinal o >                Métrico

Rígidamente definido               si                                            si                                si

Basado todos los casos          si                                            si                                si

Simple de entender             medio                                         si                                no

Fácil de calcular                        si                                            si                           medio

Algebraico                                 si                                            no                               si

Estable bajo muestreo        desconocido                         desconocido                  si

Valor único                                 si                                            si                                si

Resistente a extremos             si                                            si                                no

Generalizable a 2 var.              no                                           no                               si

Insensible a combinar cat.       no                                           si                                si

Calculado p/ var. abiertas        no                                           si                                no

Mismas unidades que datos   no                                           si                                si

 

            Los valores de estas medidas pueden compararse con algunas distribuciones conocidas. En particular, digamos que la variable tiene una distribución normal, la distribución acampanada mostrada en la figura 4.1. Esta distribución tiene propiedades matemáticas bien conocidas que han sido extensamente estudiadas a través de los años. Para tal distribución, el rango intercuartílico es 1.349 veces la desviación estándar y la desviación promedio es 0.7979 veces la desviación estándar. Esto sugiere que la desviación estándar generalmente será más grande que el promedio de las desviaciones sin signo respecto a la media ( medidas por la desviación promedio ) y más pequeñas que el rango intercuartílico. Estos valores podrían diferir considerablemente respecto a otras distribuciones, aunque el valor 1-349 para el rango intercuartílico no debería ser exageradamente sensible a la distribución exacta, dado que esta medida está medida está basada en los cuartiles.

Propiedades matemáticas de las medidas de dispersión

            Una medida de dispersión debe tener dos propiedades matemáticas cuando se aplica a datos métricos. Primero, si una constante k es sumada a cada uno de los valores de la variable, el estadístico de dispersión debe mantenerse sin cambio. Sumar tal constante cambia la localización de los números, pero no la dispersión entre ellos. Segundo, si un factor m multiplica a cada uno de los valores de la variable, entonces la dispersión debe ser multiplicada por el valor absoluto de m. Poniendo estas dos propiedades juntas, la medida de dispersión de una variable transformada en forma lineal debería ser:

Dispersión ( k + mxi ) = | m | x Dispersión (xi)

61 de 62

Page 62: I€¦  · Web viewi. introducciÓn. 2 medidas de tendencia central y dispersiÓn. 2. evaluando medidas de tendencia central y de dispersiÓn. 3. ii. niveles de mediciÓn

Centro Universitario de Educación SuperiorHermosa Provincia

Fac. de AdministraciónNotas de Estadística I

            El rango, el rango intercuartílico, la desviación media y la desviación estándar satisfacen estas condiciones. Las transformaciones lineales de los valores incrementan estas medidas de dispersión en forma lineal. Considérense, por ejemplo, una variable medida en una escala de 0 a 100, con 50 como el punto neutral; si un investigador quisiera convertir esta variable a una escala de –100 a 100, con 0 como punto neutral, la regla de conversión sería 2x – 100, por lo que su dispersión se doblaría. Nótese que la varianza no satisface estas condiciones, su valor debería ser multiplicado por m2, el cuadrado del factor.

Resumen.

            Las medidas más comunes para datos métricos son la varianza y su primo sin el cuadrado, la desviación estándar. Estas dos medidas deberán ser bien comprendidas si han de entenderse adecuadamente los estadísticos de relaciones entre dos o más variables. Existen medidas de dispersión para otros tipos de datos, algunas (particularmente el rango intercuartílico ) basadas en las propiedades de orden de los datos y otras basadas en las frecuencias de las categorías. La mayoría de estas medidas no son generalizables a más allá de un variable, pero son efectivas al calibrar la cantidad de dispersión cuando la variable no es métrica.

62 de 62