55
Medidas de Tendencia Central. Dispersión. Gráficos Dr Carlos Canelo Aybar Medicina Interna. Epidemiología Clínica Hospital Arzobispo Loayza

Clase 3. dr. canelo

Embed Size (px)

Citation preview

Page 1: Clase 3. dr. canelo

Medidas de Tendencia Central. Dispersión. Gráficos

Dr Carlos Canelo AybarMedicina Interna. Epidemiología ClínicaHospital Arzobispo Loayza

Page 2: Clase 3. dr. canelo
Page 3: Clase 3. dr. canelo

Características de una distribución de frecuencias

Los datos deberá ser examinados gráficamente, antes de intentar resumirlos, con una medición resumida simple.

Presentaciones visuales ayudan a identificar los extremos y la forma de la distribución.

Histograma- gráfica de distribución de frecuencias.

Page 4: Clase 3. dr. canelo

Características de una distribución de frecuencias

Propiedades de la distribución de frecuencias Tendencia central Variabilidad (dispersión)

Forma de la distribución (simétrica o desviada), determina la medida de tendencia central o de dispersión, adecuadas

Page 5: Clase 3. dr. canelo

MEDIDAS DE TENDENCIA CENTRAL Medidas de localización

Media Aritmética

Se obtiene sumando todos los valores de una población o muestra y dividiéndolo entre el número de valores sumados.

x = ∑ xi

nµ =

∑ xi

N

Los valores extremos influyen sobre la media, y en algunos casos puede distorsionarla tanto que llega a ser indeseable como medida de tendencia central.

Page 6: Clase 3. dr. canelo

Media ponderadaMedia que se obtiene asignando distintos pesos a los valores,

x

=Σ ( W . X )

Σ W Necesitamos una media de tres calificaciones de una prueba, 85, 90, 75, donde

la primera prueba tiene el 20%, la segunda el 30% y la tercera 50%

Triola 2004:66

x

=( 20 . 85 ) + (30 . 90) + (50 . 75)

20 + 30 + 50= 81.5

Page 7: Clase 3. dr. canelo

Medidas de localización La Moda

La moda de un conjunto de valores es aquel que ocurre con mayor frecuencia

Si todos los valores son diferentes, no hay moda.

Un conjunto de valores puede tener mas de una moda

Ejemplo:

¿Cual es la moda en los siguientes datos?

12 14 09 04 12 33 23 17 33 31 12 24 09 18

16 09 25 07 15

Page 8: Clase 3. dr. canelo

Medidas de localización La Mediana

La mediana de un conjunto finito de valores es aquel valor que divide al conjunto de números ordenados en dos partes iguales.Ninguna observación extrema en un conjunto de datos afecta a la mediana, en consecuencia, siempre que una observación extrema esté presente, es adecuado usar la mediana en lugar de la media para describir un conjunto de datos.

50%50% n + 1

2=(Par)

Me

n = número de datos

Page 9: Clase 3. dr. canelo

Tendencia central (Resumen)

Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.

Media: Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral.

Media de 2, 2, 3, 7 es (2+2+3+7)/4 = 3,5Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos.

Mediana: Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos. Si el número de datos es par, se elige la media de los dos datos centrales.

Mediana de 1, 2 ,4 ,5, 6 ,6, 8 = 5Mediana de 1, 2, 4, 5, 6, 6, 8, 9 = (5+6)/2 = 5,5Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.Mediana de 1, 2 , 4, 5, 6, 6, 800 = 5 La media 1, 2, 4, 5, 6, 6, 800 = 117,7

Page 10: Clase 3. dr. canelo

Medidas de Dispersión

La dispersión de un conjunto de observaciones se refiere a la variabilidad que presentan estas.

Una medida de dispersión conlleva información respecto a la cantidad total de variabilidad presente en el conjunto de datos

Tres distribuciones normales con diferentes dispersiones de los datos

x

Page 11: Clase 3. dr. canelo

MEDIDAS DE DISPERSIÓN Rango

Diferencia entre el valor mayor y el valor menor de un conjunto de datos obtenidos en una medición.

Rango = X más grande – X más pequeño

El rango mide la dispersión total en un conjunto de datos. Aunque es una medida sencilla de la variación total de los datos, su debilidad característica consiste en que no toma en cuenta como se distribuyen los datos entre los valores mas grande y más pequeños.

No es necesariamente una medida de típica de dispersión porque la presencia de un valor extremo puede cambiar radicalmente su valor

Page 12: Clase 3. dr. canelo

Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.

Amplitud o Rango:Diferencia entre observaciónes extremas.

2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.

Rango intercuartílico: Es la distancia entre primer y tercer cuartil.

Rango intercuartílico = Q3 – Q1 Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. No es tan sensible a valores extremos.

150 160 170 180 190

0.0

00

.01

0.0

20

.03

0.0

40

.05

150 160 170 180 190

25% 25% 25% 25%

Mín. P25 P50 P75 Máx.

Rango intercuartílico

Rango

Medidas de dispersión

Page 13: Clase 3. dr. canelo

MEDIDAS DE DISPERSIÓN La Varianza

La varianza es una medida de la dispersión que emplea todos los valores de los datos. Se basa en la diferencia entre cada valor y la media.

La diferencia entre cada valor del dato Xi y el promedio ( x para una muestra y µ para una población) se llama desviación respecto al promedio.

Para una muestra la desviación se expresa como: (Xi – x); para una población: (Xi - µ)

Varianza Mide el promedio de las desviaciones (al cuadrado)

de las observaciones con respecto a la media.

Page 14: Clase 3. dr. canelo

MEDIDAS DE DISPERSIÓN Varianza

( X1 – X )2 + ( X2 – X )2 + ….........…. ( Xi – X )2

n - 1

∑ ( Xi – X )2

S2 =

La varianza de la muestra, es la suma de los cuadrados de las diferencias de los datos con relación a la media aritmética divida entre el tamaño de la muestra menos 1

∑ ( Xi – )2

Nσ 2=

VARIANZA MUESTRAL

VARIANZA POBLACIONAL

Unidades de la varianza son al cuadrado.

S2 =n - 1

Dado un conjunto de observaciones, se llama varianza de dicho conjunto a la sumatoria de las diferencias entre cada observación y la media aritmética elevadas al cuadrado, y dividido por el número de observaciones

Es sensible a valores extremos (alejados de la media).

Sus unidades son al cuadrado.

Page 15: Clase 3. dr. canelo

MEDIDAS DE DISPERSIÓN Desviación estándar

Es la raíz cuadrada de la varianza Indica como se agrupa o distribuye un conjunto de datos

alrededor de la media.

La desviación estándar también se define como la raíz cuadrada positiva de la varianza.

σ = σ 2

s2s =

Desviación estándar población

Desviación estándar muestra

Page 16: Clase 3. dr. canelo

MEDIDAS DE DISPERSIÓN Coeficiente de variación

El CV, relativo a un conjunto de datos, que se define como el cociente entre la desviación típica y la media aritmética, es evidentemente un número adimensional. Siempre se expresa como porcentaje.

CV =S

X100 %( )

S = Desviación estándar de un conjunto de datos numéricosX = Media aritmética

Permite establecer comparaciones válidas entre las dispersiones relativas expresadas en unidades de medida diferente

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente. Por ejemplo 0ºC ≠ 0ºF

Page 17: Clase 3. dr. canelo

También se la denomina variabilidad relativa.

Es frecuente mostrarla en porcentajes Si la media es 80 y la desviación típica 20 entonces CV = 20/80 = 0,25 = 25% (variabilidad relativa) Es una cantidad adimensional. Interesante

para comparar la variabilidad de diferentes variables.

Si el peso tiene CV = 30% y la altura tiene CV = 10%, los individuos presentan más dispersión en peso que en altura.

Page 18: Clase 3. dr. canelo

MEDIDAS DE FORMA

Asimetría: Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. La distribución de los datos es simétrica o no lo es. Si no lo es, recibe el nombre de distribución asimétrica o sesgada.

media > mediana: Sesgo positivo o a la derecha

media = mediana: simetría o sesgo cero

media < medina: sesgo negativo o a la izquierda

En las distribuciones simétricas media y mediana

coinciden. Si sólo hay una moda también coincide

Las discrepancias entre la media y la mediana indican

asimetría.

Page 19: Clase 3. dr. canelo

La asimetría es positiva o negativa en

función de a qué lado se encuentra la cola de la distribución.

Sesgo (+) Sesgo (-)

La simetría de una función de distribución se mide por el coeficiente de sesgo de la misma.

El coeficiente de sesgo no debe sobrepasar el valor de ± 2 (para considerarse una distribución Normal)

Page 20: Clase 3. dr. canelo

CURTOSIS

El coeficiente de curtosis mide el mayor o menor aplanamiento de la curva de distribución

Curtosis < 0Curtosis = 0 Curtosis > 0

El coeficiente de sesgo no debe sobrepasar el valor de ± 2

(para considerarse una distribución Normal)

Page 21: Clase 3. dr. canelo

DISTRIBUCION NORMAL

V1

100

80

60

40

20

0

µ

Page 22: Clase 3. dr. canelo

Características de la distribución normal

1.- Es simétrica respecto a su media. En la imagen anterior, la curva hacia cualquiera de los lados de es una imagen de espejo de la del otro ladoµ

2.- La media, la mediana y la moda son iguales

3.- El área total bajo la curva sobre el eje de las X es una unidad de área. Esta característica se deduce del hecho de que la distribución normal es una distribución de probabilidad.

4.- Si se levantaran perpendiculares a una distancia de una desviación estándar desde la media hacia ambos lados, el área delimitada por esas perpendiculares, el eje de las X y la curva será del 68 % del área total, aproximadamente. A dos desviaciones estándar, estará incluido aproximadamente el 95 % del área, y a tres desviaciones estándar, aproximadamente 99,7 del área total estará englobada.

Page 23: Clase 3. dr. canelo

Dispersión en distribuciones ‘normales’

Centrado en la media y a una desv. típica de distancia hay aproximadamente el 68% de las observaciones.

150 160 170 180 190

0.00

0.01

0.02

0.03

0.04

0.05

xs

68.5 %

150 160 170 180 190

0.00

0.01

0.02

0.03

0.04

0.05

x2s

95 %

A dos desviaciones típicas tenemos el 95% (aprox.)

Page 24: Clase 3. dr. canelo

Tres distribuciones normales con diferentes desviaciones estándar pero con la misma media

σ 3

σ 2

x

σ 1

DISTRIBUCIÓN NORMAL ESTÁNDAR

Page 25: Clase 3. dr. canelo

MEDIDAS DE POSICIÓNNO CENTRALES

INFORMAN ACERCA DE LA POSICIÓN QUE OCUPA UN DATO DENTRO DE UNA SERIE ORDENADA EN FORMA CRECIENTE.

DECILES Dividen el conjunto de datos ordenados en diez partes

iguales. Nueve deciles dividen las observaciones en diez partes iguales. Se denotan: D1 D2 D3……………… D9 ; D5 = Mediana

PERCENTILES Dividen el conjunto de datos ordenados en 100 partes

iguales. El percentil 90 es un valor tal que el 90% de todos los valores son menores y el 10 son mayores que él. Se denotan: P1 , P2 P3 , P4 ……………. P99 ; P50 = Mediana; P25 Se corresponde con el primer cuartil ; P75 Se corresponde con tercer cuartil

CUARTILES

Dividen el conjunto de datos ordenados en cuatro partes iguales. Los cuartiles son: Q1 ; Q2 ; Q3 . Se necesitan solamente tres cuartiles para dividir los datos en cuatro partes. El cuartil Q2 = Mediana

Page 26: Clase 3. dr. canelo

Datos

Q1 Q2=Me Q3 Ls

0% 25% 50% 100%75%

CUARTILES

Li

Page 27: Clase 3. dr. canelo

Datos

DECILES 1 2 3 4 5 6 7 8 9 10

Page 28: Clase 3. dr. canelo

Variable Descripción Estadísticos y gráficos

Cualitativa en escala nominal

Valores no numéricos con ausencia de orden entre

ellos

Distribución de frecuencias

ModaDiagrama de barras

Cualitativa en escala ordinal

Valores no numéricos con

presencia de orden entre

ellos

MínimoMáximoMedianaCurtiles

PercentilesRango

IntercuartílicoGráfico de caja y

bigotes

Cuantitativa en escala de intervalo o de razón

Cuantitativa discreta Cuantitativa continua

En escala de intervalo En escala de razón

MediaRango

VarianzaDesviación Típica

Coeficiente de Variación

Coeficiente de asimetría

Coeficiente de curtosis

HistogramaGráfico de tallo y

hoja

HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA

Page 29: Clase 3. dr. canelo

GRÁFICOS ESTADÍSTICOS

El gráfico es la representación en el plano, de la información estadística, con el fin de obtener una impresión visual global del material presentado, que facilite su rápida comprensión. Los gráficos son una alternativa a las tablas para representar las distribuciones de frecuencias. Algunos requisitos recomendables al construir un gráfico son:

- Evitar distorsiones por escalas exageradas.

- Elección adecuada del tipo de gráfico, según los objetivos y tamaño de recorrido de las variables.

- Sencillez y autoexplicación.

Page 30: Clase 3. dr. canelo

Al igual que las tablas estadísticas, los gráficos

estadísticos deben tener un título y una

explicación de QUE, DONDE y CUANDO se

obtuvo la información.

Page 31: Clase 3. dr. canelo
Page 32: Clase 3. dr. canelo
Page 33: Clase 3. dr. canelo
Page 34: Clase 3. dr. canelo
Page 35: Clase 3. dr. canelo
Page 36: Clase 3. dr. canelo
Page 37: Clase 3. dr. canelo
Page 38: Clase 3. dr. canelo
Page 39: Clase 3. dr. canelo
Page 40: Clase 3. dr. canelo

PREFERENCIA POR LAS ASIGNATURAS

0%10%20%30%40%50%60%70%80%90%

100%

ASIGNATURA

HARTO

MAS O MENOS

NADA

Page 41: Clase 3. dr. canelo
Page 42: Clase 3. dr. canelo
Page 43: Clase 3. dr. canelo
Page 44: Clase 3. dr. canelo
Page 45: Clase 3. dr. canelo
Page 46: Clase 3. dr. canelo
Page 47: Clase 3. dr. canelo
Page 48: Clase 3. dr. canelo
Page 49: Clase 3. dr. canelo

Ganancias25%

Ganancias25%

Representación gráfica y problemas éticos

Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis.

That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front …

Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.

Ganancias25%

.

Page 50: Clase 3. dr. canelo

Representación gráfica y problemas éticos

Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders.

No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down.

LaborCosts

AdministrativeCosts

LaborCosts

AdministrativeCosts

Page 51: Clase 3. dr. canelo

Representación gráfica y problemas éticos

Now, if you could only show this declining sales picture as going up, all my problems would be solved.

Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up.

‘87 ‘88 ‘89 ‘90 ‘91 ‘920

25

50

75

100

‘87 ‘88 ‘89 ‘90 ‘91 ‘920

25

50

75

100

Page 52: Clase 3. dr. canelo

Box plot

Page 53: Clase 3. dr. canelo

Manejo de datos fuera de rango (outliers)

Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos.

Razones para darse: 1. Errores de medición 2. Resultados atípicos

La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas.

PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’

Page 54: Clase 3. dr. canelo

Relación entre el perfil de la distribución y el Box Plot

Sesgada derechaSesgada izquierda Simétrica

Q1 Mediana Q3Q1 Mediana Q3 Q1

Mediana Q3

Page 55: Clase 3. dr. canelo

…………..GRACIAS