37
Estadística Descriptiva Clase 16 Basada en notas de Mathias Bourel

Estadística Descriptiva Clase 16

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estadística Descriptiva Clase 16

Estadística DescriptivaClase 16

Basada en notas de Mathias Bourel

Page 2: Estadística Descriptiva Clase 16

Estadística Descriptiva

¿Quién fue el primero en hacer un promedio?

El rey Rituparna, apuntando hacia un árbol,dijo: “Yo sé cuantas hojas tiene ese árbol, sinsiquiera contarlas”.

I Es uno de los registros más antiguos de estimación.I Su truco era simple:

consistía en estimar el número de hojas en una pequeña ramapromedio, y multiplicarlo por el número estimado de pequeñasramas en el árbol.

I La historia termina en que luego de una ardua noche de conteo, elnúmero verdadero de hojas se encontraba muy próximo al númerodado por el rey.

Page 3: Estadística Descriptiva Clase 16

Estadística Descriptiva¿Por qué funciona?

I La idea es que una rama típica del árbol será representativa y daráuna buena estimación.

I El método funciona porque lo que se cuenta de más algunas veces,es compensado por lo que se cuenta de menos en otras.

¿Cuántos patos hay en la foto?

Page 4: Estadística Descriptiva Clase 16

Estadística Descriptiva

Imaginarse una grilla

Pero ¿cómo elegir un rectángulo típico?

I A ojo, digamos que hay 15 patos en un rectángulo típico. Esto nosda una estimación de 225 patos en total.

I ¿Hay una manera sistemática de elegir un rectángulo típico?

Page 5: Estadística Descriptiva Clase 16

Estadística DescriptivaHay más de una manera

Si nos dicen que el máximo es 34 y el mínimo es 0, podemos tomar

Valor típico =Máximo +Mínimo

2= 17.

Así, obtendríamos una estimación de 255 patos.

Hacemos la cuenta

5 11 21 8 4

5 27 34 11 6

25 17 15 6 0

Page 6: Estadística Descriptiva Clase 16

Estadística Descriptiva

¿Más valores típicos?

I Hay 195 patos. Entonces

Valor típico =Suma

15= 13.

Y eso que ningún rectángulo tiene 13 patos.I También podría ser

Valor típico = el que más se repite.

Hay 3 valores que se repiten dos veces: el 5, el 6 y el 11.I Ordenamos, de menor a mayor los rectángulos:

la mitad hacia la izquierdaz }| {0 4 5 5 6 6 8 11

la mitad hacia la derechaz }| {11 15 17 21 25 27 34 .

Valor típico = aquel que divide en dos partes iguales al total.

Page 7: Estadística Descriptiva Clase 16

Estadística Descriptiva

¿Con cuál nos quedamos?

Depende de la distribución de los datos, y sobre todo, de qué infor-mación queremos obtener.

Individuos, variables y distribuciones

Los individuos son los objetos descritos por un conjunto de datos.

Una variable es cualquier característica de un individuo.

La distribución de una variable nos dice qué valores toma y con quéfrecuencia.

Page 8: Estadística Descriptiva Clase 16

Estadística Descriptiva

Variables categóricas y cuantitativas

Una variable categórica indica a qué grupo o categoría pertenece unindividuo.

Una variable cuantitativa toma valores numéricos, para los que tienesentido hacer operaciones numéricas.

Ejemplo

Nombre Edad Sexo Raza Salario TrabajoPerez, Juan 27 Hombre Blanca 32540 TécnicoMartínez, Ana 43 Mujer Blanca 65000 DirectivoWang, Li 22 Hombre Asiatica 15000 Cadete...

......

......

...

Page 9: Estadística Descriptiva Clase 16

Estadística Descriptiva

Tenencia de la vivienda en Uruguay ECH2014

A B C D E F G H I

Tenencia de la Vivienda ECH2014

Porcentaje

0

10

20

30

40

A Prop. de la viv. y el terr. y los está pagando.

B Prop. de la viv. y el terr. y ya los pagó.

C Prop. sólo de la vivienda y la está pagando.

D Prop. sólo de la vivienda y ya la pagó.

E Inquilino o arrendatario de la vivienda.

F Ocupante con relación de dependencia.

G Ocupante gratuito. Se lo permite el B.P.S.

H Ocupante gratuito. Se lo permite el prop.

I Ocupante sin permiso del propietario.

A B C D E F G H I8,6% 46,3% 0,5% 5,4% 17,2% 1,5% 0,7% 19,2% 0,8%

¿Cuál es la tenencia de la vivienda típica en Uruguay?

Page 10: Estadística Descriptiva Clase 16

Estadística Descriptiva

La Moda

Si X es una variable categórica que toma los valores {x1, . . . , xn}, lamoda de X es aquel valor que se repite con mayor frecuencia

Moda(X ) = xi más frecuente.

La moda para variables cuantitativas

Si la variable es cuantitativa, debemos agrupar los datos y tomar lamoda de los datos agrupados. En este caso, la moda dependerá decómo agrupemos los datos.

Page 11: Estadística Descriptiva Clase 16

Estadística Descriptiva

¿Cuál es el salario típico en Uruguay?

Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014

Ingreso (miles de pesos)

Frecuencia

0 20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

0.05

La moda corresponde al intervalo 10 � 15 mil pesos.

Page 12: Estadística Descriptiva Clase 16

Estadística Descriptiva

Medidas de Centro

Es un número que representa el “centro” de una distribución.

I La moda es un ejemplo de medida de centro.I Supongamos que tenemos datos

{x1, x2, . . . , xn}

de una variable numérica X .I Podemos cuantificar cuán central es un número x para X con

d(x) =nX

i=1

|x � xi | .

I Busquemos el valor de x que minimiza la función d .

Page 13: Estadística Descriptiva Clase 16

Estadística Descriptiva

Volviendo a los patos

0 5 10 15 20 25 30 35

150

200

250

300

Grafico de d para el ejemplo de los patos

x

d

El mínimo se alcanza en x = 11. ¡No es casualidad!

Page 14: Estadística Descriptiva Clase 16

Estadística Descriptiva

Buscamos el mínimo de dI El problema es que d no es derivable.I Ordenamos los datos de menor a mayor:

x⇤1 x⇤2 · · · x⇤n .

I d es lineal en cada segmento⇥x⇤i , x

⇤i+1

⇤, y vale

d(x) =iX

j=1

x � x⇤j +nX

j=i+1

x⇤j � x

=

nX

j=i+1

x⇤j �iX

j=1

x⇤j + (2i � n)x = B + Ax,

en donde A = 2i � n y B =Pn

j=i+1 x⇤j �Pi

j=1 x⇤j son constantes.

Page 15: Estadística Descriptiva Clase 16

Estadística Descriptiva

Buscamos el mínimo de dI Supongamos primero que n es impar. Entonces

8><>:A < 0 cuando i n�1

2 ,

A > 0 cuando i � n+12 .

I Por lo que d alcanza su mínimo en el punto x⇤n+12.

I Supongamos ahora que n es par. En este caso

8>>>><>>>>:

A < 0 cuando i n2 � 1,

A = 0 cuando i = n2,

A > 0 cuando i � n2 + 1.

I Luego d alcanza su mínimo en cualquier punto defx⇤n/2, x

⇤n/2+1

g.

Page 16: Estadística Descriptiva Clase 16

Estadística Descriptiva

El mínimo de d según la paridad de n

Luego d alcanza su mínimo en

8><>:x⇤n+1

2, cuando n es impar,

cualquier punto defx⇤n/2, x

⇤n/2+1

g, cuando n es par.

Page 17: Estadística Descriptiva Clase 16

Estadística Descriptiva

La Mediana

Sea X una variable cuantitativa que toma los valores

{x1, . . . , xn}.

La mediana de X es un valor m que deja 50% de los datos a suizquierda y 50% a su derecha.

Para calcularla aplicamos la siguiente receta:

m =8>><>>:x⇤n+1

2cuando n es impar

x⇤n/2+x⇤n/2+1

2 cuando n es par

en donde {x⇤1, . . . , x⇤n} es la muestra ordenada de menor a mayor.

Page 18: Estadística Descriptiva Clase 16

Estadística Descriptiva

La mediana de ingresos en Uruguay

Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014

Ingreso (miles de pesos)

Frecuencia

0 20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

0.05

DensidadMediana

I La mediana es 15 mil pesos.I Esto es, ¡la mitad recibe un ingreso inferior a 15 mil pesos!

Page 19: Estadística Descriptiva Clase 16

Estadística Descriptiva

Un viejo truco estadístico

I Fue un poco engorroso calcular el mínimo de la función d .I En estadística existe un truco para hacer que una función se vuelvaderivable.

I Consiste en elevar al cuadrado! y lo veremos más de una vez.I Sea X una variable numérica con valores {x1, . . . , xn}.I Consideremos, en lugar de d , la función

d2(x) =nX

i=1

(x � xi )2.

I ¿Dónde alcanza d2 su mínimo?

x = arg mınx 2R

d2(x)

Page 20: Estadística Descriptiva Clase 16

Estadística DescriptivaBuscamos el mínimo de d2

I Como d2 es derivable, podemos derivar e igualar a cero:

d 02(x) = 2nX

i=1

(x � xi ) = 0.

I Despejando, obtenemos un punto crítico en x = 1n

Pni=1 xi .

I Como d2 es una función cuadrática, alcanza su mínimo en x .

La Media o Promedio

Sea X una variable numérica con valores {x1, . . . , xn}. La media opromedio de X es

x =1n

nX

i=1

xi .

En palabras, la suma sobre la cantidad total datos.

Page 21: Estadística Descriptiva Clase 16

Estadística DescriptivaEl promedio de ingresos en Uruguay

Ingresos por Sueldo o Jornal liquido, Uruguay ECH2014

Ingreso (miles de pesos)

Frecuencia

0 20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

0.05

DensidadMedianaMedia

I El sueldo promedio es de 18 mil pesos.I Los pocos encuestados con ingresos cercanos a $100000 hacen quela media sea mayor a la mediana.

Page 22: Estadística Descriptiva Clase 16

Estadística DescriptivaComparación entre la media y la mediana

Histograma de la poblacion de las ciudades de Uruguay

Poblacion en miles de habitantes

Densidad

0 20 40 60 80 100 120

0.000

0.010

0.020

0.030

I En el histograma no está Montevideo.I La media y la mediana de habitantes de las 62 ciudades máspobladas de Uruguay son

x = 45892 y M = 16490.

Page 23: Estadística Descriptiva Clase 16

Estadística Descriptiva

Comparación entre la media y la mediana

I Si sacamos a Montevideo, quedan

x = 25250 y M = 16240.

I La mediana casi no cambió, pero la media es muy diferente.

A diferencia de la media, la mediana es robusta. Esto quiere decirque es relativamente insensible a datos atípicos.

I La media tiene la ventaja de ser más fácil de manipularmatemáticamente.

I Cuando las muestras de datos son grandes, la media tiene unadistribución bien conocida. Esto lo veremos más adelante.

Page 24: Estadística Descriptiva Clase 16

Estadística Descriptiva

Resumiendo... Medidas de centro

I La moda es la única medida de centro que podemos usarcuando la variable es categórica.

I La mediana es menos sensible a datos atípicos.I La media tiene ventajas teóricas respecto a la mediana.

Page 25: Estadística Descriptiva Clase 16

Estadística Descriptiva

Medidas de dispersión

I Miden la variabilidad de una distribución.I En general, es un número que indica si los diferentes valoresde una variable se alejan de la media.

La Varianza

Sea X una variable cuyos valores son {x1, . . . , xn}. La varianza s2 deX es

s2 =1

n � 1

nX

i=1

(x � x)2,

en donde x es la media de X .

A veces se indica la variable X con un subíndice: s2X .

Page 26: Estadística Descriptiva Clase 16

Estadística Descriptiva

La desviación típica

Sea X una cuyos valores son {x1, . . . , xn}. La desviación típica de Xes

s =

vt1

n � 1

nX

i=1

(x � x)2.

Esto es: la raíz cuadrada de la varianza.

I ¿Por qué n � 1 y no n? La suma de los desvíos di = xi � x es

nX

i=1

di =nX

i=1

xi � x = 0.

Solamente n � 1 de los d2i puede variar libremente.

I Cuando se usa n en lugar de n � 1, se escribe � en lugar de s .

Page 27: Estadística Descriptiva Clase 16

Estadística DescriptivaLa desviación típica de los ingresos en Uruguay

Salario liquido en Uruguay

Salario

Densidad

0 20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

I La desviación típica es s = 13617 pesos.I El 80% de los salarios están en el intervalo

⇥promedio ± desviación típica

Page 28: Estadística Descriptiva Clase 16

Estadística Descriptiva

Desviacion tipica moderada

Valor de la variable

Densidad

-6 -4 -2 0 2 4 6

0.00.1

0.20.3

0.4

Desviacion tipica chica

Valor de la variable

Densidad

-6 -4 -2 0 2 4 6

0.00.2

0.40.6

0.8

Desviacion tipica grande

Valor de la variable

Densidad

-6 -4 -2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

Page 29: Estadística Descriptiva Clase 16

Estadística Descriptiva¿Por qué n � 1 y no n?

Histograma de una cierta variable X

Valores de la variable

Densidad

-2 -1 0 1 2 3

0.00.1

0.20.3

I Supongamos que disponemos de 30 valores de una variable X .I La varianza de X es s2 = 1,02.

Page 30: Estadística Descriptiva Clase 16

Estadística Descriptiva

¿Por qué n � 1 y no n?

I Tomamos todas las muestras posibles de tamaño 5 de X .I Para cada una de esas muestras, calculamos su varianza s2.I ¡El promedio es 1,03!I Si usamos �2, el promedio es 0,82.

Histograma de varianzas

Varianza de la muestra

Densidad

0 1 2 3 4

0.00.1

0.20.3

0.40.5

0.60.7

Page 31: Estadística Descriptiva Clase 16

Estadística Descriptiva

Los Cuartiles

I El primer cuartil Q1 es la mediana de las observacionessituadas a la izquierda de la mediana global.

I El tercer cuartil Q3 es la mediana de las observaciones situadasa la derecha de la mediana global.

I El primer cuartil deja el 25% de los datos a su izquierda y el 75%a su derecha.

I El tercer cuartil deja el 75% de los datos a su izquierda y el 25% asu derecha.

I En el ejemplo de los patos:

25%z }| {0 4 5 5 6 6 8 11 11 15 17

25%z }| {21 25 27 34

Page 32: Estadística Descriptiva Clase 16

Estadística DescriptivaLos Cuartiles

Salario liquido en Uruguay

Salario

Densidad

0 20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

I El primer cuartil es Q1 = 10000 pesos.I El tercer cuartil es Q3 = 24000 pesos.

Page 33: Estadística Descriptiva Clase 16

Estadística Descriptiva

El Rango Intercuartílico.

El Rango Intercuartílico es otra medida de dispersión.

Sea X una variable cuyos valores son {x1, . . . , xn}. Definimos el rangointercuartílico de X como

RIC(X ) = Q3 � Q1.

I En el ejemplo de los ingresos por salario tenemos

RIC(Salarios) = 14000 pesos.

I Al igual que la mediana, el rango intercuartílico es una medidarobusta de la dispersión.

Page 34: Estadística Descriptiva Clase 16

Estadística Descriptiva

Resumen numérico de los datos

Robusta No RobustaMedida de centro Mediana MediaMedida de dispersión Rango Intercuartílico Desviación Típica

Los cinco números resumenI Un resumen rápido del centro y dispersión de los datos.

mın Q1 M Q3 max

I Usar x y s sólo para distribuciones razonablemente simétricas queno presenten datos atípicos.

I El resumen de los ingresos en Uruguay:

mın Q1 M Q3 max100 10000 16000 24000 100000

Page 35: Estadística Descriptiva Clase 16

Diagrama de tallos

Page 36: Estadística Descriptiva Clase 16

Podemos hacer el diagrama de tallos y hojas del Grupo 3. En la izquierda ponemos el primer dígito lo que conforma el tallo, en la derecha van los segundos dígitos.

Page 37: Estadística Descriptiva Clase 16