27
UNIVERSIDAD CATOLICA DEL NORTE Estadística Descriptiva La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones. Sebastián Vega González 23/06/2015

Estadística Descriptiva

Embed Size (px)

DESCRIPTION

Estadística descriptiva básica

Citation preview

Page 1: Estadística Descriptiva

Estadística Descriptiva

La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares

en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la

salud hasta el control de calidad, y es usada para la toma de decisiones.

Sebastián Vega González

23/06/2015

Page 2: Estadística Descriptiva

Introducción

Si bien no hay una definición de estadística exacta, se puede decir  que  la "estadística es el estudio de los métodos y procedimientos para recoger, clasificar, resumir y analizar datos y para hacer inferencias científicas partiendo de tales datos".

Esta definición cubre gran parte de la actividad del científico. Es importante observar que el objeto del que realiza el análisis estadístico son los datos y las observaciones científicas por sí mismos, más que el material químico que interviene en el estudio.

Para poder comprender eficientemente los procesos estadísticos, se realizará un trabajo completo con lo hecho en clases para poner en práctica los conceptos de estadística de tendencia central, estadística de variabilidad, estadística de orden y forma, y graficas profundizando un poco más en cada una de ellas sus conceptos.

Page 3: Estadística Descriptiva

Estadística de tendencia central

Las medidas de tendencia central son valores que se ubican al centro de un conjunto de datos ordenados según su magnitud. Generalmente se utilizan 4 de estos valores también conocidos como estadigrafos, la media aritmética, la mediana, la moda y al rango medio. 

Media aritméticaEs la medida de posición utilizada con más frecuencia. Si se tienen "n" valores de observaciones, la media aritmética es la suma de todos y cada uno de los valores dividido entre el total de valores.

X = es el símbolo de la media aritmética.

X=x1+x2+…+xn

n ; donde x1, x2 y xn son los datos a sumar y n es el número total de

datos.

1) Ejemplo: Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.

X=84+91+72+68+87+786

=80Kg

MedianaEs el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

La mediana se representa por Me.

La mediana se puede hallar sólo para variables cuantitativas.

Calculo de la mediana:

I. Ordenamos los datos de menor a mayorII. Si la serie tiene un número impar de medidas la mediana es la puntuación central

de la misma. 2) Ejemplo: [2, 3 ,4 ,4 ,5 ,5 ,5 ,6 ,6] la Me = 5III. Si la serie tiene un numero par de puntuaciones la mediana es la media entre las

dos puntuaciones centrales. 2.1) Ejemplo: [7, 8, 9, 10, 11, 12] Me = 9.5

Page 4: Estadística Descriptiva

Cálculo de la mediana para datos agrupados:La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas.

Es decir tenemos que buscar el intervalo en el que se encuentre n2

.

M e=Li+

n2−F i−1

f i

∗ai

Li es el límite inferior de la clase donde se encuentra la mediana.

n2

 es la semisuma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase.

La mediana es independiente de las amplitudes de los intervalos.

2.2) Ejemplo: Calcular la mediana de una distribución estadística que viene dada por la siguiente tabla:

1002

=50

Clase de la mediana: [66, 69)

M e=66+50−2342

∗3=67.93

fi Fi

[60, 63) 5 5[63, 66) 18 23[66, 69) 42 65[69, 72) 27 92[72, 75) 8 100

100

Page 5: Estadística Descriptiva

ModaLa moda es el valor que tiene mayor frecuencia absoluta.

Se representa por Mo.

Se puede hallar la moda para variables cualitativas y cuantitativas.

Ejemplo : Hallar la moda de la distribución: [2, 3, 3, 4, 4, 4, 5, 5] Mo = 4

Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.

3) Ejemplo: [1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9] Mo = 1, 5, 9

Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.

3.1) Ejemplo : [2, 2, 3, 3, 6, 6, 9, 9] no hay Mo

Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos puntuaciones adyacentes.

3.2) Ejemplo: [0, 1, 3, 3, 5, 5, 7, 8] Mo = 4

Rango MedioEs la media de las observaciones menor y mayor. como intervienen solamente estas observaciones, si hay valores extremos, se distorsiona como medida de posición, pero ofrece un valor adecuado, rápido y sencillo para resumir al conjunto de datos. 

X es el conjunto de valores numéricos (x1,x2,...,xn)

RangoMedio (x )=min ( x )+max (x)

2

4) Ejemplo: Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min = 3 y el dato de mayor valor Max = 8. El medio rango resolviéndolo mediante la correspondiente fórmula sería:

Rango Medio (3, 3, 5, 6, 8) = 3+82

= 5.5

Representación grafica de rango medio

Page 6: Estadística Descriptiva

Estadística de variabilidad

La estadística de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea será la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Varianza muestral Se puede definir como el "casi promedio" de los cuadrados de las desviaciones de los datos con respecto a la media muestral. Su fórmula matemática para los siguientes datos es:

Datos de una tabla con distribuciones s2=∑i=1

n

¿¿¿

Datos agrupados σ 2=∑i=1

n

¿¿¿

Propiedades de la varianza: Dos propiedades importantes de la varianza son:

I. La varianza de una constante es ceroII. Otra propiedad importante es que si se tiene la varianza s2 de de un conjunto de

datos y a cada observación se multiplica por una constante b , entonces la nueva varianza de los datos se obtiene multiplicando a la varianza de los datos por b2.

5) Ejemplo: Hallar la desviación media y la varianza de la series de números siguientes:

X = [2, 3, 7, 8, 11]

Media:

X=2+3+7+8+115

=6.2

Varianza:

σ 2=(22+32+72+82+112 )

5−6.22=10.96

Page 7: Estadística Descriptiva

Desviación estándarLa desviación típica o desviación estándar (denotada con el símbolo s o σ, dependiendo de la procedencia del conjunto de datos) es una medida de dispersión para variables de razón (variables cuantitativas o cantidades racionales) y de intervalo. Se define como la raíz cuadrada de la varianza de la variable.

s=√∑i=1

n

¿¿¿¿ σ=√∑i=1

n

¿¿¿¿

6) Ejemplo: Del ejemplo 5) calculamos su desviación estándar:

σ=√ (22+32+72+82+112 )5

−6.22=3.31

Media de las desviaciones absolutasLa desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media .

La desviación media se representa por Dx

D x=|x1−X|+|x2−X|+…+¿ xn−X∨¿n

Dx=∑i=1

n

|x i−X|n

¿

7) Ejemplo: Calcular la desviación media de la distribución: X = [9, 3, 8, 8, 9, 8, 9, 18]

X=9+3+8+8+9+8+9+188

=9

D x=|9−9|+|3−9|+¿8−9∨+|8−9|+|9−9|+|8−9|+|9−9|+|18−9|

8=2.25

Page 8: Estadística Descriptiva

Desviación media para datos agrupados:Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:

D x=∑i=1

n

|x i−X|n

f i D x=|x1−X|f 1+|x2−X|f 2+…+¿ xn−X∨f n

n

7.1) Ejemplo: Calcular la desviación media de la distribución:

xi fi xi*fi |x-X | |x-X |∗fi[10, 15) 12.5 3 37.5 9.286 27.858[15, 20) 17.5 5 87.5 4.286 21.43[20, 25) 22.5 7 157.5 0.714 4.998[25, 30) 27.5 4 110 5.714 22.856[30, 35) 32.5 2 65 10.714 21.428

21 457.5 98.57

X=457.521

=21.786 ; DX=98.5721

=4.69

Page 9: Estadística Descriptiva

Rango intercuartilRIQ significa “Rango intercuartil”, y se usa en análisis estadísticos para ayudarnos a sacar conclusiones sobre un conjunto de datos. A menudo se prefiere sobre el rango en la medición de la extensión de una serie de datos porque excluye a la mayoría de los valores atípicos. 

Donde Q3 es el tercer cuartil Y Q1 es el primer cuartil. RIQ=Q3−Q1

8) Ejemplo: Caso Par, X = [4, 7, 9, 11, 12, 20]

I. Organizar los datos en forma ascendenteII. Se encuentra el Punto medio: X = [4, 7, 9,|11, 12, 20].III. Luego la media de las mitades superior e inferior de los datos, excluyendo el punto

medio, si tienes un número impar de datos. X = [4, 7, 9,|11, 12, 20].Mediana de la mitad inferior = 7 (Q1)Mediana de la mitad superior = 12 (Q3)

IV. Por último se remplaza en la ecuación: RIQ=12−7=5

Caso Impar, X = [5, 8, 10, 10, 15, 18, 23]

I. Organizar los datos en forma ascendenteII. Se encuentra el Punto medio: X = [5, 8, 10,|10|,15, 18, 23].III. Luego la media de las mitades superior e inferior de los datos, excluyendo el punto

medio, si tienes un número impar de datos. X = [5, 8, 10,|10|,15, 18, 23].Mediana de la mitad inferior = 8 (Q1)Mediana de la mitad superior = 18 (Q3)

IV. Por último se remplaza en la ecuación:RIQ=18−8=10

Page 10: Estadística Descriptiva

Estadística de orden y forma

CuantilesConstituyen una generalización del concepto de mediana. Así como la mediana divide a la serie estudiada en dos partes con el mismo número de elementos cada una, si la división se hace en cuatro partes, o en diez partes, o en cien partes, llegamos al concepto de cuantil.

Hay, principalmente, tres cuantiles importantes: cuartiles, deciles y percentiles.

Cuartiles:Son tres valores con las siguientes características:

Q1: Primer cuartil, que es el valor de la variable por debajo del cual queda 1/4 de los elementos de la serie estudiada.

Q3: Tercer cuartil, que es el valor de la variable por debajo del cual quedan los 3/4 de los elementos que constituyen la serie.

Q4: Siempre es el ultimo valor de la serie.

Evidentemente el segundo cuartil coincide con la mediana. Como puede comprobarse, no tendría ninguna utilidad definir el cuarto cuartil. El cálculo de los cuartiles se realiza por el mismo procedimiento que el cálculo de la mediana, pues hay únicamente una diferencia cuantitativa entre ambas medidas, pero tienen significados paralelos.

Así, el primer cuartil se hallará aplicando la siguiente fórmula que nos indica la posición del Q1 en la serie de valores:

Q1=n+14

El segundo cuartil es la mediana de la serie (valores numéricos)

El tercer cuartil se hallará aplicando la siguiente fórmula que nos indica la posición del Q3 en la serie de valores:

Q3=3(n+1)4

Para datos agrupados: Qk=Li+

k∗n4

−Fi−1

f i

∗a i

Page 11: Estadística Descriptiva

9) Ejemplo: Para una serie de números impares; X = [2, 3, 4, 5, 6, 7, 9]

Q1=7+14

=2 .̇ . el primer cuartil seria3

Q2=es igual a lamediana eneste caso5

Q3=3(7+1)4

=6 .̇ . el tercer cuartil seria7

9.1) Ejemplo: Para una serie de números pares; X = [1, 2 , 3 , 4 , 5 , 6 , 7 , 9]

Q1=8+14

=2.25

.̇ . como nos da un numero decimal, el cuartil seria el promedio entre el segundo y tercer término (2 y 3) dando 2.5Q2=¿ es igual a la mediana en este caso sería el promedio entre los términos del centro (4 y 5) dando 4.5

Q3=3(8+1)4

=6.75

.̇ . al igual que en Q1 nos dio decimal y el cuartil seria el promedio entre el sexto y séptimo término (6 y 7) dando 6.5Deciles:Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.

Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos

D5 coincide con la mediana.

Calculo de deciles:

En primer lugar buscamos la clase donde se encuentra k∗n10

, k=1 ,2 , .. 9, en la tabla de

las frecuencias acumuladas.

Dk=Li+

k∗n10

−Fi−1

f i

∗a i

Li es el límite inferior de la clase donde se encuentra el decil. N es la suma de las frecuencias absolutas.

Page 12: Estadística Descriptiva

Fi-1 es la frecuencia acumulada anterior a la clase el decil. ai es la amplitud de la clase.

9.2) Ejemplo: Calcular los deciles de la distribución de la tabla:

fi FI

[50, 60) 8 8[60, 70) 10 18[70, 80) 16 34[80, 90) 14 48

[90, 100) 10 58[100, 110) 5 63[110, 120) 2 65

65

Calculo primer decil:

1∗6510

=6.5

D1=50+6.5−08

∗10=58.12

Calculo segundo decil:

2∗6510

=13

D2=60+13−810

∗10=65

Calculo tercer decil:

3∗6510

=19.5

D3=70+19.5−1816

∗10=70.94

Calculo cuarto decil:

4∗6510

=26

D4=70+26−1816

∗10=75

Page 13: Estadística Descriptiva

Calculo quinto decil: (Mediana)

D5=79.06

Calculo sexto decil:

6∗6510

=39

D6=80+39−3414

∗10=83.57

Calculo séptimo decil:

7∗6510

=45.5

D7=80+45.5−3414

∗10=88.21

Calculo octavo decil:

8∗6510

=52

D8=90+52−4810

∗10=94

Calculo noveno decil:

9∗6510

=58.5

D9=100+58.5−58

5∗10=101

Page 14: Estadística Descriptiva

Percentil:Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.

Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.

P50 coincide con la mediana.

P50 coincide con D5.

Calculo de percentiles:

En primer lugar buscamos la clase donde se encuentra k∗n100

, k=1 ,2 , ..99, en la tabla de

las frecuencias acumuladas.

Pk=Li+

k∗n100

−Fi−1

f i

∗a i

Li es el límite inferior de la clase donde se encuentra el percentil. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase del percentil. ai es la amplitud de la clase.

9.3) Ejemplo: Usando la tabla del ejercicio 9.2) calcular el percentil 35 y 60 de la distribución de la tabla:

Percentil 35

35∗65100

=22.75

P35=70+22.75−18

16∗10=72.97

Percentil 60

60∗65100

=39

P60=80+39−3414

∗10=83.57

Page 15: Estadística Descriptiva

SesgoCon frecuencia una distribución no es simétrica alrededor de ningún valor, pero en lugar de ello se tiene que los datos están más aglomerados o distribuidos hacia los extremos. Si hay pocos datos distribuidos hacia el extremo derecho se dice que la distribución es sesgada a la derecha, mientras que si hay pocos datos distribuidos hacia la izquierda , se dice que la distribución es sesgada hacia la izquierda. Las medidas que describen esta asimetría se denominan coeficiente de sesgo, o simplemente sesgo. Una de dichas medidas es:

α k=3( X−M e)

S

Grado de asimetría Valor del sesgoSimetría perfecta Cero. El promedio es igual a la medianaSesgo positivo Positivo. Promedio mayor que la medianaSesgo negativo Negativo. Promedio menos que la mediana

10) Ejemplo: Con los sig. datos X= 7.87; Me= 7.80; S = 1.293.̇ . el sesgo es + 0.16

Page 16: Estadística Descriptiva

Curtosis

Evalúa el grado de apuntamiento de la distribución, el coeficiente Ku=P75−P252(P90−P10)

Grado de apuntamiento Valor de la curtosisMesocúrtica (Distribución normal) 0.263

Leptocúrtica (Elevada) Mayor a 0.263 ó se aproxima a 0.5Platicúrtica (Aplanada) Menor a 0.263 ó se aproxima a 0

11) Ejemplo: Con los sig. datos Q3=8.8; Q2=7.0; P90=9.7y P10=6.1 la curtosis de la distribución es 0.25;.̇ . , la distribución es ligeramente platicúrtica.

Page 17: Estadística Descriptiva

Graficas

Diagrama de CajaUn Diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".

12) Ejemplo: Nos dan esta distribución X = [20, 23, 24, 24, 24, 25, 29, 31, 31, 33, 34, 36, 36, 37, 39, 39, 40, 40, 41, 45]

Calculamos los Cuartiles:

Q1=(20+1) / 4 = 5.25; Q2 = Me = 33.5; Q3=3(20 + 1) / 4 = 15.75 (En la pag 11. sale mas detallado como se hacen estos calculos), tenemos entonces Q1 = 24,5; Q2 = 33.5; Q3 = 39

Luego de esto se dibuja la caja y los bigotes:

El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)La primera parte de la caja a (Q1, Q2),La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx).

Información del diagrama:

Page 18: Estadística Descriptiva

Podemos obtener abundante información de una distribución a partir de estas representaciones. Veamos alguna: 

La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.

El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores.

El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años.

Diagrama de tallos y hojasEl diagrama "tallo y hojas" permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).

Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.

13) Ejemplo: Supongamos la siguiente distribución de frecuencias X = [36, 25, 37, 24, 39, 20, 36, 45, 31, 31, 39, 24, 29, 23, 41, 40, 33, 24, 34, 40]

que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo

Tallos

Hojas

2 0 3 4 4 4 5 93 1 1 3 4 6 6 7 9 94 0 0 1 5

Page 19: Estadística Descriptiva

HistogramasUn histograma es una representación gráfica de una variable en forma de barras.

Se utilizan para variables continuas o para variables discretas, con un gran número de datos, y que se han agrupado en clases.

En el eje abscisas se construyen unos rectángulos que tienen por base la amplitud del intervalo, y por altura, la frecuencia absoluta de cada intervalo.

La superficie de cada barra es proporcional a la frecuencia de los valores

Polígono de frecuencia:Para construir el polígono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectángulo.

Ci fi FI

[50, 60) 55 8 8[60, 70) 65 10 18[70, 80) 75 16 34[80, 90) 85 14 48

[90, 100) 95 10 58[100, 110) 105 5 63[110, 120) 115 2 65

65

Page 20: Estadística Descriptiva

Histogramas y polígono de frecuencias acumuladasSi se representan las frecuencias acumuladas de una tabla de datos agrupados se obtiene el histograma de frecuencias acumuladas o su correspondiente polígono (datos de la imagen usados de la tabla anterior)

Page 21: Estadística Descriptiva

Histogramas con intervalos de amplitud diferentePara construir un histogramas con intervalo de amplitud diferente tenemos que calcular las alturas de los rectángulos del histograma.

hi=f i

ai

hi es la altura del intervalo. fi es la frecuencia del intervalo. ai es la amplitud del intervalo.

En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de 50 alumnos.

fi hi

[0, 5) 15 3[5, 7) 20 10[7, 9) 12 6

[9, 10) 3 350

Page 22: Estadística Descriptiva

Conclusión

La Estadística es una ciencia matemática que se utiliza para describir, analizar e interpretar ciertas características de un conjunto de individuos llamado población. Cuando nos referimos a muestra y población hablamos de conceptos relativos pero estrechamente ligados. Una población es un todo y una muestra es una fracción o segmento de ese todo.

Podemos dividir la estadística en dos ramas; la estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio; y la estadística inferencial, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión.

La estadística trata en primer lugar, de acumular la masa de datos numéricos provenientes de la observación de multitud de fenómenos, procesándolos de forma razonable. Mediante la teoría de la probabilidad analiza y explora la estructura matemática subyacente al fenómeno del que estos datos provienen y, trata de sacar conclusiones y predicciones que ayuden al mejor aprovechamiento del fenómeno.