Grado en Ingeniería.
Asignatura: Estadística.
Tema 1: Estadística Descriptiva.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 2
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 3
Introducción
Fuente Imagen: LA ESTADISTICA EN COMIC de GONICK, LARRY y SMITH, WOOLLCOTT
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 4
Introducción
La siguiente tabla presenta la nota de estadística de 400 personas.7,5 4,5 6,6 7,8 3,7 7,6 4,5 5,8 4,0 5,9
5,1 6,7 2,1 6,9 3,9 5,5 5,7 3,3 6,3 4,2
5,2 5,5 6,3 6,3 6,0 4,5 7,2 1,6 6,2 3,7
6,1 8,3 3,8 5,7 6,7 4,6 5,2 5,6 3,5 4,4
6,6 5,3 6,3 5,8 3,8 6,2 5,4 3,6 7,2 5,3
6,0 2,7 6,8 5,9 5,5 5,0 4,0 4,8 4,5 6,1
3,2 5,5 6,0 4,0 7,3 6,7 3,3 3,2 1,9 9,3
1,6 3,2 4,9 3,2 4,8 4,5 5,7 5,7 4,9 6,0
3,4 5,3 6,6 4,1 4,6 4,2 4,5 6,4 4,0 5,3
3,3 4,6 6,1 5,0 4,3 6,3 4,2 3,7 6,5 6,0
5,9 5,1 3,1 4,5 4,7 3,6 3,2 3,8 5,5 5,8
5,6 3,1 3,7 3,1 6,5 5,2 5,2 7,7 5,1 7,4
7,1 6,4 7,1 5,3 3,1 2,7 6,6 2,1 5,7 3,3
9,2 3,8 5,2 3,2 3,7 3,2 2,1 5,1 5,5 6,0
5,3 4,3 6,1 6,6 8,8 4,1 3,2 4,1 4,4 1,8
4,4 4,4 5,3 2,9 5,6 5,6 6,2 3,6 4,2 8,7
3,9 5,1 4,6 5,9 4,9 3,1 5,6 7,6 5,5 5,9
6,2 3,4 6,8 5,8 3,8 6,4 4,2 7,7 7,3 3,0
4,4 5,7 5,6 4,5 5,0 5,5 3,6 5,8 6,5 4,3
2,9 7,0 5,6 3,6 3,0 5,7 4,8 3,9 4,3 2,7
2,2 6,3 7,0 6,4 2,9 3,5 7,1 3,8 3,2 4,5
5,8 6,0 3,0 7,6 5,7 2,4 5,5 4,3 4,8 5,5
3,1 4,0 4,4 6,4 6,0 5,1 5,2 4,6 5,2 2,5
5,3 2,4 5,3 7,5 5,4 5,0 5,2 4,1 4,0 4,7
4,4 6,1 3,4 3,4 4,9 3,8 6,2 6,5 4,0 5,5
7,4 7,4 7,7 4,2 3,5 9,3 6,7 7,1 2,6 4,7
3,0 2,7 4,3 2,9 3,5 4,8 6,8 4,1 5,3 5,9
6,3 5,4 3,3 7,4 7,4 4,5 6,0 2,8 4,6 1,5
6,3 7,0 4,3 3,6 6,7 3,8 5,5 7,8 4,1 6,5
7,0 5,8 4,8 4,0 8,8 5,7 5,1 5,0 7,5 6,4
5,2 3,3 5,9 5,9 7,1 7,1 4,5 6,5 3,3 4,7
4,7 7,8 7,3 2,3 6,6 4,2 3,7 5,5 5,7 5,4
4,3 4,3 7,1 3,3 4,2 2,5 3,9 6,1 3,7 5,3
5,1 5,5 6,3 6,9 4,3 7,0 7,4 5,7 6,3 3,9
5,1 5,4 5,2 5,2 8,4 4,1 4,9 6,7 6,0 5,3
6,8 3,1 5,1 6,4 5,4 6,0 5,0 6,4 6,3 5,7
3,0 2,7 2,7 4,4 5,3 7,5 6,1 5,1 4,5 6,1
4,1 7,7 4,4 4,4 8,0 1,5 3,9 5,8 7,4 5,9
6,4 5,6 5,9 3,8 5,8 4,2 6,7 4,9 5,6 3,8
5,1 5,6 7,5 4,6 6,9 4,0 3,4 3,7 4,9 4,4
La observación de esta lista de
datos no permite extraer ninguna
información fácilmente, siendo
difícil detectar cualquier patrón de
variabilidad o estructura de los
datos.
La Estadística Descriptiva
proporciona las herramientas
para resumir, analizar y sacar
conclusiones de un conjunto de
datos.
La Estadística Descriptiva utiliza,
tablas, gráficos y resúmenes
numéricos.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 5
Introducción
22 0 14 27 31 78 8 12 70 24
13 53 17 71 2 23 69 55 35 8
50 72 1 12 48 59 4 42 4 24
25 52 1 81 70 78 51 2 39 58
15 30 45 30 66 77 42 65 1 78
48 34 59 72 1 38 78 2 30 30
57 59 8 77 78 19 55 38 14 39
49 2 32 42 80 4 15 12 60 80
38 6 61 18 19 55 56 75 75 32
69 70 50 52 56 77 43 56 9 27
64 15 13 37 23 36 76 7 33 1
41 62 5 77 80 63 14 75 0 50
39 0 35 18 14 18 21 62 35 13
44 56 8 66 8 64 56 36 6 26
4 81 39 63 73 10 46 70 16 59
1 59 35 29 36 17 73 26 74 79
22 26 78 79 3 20 44 22 38 64
52 29 27 22 60 81 40 77 31 5
78 17 14 63 51 18 46 5 62 43
4 46 17 18 19 40 45 10 72 27
14 36 71 13 33 50 52 46 60 64
24 37 82 24 77 31 18 28 48 18
60 79 7 60 50 11 62 53 35 74
17 3 49 12 57 56 56 63 34 43
31 19 51 68 11 53 60 43 17 55
80 64 58 52 12 48 45 8 81 3
19 5 15 70 79 20 7 47 42 82
6 70 29 0 0 61 37 77 51 64
43 80 46 67 79 52 67 62 46 59
29 80 23 42 69 6 41 60 30 3
56 28 56 21 82 12 56 11 25 12
29 65 54 44 19 33 13 76 10 21
61 70 18 22 44 56 1 9 26 69
9 20 43 72 18 20 53 45 23 31
9 59 14 48 30 46 66 82 28 58
37 32 38 17 75 71 76 45 65 46
21 81 20 70 74 36 0 73 26 24
28 67 81 52 82 68 74 6 18 0
48 29 52 16 44 12 16 44 74 24
Edades
Años
Fre
cuencia
26 36 46 56 66
0
30
60
90
120
150
Summary Statistics for Edades
Count = 400
Average = 41,51
Median = 42,0
Variance = 17,9698
Standard deviation = 4,23908
Minimum = 28,0
Maximum = 57,0
Range = 29,0
Lower quartile = 39,0
Upper quartile = 44,0
Interquartile range = 5,0
Skewness = 0,137057
Kurtosis = 0,181614
Frequency Tabulation for Edades
--------------------------------------------------------------------------------
Lower Upper Relative Cumulative Cum. Rel.
Class Limit Limit Midpoint Frequency Frequency Frequency Frequency
--------------------------------------------------------------------------------
at or below 0,0 0 0,0000 0 0,0000
1 0,0 10,0 5,0 0 0,0000 0 0,0000
2 10,0 20,0 15,0 0 0,0000 0 0,0000
3 20,0 30,0 25,0 1 0,0025 1 0,0025
4 30,0 40,0 35,0 158 0,3950 159 0,3975
5 40,0 50,0 45,0 233 0,5825 392 0,9800
6 50,0 60,0 55,0 8 0,0200 400 1,0000
7 60,0 70,0 65,0 0 0,0000 400 1,0000
8 70,0 80,0 75,0 0 0,0000 400 1,0000
9 80,0 90,0 85,0 0 0,0000 400 1,0000
10 90,0 100,0 95,0 0 0,0000 400 1,0000
above 100,0 0 0,0000 400 1,0000
--------------------------------------------------------------------------------
Mean = 41,51 Standard deviation = 4,23908
Resumen numérico
La Estadística Descriptiva utiliza, tablas, gráficos y resúmenes
numéricos.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 6
Software
Numeroso software a tu disposición para realizarlo de una forma
sencilla: Statgraphics, SPSS, R, SAS,...
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 7
Algunas Definiciones
A la hora de realizar cualquier estudio estadístico, hay que tener en cuenta:
Población: es el conjunto de individuos (personas, animales o cosas) sobre el cual estamos interesados en sacar conclusiones. Normalmente este conjunto es demasiado grande para poder abarcarlo.
Muestra: es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones.
Variable: es la característica observable que varía entre los individuos de la población:
Tiempo de vida de las piezas.
Número de piezas fabricadas en un día.
Calidad de las piezas (buena, regular, mala)
Datos: valores observados de la variable.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 8
Tipos de datos
Podemos clasificar las variables como:
Cualitativas. Si sus valores no son números.
Cuantitativas. Sus valores son numéricos (tiene sentido hacer
operaciones algebraicas con ellos):
Transversales: Tomadas en el mismo instante de tiempo o en tiempos
equivalentes.
Temporales: Evolución de una variable a lo largo del tiempo.
Necesitamos conocer el tipo de variable para poder
utilizar la herramienta estadística adecuada.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 9
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico.
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 10
Tabla de frecuencias: Variables cualitativas
Se pregunta a 1000 clientes de un hotel sobre su grado de satisfacción.
Bastante satisfecho Muy Satifecho Bastante satisfecho Bastante satisfecho
Bastante satisfecho Bastante satisfecho Medianamente satisfecho Bastante satisfecho
Bastante satisfecho Medianamente satisfecho Medianamente satisfecho Bastante satisfecho
Muy Satifecho Bastante satisfecho Medianamente satisfecho Bastante satisfecho
Bastante satisfecho Muy Satifecho Muy Satifecho Muy Satifecho
Muy Satifecho Descontento Bastante satisfecho Bastante satisfecho
Medianamente satisfecho Descontento Bastante satisfecho Medianamente satisfecho
Bastante satisfecho Bastante satisfecho Descontento Bastante satisfecho
Bastante satisfecho Bastante satisfecho Muy Satifecho Bastante satisfecho
Medianamente satisfecho Bastante satisfecho Bastante satisfecho Bastante satisfecho
Bastante satisfecho Descontento Descontento Descontento
Bastante satisfecho Muy Satifecho Medianamente satisfecho Bastante satisfecho
Bastante satisfecho Bastante satisfecho Descontento Bastante satisfecho
Muy Satifecho Descontento Muy Satifecho Descontento
Bastante satisfecho Bastante satisfecho Descontento Muy Satifecho
Bastante satisfecho Bastante satisfecho Bastante satisfecho Bastante satisfecho
Bastante satisfecho Muy Satifecho Muy Satifecho Bastante satisfecho
Descontento Medianamente satisfecho Bastante satisfecho Bastante satisfecho
Bastante satisfecho Bastante satisfecho Medianamente satisfecho Muy Satifecho
Bastante satisfecho Bastante satisfecho Bastante satisfecho Muy Satifecho
Bastante satisfecho Bastante satisfecho Muy Satifecho Bastante satisfecho
Muy Satifecho Bastante satisfecho Medianamente satisfecho Muy Satifecho
Bastante satisfecho Medianamente satisfecho Descontento Bastante satisfecho
Bastante satisfecho Medianamente satisfecho Medianamente satisfecho Bastante satisfecho
Bastante satisfecho Medianamente satisfecho Bastante satisfecho Medianamente satisfecho
…. …. …. ….
Satisfacción
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 11
Variables Cualitativas. Tabla de frecuencias
Los valores que puede tomar la variable son denominados clases.
La tabla de frecuencia asocia a cada clase o valor de la variable
su:
Frecuencia absoluta. Número de individuos en la clase.
Frecuencia relativa. Es la proporción de individuos que
pertenecen a cada clase sobre el total de la muestra.
¿Cuántos individuos están descontentos?
¿Cuál es la clase más observada?
Frequency Table for Satisfaccion
------------------------------------------------------------------------------------------------
Relative Cumulative Cum. Rel.
Value Frequency Frequency Frequency Frequency
------------------------------------------------------------------------------------------------
Descontento 120 0,1200 120 0,1200
Medianamente contento 160 0,1600 280 0,2800
Bastante contento 540 0,5400 820 0,8200
Muy contento 180 0,1800 1000 1,0000
-------------------------------------------------------------------------------------------------
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 12
Tabla de frecuencias. Variables cualitativas
Supongamos que se observa el retraso en destino de 219 autobuses,
medido en minutos.
4,71 6,42 3,45 5,55 14,06 14,5 15,3 14,12 8,83
4,76 5,48 1,95 3,53 13,68 11,52 20,98 9,07 9,25
5,08 1,96 5,12 5,08 13,16 11,76 14,84 14,68 9
3,42 6,06 5,53 5,64 16,27 19,25 13,12 12,74 8,62
1,38 2,33 3,68 3,18 12,57 15,77 14,22 15,71 8,49
3,53 6,81 5,41 6,32 14,87 13,35 14,57 15,54 8,52
6,8 6,24 4,12 4,49 14,45 14,81 15,43 11,25 8,66
6,17 4,26 6,92 3,05 18,05 19,31 13,72 13,46 9,05
5 3,55 5,26 2,48 12,14 15,61 16,91 12 8,66
5,21 4,81 3,19 4,43 18,58 13,65 12,67 10,71 8,63
4,54 6,07 6,54 4,31 13,57 14,3 16,87 16,09 8,7
4,9 4,77 4,23 3,6 17,82 14,23 17,35 15,41 9,16
5,36 2,84 5,41 6,69 17,13 12,84 18,4 15,95 9,45
6,58 4,89 4,83 8,04 15,66 14,84 20,37 15,97 8,68
6,83 4,68 6,1 2,84 18,2 15,06 14,32 16,62 8,92
5,98 5,27 4,19 4,95 16,55 12,61 14,07 14,66 9,07
4,7 5,41 5,98 4,94 14,57 13,1 20,22 14,8 8,39
4,34 6,97 4,38 1,04 14,15 14,53 22,4 15,09 8,54
4,14 4,16 6,05 5,17 18,5 10,6 14,73 19,04 8,99
4,74 6,05 6,49 1,95 15,02 12,69 13,39 11,55
4,4 5,9 5,26 1,99 15,04 14,55 13,33 15,4
5,83 8,08 4,58 4,69 21,32 11,73 22,1 9,46
1,86 3,55 4,24 3,37 13,85 14,72 17,22 16,02
3,08 5,93 6,27 5,86 11,84 20,86 20,26 8,07
4,94 6,21 3,4 6,65 17,14 13,63 19,03 16,69
Retraso autobuses
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 13
Variables cuantitativas. Tabla de frecuencia
Clases
Marca de
clase
Frecuencia
Absoluta
Frecuencia
Relativa
Frec. Acum.
Absoluta
Frec. Acum.
Relativa
(0,4] 2 25 0,1142 25 0,1142
(4,8] 6 73 0,3333 98 0,4475
(8,12] 10 33 0,1507 131 0,5982
(12,16] 14 58 0,2648 189 0,863
(16,20] 18 22 0,1005 211 0,9635
(20,24] 22 8 0,0365 219 1
219 1
Dividimos el recorrido (valor máximo-valor mínimo) en
clases.
A cada clase le asociamos frecuencia absoluta y frecuencia
relativa.
También el orden lógico de las clases permite definir la
frecuencia acumulada absoluta y frecuencia acumulada
relativa.
Retrasos
4,71
4,76
5,08
3,42
1,38
3,53
6,8
6,17
5
5,21
4,54
4,9
5,36
6,58
6,83
5,98
4,7
4,34
4,14
4,74
4,4
5,83
1,86
3,08
4,94
….
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 14
¿Cuántos autobuses se retrasan menos de 8 minutos?
Clases
Marca de
clase
Frecuencia
Absoluta
Frecuencia
Relativa
Frec. Acum.
Absoluta
Frec. Acum.
Relativa
(0,4] 2 25 0,1142 25 0,1142
(4,8] 6 73 0,3333 98 0,4475
(8,12] 10 33 0,1507 131 0,5982
(12,16] 14 58 0,2648 189 0,863
(16,20] 18 22 0,1005 211 0,9635
(20,24] 22 8 0,0365 219 1
219 1
Variables cuantitativas. Tabla de frecuencia
Clases
Marca de
clase
Frecuencia
Absoluta
Frecuencia
Relativa
Frec. Acum.
Absoluta
Frec. Acum.
Relativa
(0,4] 2 25 0,1142 25 0,1142
(4,8] 6 73 0,3333 98 0,4475
(8,12] 10 33 0,1507 131 0,5982
(12,16] 14 58 0,2648 189 0,863
(16,20] 18 22 0,1005 211 0,9635
(20,24] 22 8 0,0365 219 1
219 1
Retrasos
4,71
4,76
5,08
3,42
1,38
3,53
6,8
6,17
5
5,21
4,54
4,9
5,36
6,58
6,83
5,98
4,7
4,34
4,14
4,74
4,4
5,83
1,86
3,08
4,94
….
¿Qué porcentaje de autobuses se retrasa menos de 12
minutos?
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 15
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico
Medidas de forma: coeficiente asimetría y coeficiente de curtosis
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 16
La idea de la representación gráfica de un conjunto de datos es
representar frecuencias mediante áreas:
Diagramas de pastel Diagrama de barras
Diagrama de pastel y diagrama de barras
Si la base de los rectángulos tiene la misma longitud, solo
nos tenemos que preocupar de que la altura sea
proporcional a la frecuencia
Frequency Table for Satisfaccion
------------------------------------------------------------------------------------------------
Relative Cumulative Cum. Rel.
Value Frequency Frequency Frequency Frequency
------------------------------------------------------------------------------------------------
Descontento 120 0,1200 120 0,1200
Medianamente contento 160 0,1600 280 0,2800
Bastante contento 540 0,5400 820 0,8200
Muy contento 180 0,1800 1000 1,0000
-------------------------------------------------------------------------------------------------
Barchart for Satisfaccion
perc
en
tag
e
0
10
20
30
40
50
60
Descontento Moderadam ente cont. Bastente cont. Muy contento
Piechart for Satisfaccion
Satis faccion
Descontento
Moderadam ente contento
Bastante contento
Muy contento
12,00%
16,00%
54,00%
18,00%
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 17
Análisis gráficos. Variables cualitativas
Encuesta en EE.UU. sobre preferencias de la revista semanal.
Frec. Abs Frec. Relativa
Time 1.056 0,51
NewSweek 642 0,31
U.S. News 373 0,18
2.071
0
200
400
600
800
1000
1200
frequen
cy
1 2 3
373
642
1056
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 18
Diagrama de Pareto
Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las causas que los generan.
Su fundamento parte de considerar que un pequeño porcentaje de las causas producen la mayoría de los efectos. Se trataría, pues, de identificar ese pequeño porcentaje de causas “vitales” para actuar prioritariamente sobre él.
Un fabricante de
envases de plástico
desea analizar cuáles
son las causas que
generan los envases
defectuosos que se
producen. Observa 248
envases defectuosos
obteniendo
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 19
Histograma. La idea es representar frecuencias mediante áreas. A
cada clase le asociamos un rectángulo cuya área sea
proporcional a la frecuencia. Podemos usar frecuencias o
frecuencias acumuladas.
Análisis gráficos. Variables cuantitativasHistograma
Histograma
Minutos
Fre
cuen
cia
0 4 8 12 16 20 24
0
20
40
60
80
Histograma
Minutos
Fre
cuencia
0 4 8 12 16 20 24
0
20
40
60
80
Histograma
Minutos
Fre
cuencia
0 4 8 12 16 20 24
0
40
80
120
160
200
240
Histograma
Minutos
Fre
cuencia
0 4 8 12 16 20 24
0
40
80
120
160
200
240
Retrasos
4,71
4,76
5,08
3,42
1,38
3,53
6,8
6,17
5
5,21
4,54
4,9
5,36
6,58
6,83
5,98
4,7
4,34
4,14
4,74
4,4
5,83
1,86
3,08
4,94
….
Clases
Marca de
clase
Frecuencia
Absoluta
Frecuencia
Relativa
Frec. Acum.
Absoluta
Frec. Acum.
Relativa
(0,4] 2 25 0,1142 25 0,1142
(4,8] 6 73 0,3333 98 0,4475
(8,12] 10 33 0,1507 131 0,5982
(12,16] 14 58 0,2648 189 0,863
(16,20] 18 22 0,1005 211 0,9635
(20,24] 22 8 0,0365 219 1
219 1
Polígono de frecuencias. Se unen los vértices superiores de los
rectángulos del histograma mediante líneas.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 20
resistencia
frecuencia
0 4 8 12 16 20 24
0
100
200
300
400
Interpretación histogramas
altura
frecuencia
160 163 166 169 172 175
0
10
20
30
40
50
población
frecuencia
0 300 600 900 1200 1500
0
30
60
90
120
150
simétrico Bimodal
Asimétrico Con datos atípicos
Histograma
Minutos
Frecu
encia
0 4 8 12 16 20 24
0
20
40
60
80
Interpretación de histogramas. ¿Cuál es la distribución de los datos?
¿Forma; simétrico, asimétrico?, ¿modas?, ¿hay datos atípicos?,…
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 21
Histograma bimodal
Distribución bimodal.
El motivo por el cual aparece una distribución multimodal (bimodal,
trimodal,…) suele se porque se están mezclando datos de diferentes
poblaciones
Ejemplo: retraso de los autobuses, se están mezclando autobuses de
corto y largo recorrido. Para comprender mejor el fenómeno conviene
separar los datos y estudiarlos por separado.
Histograma
Minutos
Fre
cuen
cia
0 4 8 12 16 20 24
0
20
40
60
80
Histograma retraso - corto recorrido
retraso
frequency
0 2 4 6 8 10 12 14 16 18 20 22 24
0
5
10
15
20
25
30
Histograma retraso - largo recorrido
retraso
frequency
0 3 6 9 12 15 18 21 24
0
10
20
30
40
Autobuses de corto
recorrido
Autobuses de largo
recorrido
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 22
resistencia
frecuencia
0 4 8 12 16 20 24
0
100
200
300
400
Datos atípicos
Los datos atípicos en ocasiones son de gran importancia, pues pueden
aportar mucha información sobre el fenómeno estudiado.
Supongamos que el diagrama de caja representa la duración de un tipo
de bombillas. El dato atípico, si comprobamos que no se trata de un error
de medida o de trascripción de los datos, representa la
SUPERBOMBILLA.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 23
Análisis gráficos. Variables cuantitativasDiagrama de caja (Box Plot)
Se define el Rango
Intercuartílico: RI = Q3-Q1
Los cuartiles son tres valores que dividen el conjunto de datos en cuatro
grupos con el mismo número de individuos.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 24
Análisis gráficos. Diagrama de caja
Realizamos 20 mediciones del caudal de agua que pasa por una tubería en
una central térmica (media = 2.52; mediana =2.5; cuartil inferior =2.25; cuartil superior=2.6).
Pasos para realizar el diagrama de caja:1. Se representa con líneas verticales los cuartiles. Se cierra la caja.
2. A una distancia de 1.5 veces el RI desde el cuartil inferior y superior se representa con una línea
vertical discontinua la barrera interior.
3. A una distancia de 3 veces el RI desde el cuartil inferior y superior se representa con una línea
vertical discontinua la barrera interior.
4. Se representan los bigotes de la caja, que llegarán hasta el último dato dentro de la barrera
interior.
5. Los datos que quedan fuera de las barreras son datos atípicos, se representan mediante
estrellas.
Caudal
2,2
2,5
2,6
2,2
2,3
2,6
2,7
2,8
2,3
2,4
2,5
2,4
2,5
2,6
2,2
2,1
2,9
3,9
2,2
2,5
2 3 4
RI1.5 RI1.5 RI 1.5 RI1.5 RI
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 25
Diagrama de caja e histograma
Histograma - Caudal
freq
uen
cy
2 2,4 2,8 3,2 3,6 4
0
1
2
3
4
5
6
Diagrama de caja - caudal
2,1 2,4 2,7 3 3,3 3,6 3,9
Caudal
2,2
2,5
2,6
2,2
2,3
2,6
2,7
2,8
2,3
2,4
2,5
2,4
2,5
2,6
2,2
2,1
2,9
3,9
2,2
2,5
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 26
Interpretación diagrama de caja
Diagrama de caja, ingresos
ITOTAL
0 2 4 6 8(X 100000)
Diagrama de caja, ahorro
AHRR
0 0.4 0.8 1.2 1.6 2(X 100000)
Diagrama de caja, extensión
Col_4
0 3 6 9 12 15 18(X 1000)
Diagrama de caja, notas
Col_4
0 0.2 0.4 0.6 0.8 1(X 1000)
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 27
Análisis gráfico de series temporales
Datos de evolución de variables en el tiempo:
Periodicidad: frecuencia de recogida de datos (anual, mensual,…).
Tendencia: si aumenta o disminuye con el tiempo.
Variabilidad - volatilidad: su variación (grosor).
Ciclo estacional: se observa un ciclo ligado al momento del año en que
se ha recogido el dato.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 28
Interpretación series temporales
Periodicidad mensual – Ciclo estacional
Periodicidad mensual -Tendencia – Ciclo estacional
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 29
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico.
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 30
Medidas analíticas. Variables cuantitativas
Parámetro: es un cantidad numérica calculada sobre la población.
La idea es resumir la información que hay en la población en unos
pocos números (parámetros).
La media de las bombillas de 60 W.
La mediana de los niños de 3 meses.
Estadístico: es una cantidad numérica calculada sobre la muestra.
La vida media de las bombillas de 60 W de mi casa.
La mediana de los niños de 3 meses observados en un estudio clínico.
Normalmente, nos interesa conocer un parámetro, pero por la
dificultad que conlleva estudiar TODA la población, calculamos
un estimador sobre la muestra y “confiamos” en que sean
próximos.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 31
Medidas analíticas
Medidas de centralización.
Indican valores respecto a los que los datos parecen agruparse: media,
mediana.
Medidas de dispersión.
Indican la mayor o menor concentración de los datos con respecto a las
medidas de centralización: varianza, desviación típica, rango
intercuartílico.
Medidas de forma.
Indican la forma de la distribución de los datos:
Medidas de asimetría: coeficiente de asimetría.
Medidas de apuntamiento: coeficiente de apuntamiento o curtosis.
Cuartiles, Percentiles.
Dividen un conjunto ordenado de datos en grupos con la misma cantidad
de individuos: cuartiles, percentiles,…
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 32
Medidas de centralización
Proporcionan un valor simple y representativo, que resume un gran
volumen de información.
Media: es la media aritmética de los valores de una variable.
Mediana: es un valor que divide a los datos en dos grupos con el
mismo número de individuos.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 33
La media
Interpretación: la media es el centro de gravedad de la distribución de los datos.
Cálculo:
86.9219
...76.471.41
n
x
X
n
i
i
4,71 5,21 4,14
4,76 4,54 4,74
5,08 4,9 4,4
3,42 5,36 5,83
1,38 6,58 1,86
3,53 6,83 …
Retrasos
Histograma
Minutos
Fre
cuen
cia
0 4 8 12 16 20 24
0
20
40
60
80
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 34
La mediana
Divide el conjunto de datos en dos con el mismo número de datos.
Una vez ordenados los datos de mayor a
menor:
Si n es impar. Dato que ocupa el lugar
central.
Si n es par. Es la media de los datos
centrales .
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 35
Media ponderada
En un hotel se pregunta a los clientes por su valoración de : Limpieza
de la habitación, Rapidez en los trámites de la entrada, Iluminación
del Bar.
Valoración media:
Satisfacción media:
Hotel 1= 6.
Hotel 2= 6.
Variable – atributo de
calidad
Valor medio- Hotel 1 Valor Medio – Hotel 2
Limpieza habitación 3 8
Rapidez tramites entrada 5 7
Iluminación Bar 10 3
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 36
Media ponderada
Si pensáramos que la importancia es:
Limpieza habitación: 50%.
Recepción: 40%.
Iluminación del Bar:10%.
La media de la satisfacción ponderada por la importancia es:
Hotel 1: 0.5 x 3 + 0.4 x 5 + 0.1 x 10 = 4.5.
Hotel 2: 0.5 x 8 + 0.4 x 7 + 0.1 x 3 = 7.1.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 37
Medidas de dispersión
Supongamos dos grupos de alumnos, cuyas notas son:
1º grupo: 5,5,5,5,5,5.
2º grupo: 2,2,2,8,8,8.
Los dos grupos tienen la misma media, pero parece evidente que los grupos
son muy distintos.
Conviene acompañar la medida de centralización con otros
valores que aporten más información sobre el conjunto de datos:
medidas de dispersión y medidas de forma.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 38
-8 -4 0 4 8
0
100
200
300
400
500
600
Medidas de dispersión
Para cada medida de centralización se define una medida de dispersión,
que indica lo agrupado que están los datos entorno a la medida de
centralización.
Acompañando a la media definimos la varianza o la desviación típica o el
coeficiente de variación.
Acompañando a la mediana definimos el rango intercuartílico.
-8 -4 0 4 8
0
50
100
150
200
250
300
0.89S ; 0 2 X
2.4S ; 0 2 X
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 39
Miden la “dispersión” de los datos respecto de la media.
Varianza (S2): mide el promedio de las desviaciones (al cuadrado) de las
observaciones respecto de la media.
Desviación típica (S): es la raíz cuadrada de la varianza.
Coeficiente de variación (CV):
Datos no agrupados
Medidas de dispersión: asociadas a la media
2
1
2
1
22 1)(
1xx
nxx
nS
n
i
i
n
i
i
Datos agrupados
I
i
ii xxfS1
22 )(
2SS
x
SCV
Es muy sensible
a datos atípicos.
Es una medida
adimensional.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 40
Medidas de dispersión: asociadas a la media
Ejemplo
La siguiente tabla contiene la altura y el peso de 13 individuos.
altura Peso
150 56
162 65
159 48
185 79
156 61
186 80
175 76
156 50
180 85
162 65
165 63
163 59
167 74
Altura
Peso
2222222cm 7.1316.166167...150
13
1)6.166167(...)6.166150(
13
1
cm 6.166)167...162150(13
1
A
A
S
x
2222222Kg 8.1372.6674...56
13
1)2.6674(...)2.6656(
13
1
Kg 2.66)74...6556(13
1
P
P
S
x
17.0
06.0
P
A
CV
CV
¿Qué conjunto está más disperso en torno a la media?
No podemos comparar las varianzas puesto que están dadas en
unidades distintas. Por ello necesitamos una medida adimensional:
el coeficiente de variación.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 41
Medidas de dispersión asociadas a la mediana
Rango Intercuartílico (RI): la diferencia entre el cuartil superior y el cuartil
inferior.
RI=Q3-Q1
Box-and-Whisker Plot
8 11 14 17 20 23
retraso
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 42
Medidas de forma – coeficiente de simetría
-5 -3 -1 1 3 5
0
0,1
0,2
0,3
0,4
0 4 8 12 16 20 24
0
0,04
0,08
0,12
0,16
0 0,2 0,4 0,6 0,8 1
0
1
2
3
4
Coeficiente de asimetría
3
3)(
Sn
xxCA
i
CA=0 CA>0CA<0
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 43
Medidas de forma – coeficiente de apuntamiento
C. Ap = 0
C. Ap < 0
C. Ap > 0
x
-10 -6 -2 2 6 10
0
0,2
0,4
0,6
0,8
Coeficiente de Apuntamiento o curtosis
3)(
4
4
Sn
xxCAp
i
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 44
Robustez
¿Qué medida de centralización representa mejor los datos: la media o la
mediana?
Cuando la distribución de los datos es simétrica, la media y la mediana
coinciden.
Cuando la distribución de los datos es asimétrica, la media tiende a
desplazarse hacia los datos extremos de las colas. No representa
adecuadamente el conjunto de datos.
x
-5 -3 -1 1 3 5
0
0,1
0,2
0,3
0,4
0 4 8 12 16 20 24
0
0,04
0,08
0,12
0,16
0 0,2 0,4 0,6 0,8 1
0
1
2
3
4
mexxx me
me
En caso de distribuciones asimétricas, la mediana
representa mejor el conjunto de datos.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 45
Summary Statistics for Ingresos - con director
Count = 101
Average = 20049,8
Median = 17785,9
Variance = 5,34949E8
Standard deviation = 23129,0
Minimum = 15287,9
Maximum = 250000,0
Range = 234712,0
Lower quartile = 17132,6
Upper quartile = 18396,2
Interquartile range = 1263,6
Robustez
A continuación se observan el histograma y diagrama de caja de los ingresos anuales de
1000 individuos que trabajan en la cadena de producción de una organización.
Supongamos que introducimos un dato más: los ingresos del director general de la
compañía (250000€).
1 5 1 6 1 7 1 8 1 9 2 0 2 1(X 1 0 0 0 )
0
1 0
2 0
3 0
4 0
frequ
enc
y
Summary Statistics par ingresos
Count = 100
Average = 17750,3
Median = 17773,1
Variance = 899548,0
Standard deviation = 948,445
Minimum = 15287,9
Maximum = 20634,1
Range = 5346,2
Lower quartile = 17130,1
Upper quartile = 18377,7
Interquartile range = 1247,6
Box-and-Whisker Plot
RAND1
15 16 17 18 19 20 21(X 1000)
frequ
ency
0 0,4 0,8 1,2 1,6 2(X 100000)
0
20
40
60
80
100 Box-and-Whisker Plot
0 5 10 15 20 25(X 10 000 )
La mediana no ha variado. La media se ha visto muy
influenciada, pasando a ser un valor poco significativo
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 46
Robustez
La media representa adecuadamente el conjunto de datos
cuando la distribución es homogénea
(simétrica y sin datos atípicos).
-5 -3 -1 1 3 5
0
0,1
0,2
0,3
0,4
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 47
Percentil
Percentil de orden X, se define como el valor que divide un conjunto ordenado de datos estadísticos de forma que el porcentaje de tales datos inferior a dicho valor es del X%.
Ejemplo: En el caso de
los bebés, el percentil se
utiliza para hacer una
valoración del
crecimiento del recién
nacido.
Cuando nos dicen que
nuestro hijo está en el
percentil 25 del peso
significa que, de cada
100 bebés, 75 pesan
más que nuestro hijo.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 48
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.Tabla de frecuencias.
Análisis gráficos.Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico.
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 49
Transformaciones
En algunas ocasiones, es útil transformar los datos o expresarlos
en otras unidades:
Transformaciones lineales: Y=a+bX.
Transformaciones no lineales:
Y=Log X.
Y=Xa .
…
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 50
Transformaciones lineales
Y= a + b X
Box-and-Whisker Plot
700 1100 1500 1900 2300
Box-and-Whisker Plot
1300 1800 2300 2800 3300 3800 4300
CelsiusFahrenheit= 32 + 1.8*Celsius
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 51
Transformaciones lineales
La transformación lineal más importante es la tipificación:
Expresa el número de desviaciones que cada dato dista de la media.
Es útil para comparar individuos de poblaciones diferentes, por ejemplo:
Se observa un perro que pesa 18 kgs. Y un gato que pesa 5. ¿Cuál pesa
más dentro de los de su especie? Los perros en media pesan 15 kgs, con
una desviación típica de 3 kgs, y los gatos pesan en media 3 kilos, con
una desviación típica de 0.5 kilos.
X
ii
s
xxy
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 52
Transformaciones no lineales
Dentro de las transformaciones no lineales, destacan las
transformaciones utilizadas para conseguir simetría.
Y = log X ó Y=Xa.
0 4 8 12 16 20 24
0
10
20
30
40
freq
uen
cy
freq
uen
cy
1,1 1,5 1,9 2,3 2,7 3,1 3,5
0
5
10
15
20
25
30
Y = log X X
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 53
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico.
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 54
Diagrama de dispersión
Velocidad_viento
energia
0 2 4 6 8 10 12
0
0,4
0,8
1,2
1,6
2
2,4
La representación gráfica más útil para dos variables continuas es el
diagrama de dispersión.
Se representa cada individuo mediante un punto en el plano cartesiano.
Ejemplo: se quiere estudiar la relación entre la velocidad del viento y la
energía producida por una central eólica.
Velocidad Energia
5 1,582
6 1,822
3,4 1,057
2,7 0,5
10 2,236
9,7 2,386
9,55 2,294
3,05 0,558
8,15 2,16
6,2 1,866
2,9 0,653
6,35 1,93
4,6 1,562
5,8 1,737
7,4 2,088
3,6 1,137
7,85 2,179
8,8 2,112
7 1,8
5,45 1,501
9,1 2,303
10,2 2,31
4,1 1,194
3,95 1,144
2,45 0,123
Velocidad = 2.7
Energía = 0.5
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 55
Diagrama de dispersión
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 56
Medidas de dependencia lineal
Las medidas más utilizadas para cuantificar el grado y el sentido de la
dependencia lineal son:
Covarianza.
Correlación.
Covarianza:
Correlación:
n
i
iiXY yyxxn
S1
))((1
YY
XYXY
SS
Sr
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 57
Correlación
Propiedades de la correlación:
-1≤ rxy ≤1.
Se dice que las variables son incorreladas si rxy=0.
Si existe relación lineal perfecta (Y=a+bX): rxy=1 (si b>0) o rxy=-1 (si b<0).
Cuanto más cerca esté rxy de 1 ó -1, mayor será el grado de relación lineal.
Observación: rxy=0 no implica independencia.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 58
Correlación
Correlation Coefficient = -0,889122 Correlation Coefficient = 0,994278
Correlation Coefficient = 0,340985 Correlation Coefficient = 0,0417867
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 59
Diagrama de dispersión múltipleCuando tenemos muchas variables es latoso realizar todos los diagramas de dispersión necesarios para ver la relación entre cada par de variables. Los gráficos de dispersión múltiple hacen de golpe todos los gráficos.
Ejemplo: gráfico de dispersión múltiple de 7 variables observadas en países del mundo.
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 60
Estudio conjunto: cualitativa / cuantitativa
Se realiza el análisis de la
variable cuantitativa en cada una
de las poblaciones definidas por
la variable cuantitativa. Y se
comparan ambos análisis.
El grafico más útil para realizar
este análisis es el diagrama de
caja múltiple.
Ejemplo: en 1000 amortiguadores
se observa:
la resistencia,
el proveedor.
Box-and-Whisker Plot
21 23 25 27 29
resistencia
Tipo_a mortigua dor= 0
Tipo_a mortigua dor= 1
Summary Statistics for resistencia
Tipo_amortiguador=0 Tipo_amortiguador=1
------------------------------------------------------------
Count 497 503
Average 24,9763 24,9461
Median 24,9626 24,9081
Variance 0,988781 1,02343
Standard deviation 0,994375 1,01165
Minimum 22,0217 21,8718
Maximum 28,1087 28,2504
Range 6,087 6,3786
Lower quartile 24,3536 24,2126
Upper quartile 25,6517 25,6126
Interquartile range 1,2981 1,4
Coeff. of variation 3,98128% 4,05534%
------------------------------------------------------------
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 61
Estudio conjunto de cualitativa-cuantitativa
Gasto anual en educación.
Box-and-Whisker Plot
GTINE
0 2 4 6 8 10(X 100000)
Summary Statistics for GTINE
Count = 105
Average = 284658,0
Median = 255807,0
Standard deviation = 161675,0
Minimum = 33713,2
Maximum = 930000,0
Lower quartile = 178112,0
Upper quartile = 350043,0
Skewness = 1,83719
Kurtosis = 4,84436
Coeff. of variation = 56,7962%
Ingeniería de grado. Estadística. Tema 1Número de transparencia: 62
Estudio conjunto cualitativa-cuantitativa
Gasto anual en educación según el nivel de estudio (estudios primarios,
estudios secundarios, estudios superiores).
Box-and-Whisker Plot
GTINE
Est
udio
s
1
2
3
0 2 4 6 8 10(X 100000)
Summary Statistics for GTINE
Estudios Count Average Median Standard deviation
----------------------------------------------------------------------------------------------------
1 20 148929,0 151376,0 78300,3
2 50 237291,0 248045,0 62997,3
3 35 429884,0 381672,0 186979,0
-----------------------------------------------------------------------------------------------------
Total 105 284658,0 255807,0 161675,0