Upload
others
View
28
Download
0
Embed Size (px)
Citation preview
La estadística surgió como una necesidad del
estado: el censo y su descripción política,
geográfica y económica.
En el siglo XVII y XVIII nace la probabilidad
aplicada a los juegos de azar que ejerce una
fuerte influencia sobre la estadística.
En el XIX empieza a aplicarse a cuestiones
sociales.
Estadística
Dos significados:
1.- Colección de datos numéricos (una estadística).
2.- Método de análisis de datos (la estadística).
Estadística
Estadística
La Estadística es la ciencia que estudialos métodos y procedimientos pararecoger, clasificar, resumir, hallarregularidades y analizar los datos, asícomo de realizar inferencias a partir deellos, con la finalidad de ayudar a la tomade decisiones y en su caso formularpredicciones.
Definiciones
Una población (universo) es la colección de todos
los miembros de un grupo.
Un parámetro es una medida numérica que
describe una característica de la población.
Definiciones
Una muestra es una porción de la población
seleccionada para analisis. Debe ser
representativa y seleccionada de manera
aleatoria.
Un estadístico es una medida numérica que
describe una característica de una muestra.
Ramas de la Estadística
Estadística Descriptiva
Recolección, resumen y presentación de datos.
Estadística Inferencial
Obtiene conclusiones acerca de una población a
partir de una muestra.
Estadística Descriptiva
Recolección de datos
Ej. Cuestionario
Presentación de datos
Ej. Tablas y gráficos
Tratamiento de datos
Ej. Media muestral =iX
n
Estadística Inferencial
Estimación
Pruebas de Hipótesis
Obtiene conclusiones acerca de una población a
partir de una muestra.
Fuente de Datos
Fuentes Secundarias
Compilación de datos
Observación
Experimentación
Impreso o eletrónico
Encuesta
Fuentes Primarias
Colección de datos
Tipo de datos
Dato: Valores observados de las variables.
Variables categóricas: producen datos cualitativos. Ej: Estatus Marital, Color de ojos
Variables numéricas: generan datos numéricos
V. Numérica discreta: Respuesta numéricas que resultan
de un conteo.
Ej. Número de Hijos, defectos por hora
V. Numérica contínua : Respuesta numérica que resulta de
un medición.
Ej. Peso, Estatura
Ejercicio1
Para cada una de las variables, determine si
es categórica o numérica. Si la variable es
numérica, indique si es discreta o contínua.
1. Número de aparatos telefónicos en casa.
2. Duración (en minutos) de la última llamada.
3. Si existe en la casa una línea telefónica conectada
a un módem.
4. Si hay un fax en la casa.
Ejercicio 2
De acuerdo con una encuesta de Goldman, cerca del4% de los hogares estadounidense utilizan serviciosbancarios online. Una encuesta realizada por CyberDialogue investigó las razones por las que la genteabandona esta opción . A continuación se ofrece losresultados obtenidos:
¿Por qué abandonó el banco online?
Demasiado tiempo... 40%
No lo necesita ..........30%
No confía en el sistema..20%.
Demasiado costoso........10%
Describa la población de la encuesta Goldman
Describa la población de la encuesta Cyber
Dialogue.
La respuesta a la pregunta ¿ Por qué abandonó
el banco online? ¿Es categórica o numérica?
El 40% de quienes respondieron indicaron que el
banco en línea era demasiado complicado .¿Es
esto un parámetro o un estadístico?
Niveles de Medición
Nominal: Nombres o clasificaciones que se
utilizan para datos en categorías distintas y
separadas
Ej: Tipo de bebida que prefiere
Ordinal: Clasifican observaciones en categorías
con un orden significativo pero no es posible
determinar la diferencia numérica entre los
valores.
Ej: Riesgo: alto medio bajo
Niveles de Medición
De intervalo: Nivel ordinal donde podemos
determinar magnitudes de diferencia entre los
datos. El cero no indica ausencia de valor.
Ej: Temperatura, Años
De razón: Nivel de intervalo modificado para
que el cero indique un punto de partida
Ej: Peso de equipaje, estatura de un niño
Ejercicio
Indique el nivel de medición utilizado:
Preferencia de vehículo según su estilo:camion,
van,etc.
Temperatura corporal de una muestra de clientes
enojados.
Numero de cédula.
Contenido de nicotina (mg) de un cigarrillo.
Calificación de una cita a ciegas : sobresaliente, común
y horrible.
Ingreso anual de los gerentes en una compañía.
Ejercicio
Indique el nivel de medición utilizado:
Años en que ha ocurrido el Fenómeno “EL niño”
Calificaciones finales : MB, B, R, P
Automóviles descritos como subcompactos, compactos,
medianos o grandes.
Temperatura del ambiente en el aula.
Edad de los clientes.
Año de nacimiento de sus padres
Presentación de datos categóricos:
Tabla resumen
Gráficos: Barras, Pastel y Diagrama de Pareto
Presentación de datos numéricos
Tabla de frecuencia
Gráficos: Histograma, Polígono, Ojiva
Datos Categóricos
La tabla resumen indica la frecuencia, cantidad
o porcentaje de objetos en un conjunto de
categorías para observar las diferencias que
hay entre ellas.
Nivel De Riesgo Número de Fondos Porcentaje
Bajo 58 47,93
Promedio 46 38,02
Alto 17 14,05
Total 121 100
Datos Categóricos
Gráficos de barras :Cada barra muestra
una categoria, su longitud representa la
cantidad, frecuencia o porcentaje de los
valores que caen en cada categoría.
Nivel de Riesgo
0
20
40
60
80
Bajo Promedio Alto
Fre
cu
en
cia
Datos Categóricos
Gráfico de Pastel: Es un círculo que se
divide en partes para representar las
categorías. El tamaño de cada rebanada
varía de acuerdo con el porcentaje de cada
categoría.
Nivel de Riesgo
Bajo
Promedio
Alto
Alto
14%
Bajo
48%Promedio
38%
Los gastos de un estudiante en un semestre
académico fueron: alimentación $600,alquiler
$500, diversión $300, ropa $200, libros $200,
otros $200. A partir de esta información:
Construya una tabla resumen
Dibuje un gráfico de barras de frecuencia y %.
Diagrama de Pareto
El principio de Pareto indica que en todo grupo
de elementos o factores que contribuyen a un
mismo efecto, unos pocos son responsables de
la mayor parte de dicho efecto.
Diagrama de Pareto
Es un gráfico de barras, donde las categorías
son mostradas en orden descendente.
Un polígono acumulado se presenta en el
mismo gráfico.
Utilizado para separar lo “poco vital” de lo
“mucho trivial”.
Pasos del desarrollo del
Diagrama de Pareto
1. Ordenar los datos de mayor a menor frecuencia
2. Calcular el porcentaje y porcentaje acumulado.
3. Dibujar un gráfico de barras con las frecuencias.
4. Dibujar un eje secundario de %.
5. Trazar un gráfico lineal cuyos puntos representan
el porcentaje acumulado.
6. Identificar los elementos más importantes.
Tabla de Pareto
Tipo de
Inversión
Monto
(en miles $)
Porcentaje
(%)
%
Acumulado
Acciones 46,50 42% 42%
Bonos Globales 32,00 29% 71%
Bonos Locales 16,00 15% 86%
Banco 15,50 14% 100%
Total 110,00 100%
Ejemplo
Los siguientes datos presentan el tipo de daños en
teclados defectuosos:
Realice el análisis de Pareto
Tipo de defecto Frecuencia
Mancha 413
Daño 1039
Impacto en el molde 275
Raya plateada 413
Hundimiento 371
Marca de spray 292
Ejemplo
Un gran almacén con elevados costes por hurtos,
encargó a un grupo de trabajo a resolver el problema.
Se recopiló la información por áreas con los siguientes
resultados:
Sección Costo
Joyería 62
Alimentación 15
Perfumería 58
Electrodomésticos 22
Música 47
Ropa 16
Deportes 50
Hogar 14
Tablas y gráficos para datos categóricos
Datos
Categóricos
Gráficos
Gráfica de
pastel
Diagrama
de Pareto
Gráfico de
Barras
Tabulación de Datos
Tabla resumen
Arreglo Ordenado
Una secuencia de datos ordenados:
Muestra el rango (min y max)
Provee el grado de variabilidad de los datos
Permite identificar observaciones inusuales
Si el conjunto de datos es grande, el arreglo
ordenado es menos útil.
Datos recolectados :
24, 26, 24, 21, 27, 27, 30, 41, 32, 38
Datos en arreglo ordenado del menor al mayor:
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
Arreglo Ordenado
Diagrama Tallo y Hoja
Permite ver cómo se distribuyen y donde
están las concentraciones de datos.
Se organiza los datos en grupos (llamados
tallos), para que los valores dentro de cada
grupo (las hojas) ramifiquen hacia la derecha
de cada fila.
Ejemplo
Efectúe el diagrama de tallo hoja para los
siguientes conjuntos de datos
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
613, 632, 658, 717,722, 750, 776, 827,841, 859, 863,
891,894, 906, 928, 933,955, 982, 1034, 1047,1056,
1140, 1169, 1224
Tallo Hoja6 1 3 6
7 2 2 5 8
8 3 4 6 6 9 9
9 1 3 3 6 8
10 3 5 6
11 4 7
12 2
Datos:
613, 632, 658, 717,
722, 750, 776, 827,
841, 859, 863, 891,
894, 906, 928, 933,
955, 982, 1034,
1047,1056, 1140,
1169, 1224
Ejemplo 2
Los siguientes datos representan las cuotas
en $ de cheques rechazados de una muestra
de 23 bancos:
28 20 20 21 22 25 25 18 25 15 20
18 20 25 25 22 30 30 30 30 15 20 29
Coloque los datos en un arreglo ordenado
Elabore un diagrama tallo hojas
¿Cuál de estos diagramas ofrece más información?
¿Alrededor de que valor se concentran los datos?
Ejemplo 3
El siguiente diagrama de tallo hojas
representa la cantidad de gasolina (con un
decimal) comprada en galones para una
muestra de 25 autos
Coloque los datos en un arreglo ordenado
¿Cuál de estos diagramas ofrece más información?
¿Cuánta gasolina es más probable que se compre?
La distribución de frecuencias es una lista o
una tabla…
Que contiene clases agrupadas (rangos en los
cuales se ubican los datos ) ...
Y la correspondiente frecuencias.
Tabulación de datos numéricos: Distribución de frecuencias
Intervalos de clase
Cada clase tiene el mismo ancho y se lo calcula
de la siguiente manera:
Se sugiere no menos de 5 pero no más de 15
agrupaciones. Número de clases=3.32*log(n)
Las clases nunca se traslapan.
clases de deseado número
rangointervalo de Ancho
Distribución de frecuencia
Ejemplo: Cierto fabricante seleccionaaleatoriamente 20 días de invierno y toma latemperatura con los siguientes resultados :
24, 35, 17, 21, 24, 37, 26, 46, 58, 30,
32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Ordene los datos :12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Calcule el rango: 58 - 12 = 46
Seleccione el número de clases:5 (usualmente entre 5 y 15)
Calcule el ancho de clase: 10 (46/5 )
Determine los límites de clases: 10, 20, 30, 40, 50, 60
Calcule el punto medio de cada clase: 15, 25, 35, 45, 55
Cuente las observaciones y asigne a la clase que
corresponda
Distribución de frecuencia
Distribución de frecuencia
Clase Frecuencia
10 pero menos que 20 3 .15 15
20 pero menos que 30 6 .30 30
30 pero menos que 40 5 .25 25
40 pero menos que 50 4 .20 20
50 pero menos que 60 2 .10 10
Total 20 1.00 100
Frecuencia
RelativaPorcentaje
Datos ordenados
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Frecuencia Acumulada
Clase
10 pero menos que 20 3 15 3 15
20 pero menos que 30 6 30 9 45
30 pero menos que 40 5 25 14 70
40 pero menos que 50 4 20 18 90
50 pero menos que 60 2 10 20 100
Total 20 100
PorcentajePorcentaje Acumulado
Datos ordenados:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
FrecuenciaFrecuencia
Acumulada
En cierto país se desea investigar elcrecimiento de los jóvenes y se seleccionó unamuestra aleatoria de 25 jóvenes y se los midió.
Construya la tabla de distribución de frecuenciaincluyendo el porcentaje acumulado.
Gráfico de datos numéricos: Histograma
Gráfica de barras para datos numéricos agrupados en
los que las frecuencias o los porcentajes de cada
grupo de datos numéricos están representados por
barras individuales.
El punto medio de cada clase se muestra en el eje de
las x.
El eje vertical representa la frecuencia o el porcentaje
de los valores por intervalo de clase.
Punto medio
Histograma
(Ningun
espacio
entre
barras)
Clase
10 pero menos que 20 15 3
20 pero menos que 30 25 6
30 pero menos que 40 35 5
40 pero menos que 50 45 4
50 pero menos que 60 55 2
Frecuencia
Punto
medio
Polígono de Frecuencia
Punto medio de clase
Clase
10 pero menos que 20 15 3
20 pero menos que 30 25 6
30 pero menos que 40 35 5
40 pero menos que 50 45 4
50 pero menos que 60 55 2
FrecuenciaPunto
Medio
En el polígono de
porcentaje el eje
vertical debería de
estar definido como el
porcentaje de las
observaciones por
clase)
Polígono de frecuencia Acumulada
Límite de clases
Temperatura Frec
Frec
Acum
%
Acum
Menos que 10 0 0 0%
10 pero menos de 20 3 3 15%
20 pero menos de 30 6 9 45%
30 pero menos de 40 5 14 70%
40 pero menos de 50 4 18 90%
50 pero menos de 60 2 20 100%
Chap 1-53
Polígono de frecuencia Acumulada
Ojiva: Temperatura diaria
0
2
4
6
8
10
12
14
16
18
20
10 20 30 40 50 60
Límite de Clase
Fre
c.
Acu
m
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
% A
cu
m.
A 40 estudiantes en la cafetería se les pidió que
estimaran el número de horas que habían dedicado a
estudiar en la semana anterior. El registro de
respuestas aparece en la tabla.
Complete la tabla y dibuje la ojiva.
Tiempo de estudio semanal en horas Frecuencia
10 y menos que 20 6
20 y menos que 30 11
30 y menos que 40 9
40 y menos que 50 7
50 y menos que 60 4
60 y menos que 70 2
70 y menos que 80 1
Datos Bivariados
Tabla de contingencia
Investment Investor A Investor B Investor C Total Category
Acciones 46.5 55 27.5 129
Bonos G. 32.0 44 19.0 95
Bonos Loc. 15.5 20 13.5 49
Bancos 16.0 28 7.0 51
Total 110.0 147 67.0 324
Diagrama de Dispersión
Volume
n por
dia
Costo
por dia
23 131
24 120
26 140
29 151
33 160
38 167
41 185
42 170
50 188
55 195
60 200
Permite examinar las posibles relaciones
entre dos variable numéricas.
En el diagrama de dispersión , las variables
pueden estar relacionadas de las siguientes
formas:
0
50
100
150
200
250
300
350
0 50 100 150Variable A
Vari
able
B
0
20
40
60
80
100
120
140
160
0 50 100 150Variable A
Vari
able
B
Variable A aumenta y Variable B aumenta Variable A aumenta y variable B disminuye
Determine el tipo de relación que existe entre las
siguientes variables:
1) Un almacén recopiló las ventas y gastos de
publicidad de 5 de sus sucursales.
VENTAS GASTOS DE
PUBLICIDAD
264000 550
384000 590
400200 680
422400 700
543000 750
2) Una persona se
entrena para obtener
el carnet de conducir
repitiendo un test de
50 preguntas. En la
tabla se describen el
nº de errores que
corresponden a los
intentos realizados.
Número de
intentos
Número de
errores
1 15
2 12
3 10
4 8
5 7
6 5
7 5
8 2
3) A 12 alumnos de un centro se les preguntó a qué
distancia estaba su residencia del Instituto, con fin de
estudiar si esta variable estaba relacionada con la nota
media obtenida. Se obtuvieron los datos que figuran en
la siguiente tabla:
Distancia
(Km) 0,05 0,1 0,12 0,4 0,5 0,7 1 1,2 2,1 2,5 3 3
Nota
Prom. 8,4 4 5,7 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1
Diagrama de Serie de tiempo
Año
Ventas
(miles $)
1996 43
1997 54
1998 60
1999 73
2000 82
2001 95
2002 107
2003 99
2004 95
Se usa para estudiar patrones de las variables a través del tiempo .
Año
Tasa de
desempleo
1998 4,7
1999 4,3
2000 4
2001 4,2
2002 5,6
2003 5,9
2004 6
2005 6,1
2006 6
2007 6,5
Tasa de desempleo por año
0
2
4
6
8
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Año
Ta
sa
de
de
se
mp
leo
(%)
Los datos de la siguiente tabla representan el promedio
de espectadores de televisión por juego (en millones )
para la Liga de Futbol Nacional (NFL), Asociación
Nacional de Basketball (NBA), la Liga de Baseball
(MLB) y la Liga nacional de Jockey (NHL).
Para cada uno de los cuatro deportes realice un
diagrama de series de tiempo.
¿Qué patrón si lo hay está presente en los datos ?
Año NFL NBA MLB NHL
1995 19,6 10,6 15,9 3,6
1996 18,5 10,2 9,8 3,2
1997 17,4 10,8 10,4 2,4
1998 18,1 7,8 9,4 2,6
1999 18,3 7,2 10 3,3
2000 17 6,7 7,7 2,8
2001 16,9 6,8 9,8 3,1
2002 18,6 5,8 8,9 2,6
Organización de Datos numéricos
Datos
Numéricos
Arreglo
Ordenado
Diagrama de Tallo-Hoja Histograma Polígono Ojiva
Distribución de
Frecuencias
Uso inadecuado de gráficas y consideraciones éticas
Algunas directrices para desarrollar buenas gráficas son :
La gráfica no debe distorsionar los datos
La gráfica no debería contener adornos innecesarios
Cualquier gráfica de dos dimensiones debe contener una escala para cada eje.
Todos los ejes deben estar debidamente rotulados
La gráfica debe tener un título
Los datos normalmente no son fáciles de usar para la toma de decisiones. Algunas organizaciones necesitan
Tablas Gráficos
Las técnicas repasadas en este tema son:
Diagramas de barras, De pastel, De Pareto
Arreglo ordenado y diagrama de tallo-hoja
Distribuciones de frecuencia, histogramas y polígonos
Distribuciones acumulativas y ojivas
Tabla de contingencia y Gráficas de barras agrupadas
Diagrama de dispersión y Serie de tiempo
Resumen