Upload
zoraida-perez-s
View
3.623
Download
6
Embed Size (px)
DESCRIPTION
Gráficos estadísticos
Citation preview
Prof. Zoraida Pérez S.
ANÁLISIS DE DATOSUna variable
VISIÓN HELICÓPTERO - ANÁLISIS DE DATOS-UNA VARIABLEPLAN DE EVALUACIÓN - ESTADÍSTICA I - SEMESTRE 2006-2 - INGENIERÍA INDUSTRIAL - SECCIONES 01 Y 03
TEMA SUBTEMA CONTENIDOS INSTRUMENTO POND.SUB
T
ESTOCÁSTICA
INTRODUCCIÓNPresentación del Curso. Misión UNEG. Introducción a la Estadística.Estadística Descriptiva vs Estadística Inferencial.Nociones de Metodología de la Investigación. Diseño de una Investigación. Pregunta Central. Tormenta de Ideas.Esquema Organizativo de las ideas. Diseño y Aplicación del Instrumento de Medición.
Evaluación Corta 0 3 3
MANEJO
DE DATOS
ANALISIS DE DATOS
UNA VARIABLE
Distribuciones de Frecuencia, tablas y gráficos Ejemplos usando variables que tienen diferentes escalas de medición. Cuándo es preciso agrupar los datos en
clases?Diferentes tipos de gráficos, Elementos indispensables en tablas y gráficos. Diagrama circular, Diagrama de Barra. Diagrama de Tallo y Hoja.
Histogramas, Diagrama de Caja, de mosaico.
Laboratorio 1 3
25
Proyecto 1 10
Evaluación 1 10
Particip/Clase 1. Asign
2
MEDIDAS ESTADÍSTICAS: Visión General.Medidas de Posición y de Dispersión. Tendencia Central: Media, Mediana, Moda, otros promedios. Cómo se calculan, cómo se interpretan?.Uso de calculadora y Software estadístico.¿Cómo
ingreso los datos? Como se generan los reportes?Medidas de Dispersión: Alcance o Recorrido, Desviación Media, Varianza, Desviación Estándar.Teorema de Chevishev. Cálculo de medidas cuando se presentan los
datos YA AGRUPADOS
Laboratorio 2 3
18
Proyecto 2 3
Evaluación 2 10
Particip/Clase 2. Asign
2
ANALISIS DE DATOS
DOS VARIABLES Análisis de Regresión Lineal Simple. Análisis de Correlación. Uso de la calculadora y de sofware estadístico
Laboratorio 3 2
17
Proyecto3 3
Evaluación 3 10
Particip/Clase 3. Asign
2
PROBABILIDAD
REGLAS DE PROBABILIDAD
Probabilidad.Conceptos Básicos, eventos exhaustivos y mut. Excluyentes. Reglas de Probabilidad. Diagramas de Venn, tablas de contingencia, diagramas de árbol, Probabilidad
Condicional, Teorema de Bayes, Reglas de Conteo.
Proyecto 4 3
17Evaluación 4 12
Particip/Clase 4. Asign
2
DISTRIBUCIONES DE
PROBABILIDAD
Distribuciones de Probabilidad: de variable discreta, de variable continua. Esperanza matemática o valor esperado y Varianza en distribuciones de probabilidad. Modelos de
probabilidad, ensayo Bernoulli, Distribución Binomial, Distribución de Poisson, aproximación de D.Binomial a D.Poisson. Distribución Normal, aproximación de D. Binomial a D. Normal y de D. Poisson a D. Normal.
Laboratorio 5 1
18
Proyecto 5 3
Evaluación 5 12
Particip/Clase 5. Asign
2
Presentacion del Proyecto y Aspectos Generales 2 2
Prof Zoraida Perez 100 100
1-. Recolección de los Datos
2-. Análisis de los Datos
3-. Presentación de los Datos
Herramientas para organizar
Tablas, Diagramas, Gráficas, Medidas Estadísticas
4-. Interpretación y Comunicación de Resultados
Diseños Muestrales
MANEJO DE DATOS• Diseño de la Investigación.• Diseño del instrumento de recolección..• Seleccionar Tamaño de la Muestra.
0-. Antes de la Recolección de los Datos
Grafica tus datos
Interpreta lo que ves
Resúmenes Numéricos?
Modelos Matemáticos?
Comienzas representando gráficamente e interpretando lo que tú ves
Buscas patrones globales y desviaciones llamativas de esos patrones, y buscas explicaciones en el contexto del problema
Basado en el examen de los datos, escoges apropiadas descripciones numéricas de aspectos específicos;
Si el patrón global es suficientemente regular, buscas a un modelo matemático compacto para ese patrón”
“CUANDO TÚ EXAMINAS UN CONJUNTO DE DATOS….
(Moore, 1999, Pág. 251).
David Moore sintetiza la esencia de lo que se quiere enseñar en este curso
• MANUALES
• COMPUTARIZADAS
Tabla de Datos sin procesar
HERRAMIENTAS PARA ANÁLISIS DE DATOS
etc….
ANÁLISIS DE DATOS
UNA VARIABLE (análisis univariante)
DOS VARIABLES (análisis bivariante)
MÁS DE DOS VARIABLES (análisis multivariante)
ANÁLISIS DESCRIPTIVO
ANÁLISIS INFERENCIAL
ANÁLISIS DESCRIPTIVO
UNA VARIABLE (análisis univariante)
En este curso veremos….
Analisis de Regresion Lineal y Correlación
SE DESCRIBE USANDO…
Tabla de Datos sin procesar para una sola Variable
54 57 56 70 8558 69 50 69 5251 69 61 51 5065 85 80 67 5454 67 70 50 6864 67 81 61 5556 45 82 88 8180 51 53 65 5059 77 61 64 8550 70 85 62 9360 57
Fuente: ZP
Peso de los alumnos del curso Estadística I Sec 1 y 2 Semestre 2006-I Ingeniería Industrial UNEG. Población de 54 alumnos. (2 datosperdidos)
ANÁLISIS DESCRIPTIVO DE DATOS
TABLAS DE DISTRIBUCIÓN
DE FRECUENCIAS
GRÁFICOS Y
DIAGRAMAS
MEDIDAS ESTADÍSTICAS
UN CONJUNTO DE DATOS SIN PROCESAR
Sec sexo edad peso Estat EgrBachIngUNEGindBach IndUNEG LiceoTipoIngresoVivesEn1 F 18 57 1,57 2004 2005 17 6,1 1 21 M 20 69 1,8 2002 2004 15,6 7 1 1 21 M 19 69 1,95 2002 2005 17,1 7,94 1 1 21 M 20 85 1,8 2003 2004 14 7,9 1 1 11 M 19 67 1,68 2003 2004 14,1 6 1 2 11 M 18 67 1,8 2004 2004 17 6 1 1 21 F 18 45 1,6 2004 2005 17,85 6,85 2 11 F 19 51 1,64 2003 2004 17,65 7,35 2 1 41 M 19 77 1,75 2004 17 2 2 21 M 24 70 1,6 2000 2000 15 7,41 2 1 11 F 19 54 1,7 2003 2004 18 5,51 1 1 51 M 28 58 1,76 1995 2000 14,5 6,01 1 1 11 F 22 51 1,68 2002 2002 15 7 1 1 11 M 17 65 1,8 2004 2004 16 6,8 1 1 51 F 25 54 1999 2003 14,63 6,5 1 11 M 19 64 1,75 2003 2005 15,6 5,6 1 2 1
Título
Tabla de Datos sin procesar Población de Estudio: Alumnos de Estadística I – Semestre 2006-I - Secciones 1 y 2 – Ingeniería Industrial UNEG
Muestra de 16 alumnos
Fuente
Prof. Zoraida Pérez S.
TABLA DE DATOS SIN PROCESAR
Qué es lo que se busca?
TABLAS DE DISTRIBUCIÓN
DE FRECUENCIAS
GRÁFICOS Y
DIAGRAMAS
MEDIDAS ESTADÍSTICAS
PATRÓN GLOBAL DE COMPORTAMIENTO DE LOS DATOS
CON LAS…
SE BUSCA UN…..
Y LUEGO…..
LAS DESVIACIONES SIGNIFICATIVAS DE DICHO PATRÓN
• Buscar Simetría o Sesgos• Buscar picos individuales o múltiples• Buscar centro, y el grado de dispersión respecto de ese centro
• Buscar Vacíos• Buscar casos extremos
Fuente
BreveInterpretación
Título
Título de la Noticia
Información Completa…
En la presentación de tablas y gráficas…
EL NACIONAL - LUNES 08 DE NOVIEMBRE DE 2004 A/1
Primera páginaVenezuela lidera inflación regional
Intervención del Gobierno no logra frenar alzas de precios
Los consumidores han comenzado a desconfiar de las estadísticas oficiales de inflación. En octubre el indicador del Banco Central registró sólo 0,6% como promedio de aumentos de precios, pero rubros de consumo masivo, como el café servido en barra, bebidas no alcohólicas y servicios de restaurantes reflejaron aumentos de hasta 20% . Para atenuar las alzas que ocurren en el mercado, el Gobierno recoge en sus estadísticas los productos vendidos con precios inferiores al costo en los mercados populares Mercal lo que, según analistas vinculados al BCV "introduce una distorsión" en el cálculo.
Información Completa…
Tablas
GráficosDiagramas
• Distribución de Frecuencias • Diagrama de Tallo y Hoja• De Contingencia
• Diagramas de Línea• Diagramas de Barra• Diagramas Circulares • Pictogramas• Histogramas• Polígonos de Frecuencia• Polígonos de Frecuencia acumulada
(Ojivas)• Diagramas de Mosaico• Diagramas de Caja.
TABLAS DIAGRAMAS Y GRÁFICOS
TABLAS DE DISTRIBUCIÓN DE FRECUENCIASLa práctica deportiva en personas mayores:
Análisis de la calidad de vida y la práctica deportiva realizada
http://images.google.co.ve/imgres?imgurl=http://www.efdeportes.com/
Población de Estudio: Todas personas mayores de 65 años que pertenecen a la Asociación de Pensionistas "La Nava" de Huetor Vega, en Granada
FUENTE: Rocío López-Cózar Martín Socorro Rebollo Rico (España)
GéneroEdo. Civil
(muestra de 66 personas)
Nivel de Estudio Edad
Tablas de Conteo
Tablas que ayudan a ORGANIZAR LOS DATOS
DIAGRAMAS DE TALLO Y HOJA
peso Stem-and-Leaf Plot
Frequency Stem & Leaf
1,00 4 . 5 20,00 5 . 00000111234445667789 16,00 6 . 0111244557778999 4,00 7 . 0007 10,00 8 . 0011255558 1,00 9 . 3
Stem width: 10 Each leaf: 1 case(s)
TABLAS DE CONTINGENCIA
sexo * VivesEn Crosstabulation
Count
16 3 2 2 23
14 11 0 5 30
30 14 2 7 53
FEMENINO
MASCULINO
sexo
Total
Puerto Ordaz San FelixCiudadBolivar otro
VivesEn
Total
CHILE
DIAGRAMAS DE LÍNEA – SERIES TEMPORALESCalados Rio Orinoco
0123456789
10111213141516171819202122232425262728293031323334353637
01-Ene
15-Ene
29-Ene
12-Feb
26-Feb
12-Mar
26-Mar
09-Abr
23-Abr
07-May
21-May
04-Jun
18-Jun
02-Jul
16-Jul
30-Jul
13-Ago
27-Ago
10-Sep
24-Sep
08-Oct
22-Oct
05-Nov
19-Nov
03-Dic
17-Dic
31-Dic
Pie
s
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
Inicio operaciones 2006:01/05 con 10,2 pies.
Parada la navegacion el 06/05 hasta el 09/05 por
deficiencias el el balizaje y falta de
profundidad suficiente
DIAGRAMAS DE LÍNEA – CURVAS DE FRECUENCIA
17 18 19 20 21 22 23 24 25 28
edad
0
5
10
15
20
25
30
Co
un
t
DIAGRAMAS DE BARRA
GRÁFICAS DE MOSAICO
Grafica de Mosaico. Relación Aprob/Reprob Matemática I Sem 2004-3 UNEG
ReprobadosAprobados
A1A2A3A4A5A6D1D2D3D4D5D6F1F2F3F4F5F6
DIAGRAMAS CIRCULARES
Ejemplo de gráfico de sectores.
Distribución de una muestra de pacientes según el hábito de fumar.
HISTOGRAMAS – POLÍGONOS DE FRECUENCIA
JUGAR CON EL ANCHO DE LAS CLASES EN HISTOGRAMAS
http://www.ruf.rice.edu/~lane/stat_sim/descriptive/index.html
Instrucciones para usar el APPLETUn menú pop-up aparecerá a la izquierda cuando el applet se haya cargado. Esto puede tomar un minuto o dos dependiendo de la velocidad de su conexión y computadora del Internet. Sea por favor paciente. Comienzo y Fijación de las condiciones del applet Haga click y despliegue el menú para elegir un dataset conjunto de datos. Después de que un leve retraso, una ventana abrirá contiendo un histograma y unos digramas de validación cruzada. Si desea entrar con sus propios datos, elija "incorporar datos." Una ventana se abrirá para que usted incorpore sus datos. Usted debe tener un punto de referencia por línea. El histograma es la herramienta gráfica más importante para explorar la forma de las distribuciones de los datos. Los libros de textos proporcionan generalmente instrucciones detalladas en la construcción del histograma, pero ofrecen generalmente solamente algunos ejemplos.Una investigación en la valoración no paramétrica de la densidad ( Scott, 1992) ha proporcionado un avance de la investigación sobre cómo identificar "buenos" histogramas y "malos" histogramas. Hemos seleccionado un criterio supuesto de la "validación cruzada" aquí (véase abajo). El applet del histograma proporciona automáticamente los gráficos auxiliares de las funciones de la validación cruzada que estiman la calidad del histograma que se está exhibiendo. Valores más pequeños de la función de la validación cruzada implican generalmente errores más pequeños en la aproximación. Haciendo click en estos gráficos (o los botones de más/menos) le lleva a otros histogramas con diversos anchos de clase, o a los histogramas con el mismo ancho de clase pero con diferentes ubicaciones del límite de clase. Estos gráficos predicen la calidad de esos otros histogramas. El gráfico de la izquierda demuestra los valores de la validación cruzada para 30 anchos de clase y para el valor del "límite inferior de la primera clase" que se especifica en el gráfico derecho. El gráfico a la derecha demuestra los valores de la validación cruzada de 20 "límites inferiores de la primera clase" para el ancho de clase que se especifica en el gráfico izquierdo. El histograma por defecto utiliza el más bajo de los límites inferiores mostrados en el gráfico derecho conjuntamente con el ancho de clase que da el valor más bajo de la validación cruzada de las 30 anchuras originales del compartimiento. Típicamente, el más bajo de los límites más bajos no producirá el valor más bajo de la validación cruzada. Encontrar el valor más bajo es un proceso iterativo. Probar diversas combinaciones del límite más bajo y del ancho de la clase y observar los resultados. Usted puede cambiar los parámetros del ancho del límite inferior y/o de la clase de tres maneras: (1) haciendo click en un punto de uno de los gráficos de validación cruzada, (2) haciendo click en el botón del "+/-", y (3) incorporando un valor en el campo del texto y darle enter. Los puntos rojos en los gráficos de validación cruzada demuestran los valores usados por el histograma exhibido arriba.
POLÍGONOS DE FRECUENCIA ACUMULADA (OJIVAS)
DIAGRAMA DE PARETO
DIAGRAMAS DE CAJA Y BIGOTE
Histograma de Frecuencias. Calificaciones todas las asignaturas.Area Matematica
0 2 4 6 8 10 12Calif
0
30
60
90
120
150
180
frecu
en
cia
0 30 60 90 120 150 180
N° Alumnos
Proy
ecto
de
Carre
ra
Relación Aprob/Reprob por Proyecto
Admin
Contad
Indust
Inform
ReprobadoAprobado
Relación Aprobado/Reprobado
ReprobadoAprobado
66,57%
33,43%
RESUMEN ESTADISTICO AREA DE MATEMATICA:
15 ASIGNATURAS
59 SECCIONES
22 PROFESORES
2000 ALUMNOS ATENDIDOS
3500 MATRICULAS
1200 ALUMNOS APROBADOS
2300 ALUMNOS REPROBADOS
97531
95% Confidence Interval for Mu
4,03,53,0
95% Confidence Interval for Median
Variable: Calif
3,00000
2,12091
3,42644
Maximum3rd QuartileMedian1st QuartileMinimum
NKurtosisSkewnessVarianceStDevMean
P-Value:A-Squared:
4,00000
2,41908
3,84710
9,000006,000003,000001,000001,00000
446-1,190130,299613
5,108222,260143,63677
0,00017,989
95% Confidence Interval for Median
95% Confidence Interval for Sigma
95% Confidence Interval for Mu
Anderson-Darling Normality Test
Descriptive Statistics
PERÍODO LECTIVO 200403RESUMEN GENERALAREA DE MATEMATICA
Variable: POST-TEST
INTERPRETACIÓN : • En el Post-Test, la puntuación más frecuente asignada por los 22 alumnos estuvo entre
21 y 23 puntos.• La puntuación promedio fue de 26,27, con una desviación estándar de 56.45. El
coeficiente de variación es de 25%, lo cual nos indica que hay mayor dispersión o variabilidad en el post-test que en el pre-test.(19%)
• Pequeña tendencia al sesgo positivo como lo confirma el estadístico Skewness= 0,52.• El gráfico de Caja nos permite comparar las percepciones de los alumnos (M) con las de
las alumnas (F). Se observa que en la categoría Femenino, los datos están más concentrados y la mediana tiene menor valor. Para esta muestra de alumnos, las muchachas perciben un menor nivel de dificultad en los contenidos considerados en este experimento.
393429241914
95% Conf idence Interv al f or Mu
29,528,527,526,525,524,523,522,521,5
95% Conf idence Interv al f or Median
Variable: POST
22,0000
4,9643
23,4118
Maximum3rd QuartileMedian1st QuartileMinimum
NKurtosisSkewnessVarianceStDevMean
P-Value:A-Squared:
28,1093
9,2212
29,1337
39,000032,500024,500021,750014,0000
22-3,1E-01
0,52020841,6364 6,452626,2727
0,0390,769
95% Conf idence Interv al f or Median
95% Conf idence Interv al f or Sigma
95% Conf idence Interv al f or Mu
Anderson-Darling Normality Test
Descriptive Statistics
16 18 20 22 24 26 28 30 32 34 36 38
post
0
2
4
6
Histograma de frecuencias Puntuación en el Post-Test para 22alumnos de un curso de Estadística III
Fuente: J. Paolini(Software: SPSS)
F M
sex$
15
20
25
30
35
po
st
Grafico de Caja. Comparación entrealumnos y alumnas del nivel de dificultadpercibido después de saber su nota
Fuente: J. Paolini
EJEMPLO. PRESENTACIÓN ANÁLISIS DE UNA VARIABLE
Es una observación en un conjunto de datos que se aparta en valor de los otras observaciones en el conjunto de datos.
Es un valor inusualmente grande o inusualmente pequeño comparado a los otros.
Pudo ser el resultado de un error en la medición, en cuyo caso éste distorsionará la interpretación de los datos, teniendo influencia incorrecta en muchos resúmenes estadísticos, por ejemplo, la media. Si un outlier es un resultado genuino, es importante porque puede ser que indique un extremo del comportamiento del proceso bajo estudio.
Por esta razón, todos los outliers deben ser examinados cuidadosamente antes de emprender cualquier análisis formal.
Los outliers no se deben eliminar rutinariamente sin la justificación adicional
OUTLIER O DATO ABERRANTE