29
Prof. Zoraida Pérez S. ANÁLISIS DE DATOS Una variable

Expo 04. Analisis de Datos Una Variable

Embed Size (px)

DESCRIPTION

Gráficos estadísticos

Citation preview

Page 1: Expo 04.  Analisis de Datos Una Variable

Prof. Zoraida Pérez S.

ANÁLISIS DE DATOSUna variable

Page 2: Expo 04.  Analisis de Datos Una Variable

VISIÓN HELICÓPTERO - ANÁLISIS DE DATOS-UNA VARIABLEPLAN DE EVALUACIÓN - ESTADÍSTICA I - SEMESTRE 2006-2 - INGENIERÍA INDUSTRIAL - SECCIONES 01 Y 03

  TEMA SUBTEMA CONTENIDOS INSTRUMENTO POND.SUB

T

ESTOCÁSTICA

INTRODUCCIÓNPresentación del Curso. Misión UNEG. Introducción a la Estadística.Estadística Descriptiva vs Estadística Inferencial.Nociones de Metodología de la Investigación. Diseño de una Investigación. Pregunta Central. Tormenta de Ideas.Esquema Organizativo de las ideas. Diseño y Aplicación del Instrumento de Medición.

Evaluación Corta 0 3 3

MANEJO

DE DATOS

ANALISIS DE DATOS

UNA VARIABLE

Distribuciones de Frecuencia, tablas y gráficos Ejemplos usando variables que tienen diferentes escalas de medición. Cuándo es preciso agrupar los datos en

clases?Diferentes tipos de gráficos, Elementos indispensables en tablas y gráficos. Diagrama circular, Diagrama de Barra. Diagrama de Tallo y Hoja.

Histogramas, Diagrama de Caja, de mosaico.

Laboratorio 1 3

25

Proyecto 1 10

Evaluación 1 10

Particip/Clase 1. Asign

2

MEDIDAS ESTADÍSTICAS: Visión General.Medidas de Posición y de Dispersión. Tendencia Central: Media, Mediana, Moda, otros promedios. Cómo se calculan, cómo se interpretan?.Uso de calculadora y Software estadístico.¿Cómo

ingreso los datos? Como se generan los reportes?Medidas de Dispersión: Alcance o Recorrido, Desviación Media, Varianza, Desviación Estándar.Teorema de Chevishev. Cálculo de medidas cuando se presentan los

datos YA AGRUPADOS

Laboratorio 2 3

18

Proyecto 2 3

Evaluación 2 10

Particip/Clase 2. Asign

2

ANALISIS DE DATOS

DOS VARIABLES Análisis de Regresión Lineal Simple. Análisis de Correlación. Uso de la calculadora y de sofware estadístico

Laboratorio 3 2

17

Proyecto3 3

Evaluación 3 10

Particip/Clase 3. Asign

2

PROBABILIDAD

REGLAS DE PROBABILIDAD

Probabilidad.Conceptos Básicos, eventos exhaustivos y mut. Excluyentes. Reglas de Probabilidad. Diagramas de Venn, tablas de contingencia, diagramas de árbol, Probabilidad

Condicional, Teorema de Bayes, Reglas de Conteo.

Proyecto 4 3

17Evaluación 4 12

Particip/Clase 4. Asign

2

DISTRIBUCIONES DE

PROBABILIDAD

Distribuciones de Probabilidad: de variable discreta, de variable continua. Esperanza matemática o valor esperado y Varianza en distribuciones de probabilidad. Modelos de

probabilidad, ensayo Bernoulli, Distribución Binomial, Distribución de Poisson, aproximación de D.Binomial a D.Poisson. Distribución Normal, aproximación de D. Binomial a D. Normal y de D. Poisson a D. Normal.

Laboratorio 5 1

18

Proyecto 5 3

Evaluación 5 12

Particip/Clase 5. Asign

2

Presentacion del Proyecto y Aspectos Generales 2 2

Prof Zoraida Perez 100 100

Page 3: Expo 04.  Analisis de Datos Una Variable

1-. Recolección de los Datos

2-. Análisis de los Datos

3-. Presentación de los Datos

Herramientas para organizar

Tablas, Diagramas, Gráficas, Medidas Estadísticas

4-. Interpretación y Comunicación de Resultados

Diseños Muestrales

MANEJO DE DATOS• Diseño de la Investigación.• Diseño del instrumento de recolección..• Seleccionar Tamaño de la Muestra.

0-. Antes de la Recolección de los Datos

Page 4: Expo 04.  Analisis de Datos Una Variable

Grafica tus datos

Interpreta lo que ves

Resúmenes Numéricos?

Modelos Matemáticos?

Comienzas representando gráficamente e interpretando lo que tú ves

Buscas patrones globales y desviaciones llamativas de esos patrones, y buscas explicaciones en el contexto del problema

Basado en el examen de los datos, escoges apropiadas descripciones numéricas de aspectos específicos;

Si el patrón global es suficientemente regular, buscas a un modelo matemático compacto para ese patrón”

“CUANDO TÚ EXAMINAS UN CONJUNTO DE DATOS….

(Moore, 1999, Pág. 251).

David Moore sintetiza la esencia de lo que se quiere enseñar en este curso

Page 6: Expo 04.  Analisis de Datos Una Variable

ANÁLISIS DE DATOS

UNA VARIABLE (análisis univariante)

DOS VARIABLES (análisis bivariante)

MÁS DE DOS VARIABLES (análisis multivariante)

ANÁLISIS DESCRIPTIVO

ANÁLISIS INFERENCIAL

ANÁLISIS DESCRIPTIVO

UNA VARIABLE (análisis univariante)

En este curso veremos….

Analisis de Regresion Lineal y Correlación

Page 7: Expo 04.  Analisis de Datos Una Variable

SE DESCRIBE USANDO…

Tabla de Datos sin procesar para una sola Variable

54 57 56 70 8558 69 50 69 5251 69 61 51 5065 85 80 67 5454 67 70 50 6864 67 81 61 5556 45 82 88 8180 51 53 65 5059 77 61 64 8550 70 85 62 9360 57

Fuente: ZP

Peso de los alumnos del curso Estadística I Sec 1 y 2 Semestre 2006-I Ingeniería Industrial UNEG. Población de 54 alumnos. (2 datosperdidos)

ANÁLISIS DESCRIPTIVO DE DATOS

TABLAS DE DISTRIBUCIÓN

DE FRECUENCIAS

GRÁFICOS Y

DIAGRAMAS

MEDIDAS ESTADÍSTICAS

UN CONJUNTO DE DATOS SIN PROCESAR

Page 8: Expo 04.  Analisis de Datos Una Variable

Sec sexo edad peso Estat EgrBachIngUNEGindBach IndUNEG LiceoTipoIngresoVivesEn1 F 18 57 1,57 2004 2005 17 6,1 1 21 M 20 69 1,8 2002 2004 15,6 7 1 1 21 M 19 69 1,95 2002 2005 17,1 7,94 1 1 21 M 20 85 1,8 2003 2004 14 7,9 1 1 11 M 19 67 1,68 2003 2004 14,1 6 1 2 11 M 18 67 1,8 2004 2004 17 6 1 1 21 F 18 45 1,6 2004 2005 17,85 6,85 2 11 F 19 51 1,64 2003 2004 17,65 7,35 2 1 41 M 19 77 1,75 2004 17 2 2 21 M 24 70 1,6 2000 2000 15 7,41 2 1 11 F 19 54 1,7 2003 2004 18 5,51 1 1 51 M 28 58 1,76 1995 2000 14,5 6,01 1 1 11 F 22 51 1,68 2002 2002 15 7 1 1 11 M 17 65 1,8 2004 2004 16 6,8 1 1 51 F 25 54 1999 2003 14,63 6,5 1 11 M 19 64 1,75 2003 2005 15,6 5,6 1 2 1

Título

Tabla de Datos sin procesar Población de Estudio: Alumnos de Estadística I – Semestre 2006-I - Secciones 1 y 2 – Ingeniería Industrial UNEG

Muestra de 16 alumnos

Fuente

Prof. Zoraida Pérez S.

TABLA DE DATOS SIN PROCESAR

Page 9: Expo 04.  Analisis de Datos Una Variable

Qué es lo que se busca?

TABLAS DE DISTRIBUCIÓN

DE FRECUENCIAS

GRÁFICOS Y

DIAGRAMAS

MEDIDAS ESTADÍSTICAS

PATRÓN GLOBAL DE COMPORTAMIENTO DE LOS DATOS

CON LAS…

SE BUSCA UN…..

Y LUEGO…..

LAS DESVIACIONES SIGNIFICATIVAS DE DICHO PATRÓN

• Buscar Simetría o Sesgos• Buscar picos individuales o múltiples• Buscar centro, y el grado de dispersión respecto de ese centro

• Buscar Vacíos• Buscar casos extremos

Page 10: Expo 04.  Analisis de Datos Una Variable

Fuente

BreveInterpretación

Título

Título de la Noticia

Información Completa…

Page 11: Expo 04.  Analisis de Datos Una Variable

En la presentación de tablas y gráficas…

Page 12: Expo 04.  Analisis de Datos Una Variable

EL NACIONAL - LUNES 08 DE NOVIEMBRE DE 2004 A/1

 

Primera páginaVenezuela lidera inflación regional

Intervención del Gobierno no logra frenar alzas de precios

                                                            

   Los consumidores han comenzado a desconfiar de las estadísticas oficiales de inflación. En octubre el indicador del Banco Central registró sólo 0,6% como promedio de aumentos de precios, pero rubros de consumo masivo, como el café servido en barra, bebidas no alcohólicas y servicios de restaurantes reflejaron aumentos de hasta 20% . Para atenuar las alzas que ocurren en el mercado, el Gobierno recoge en sus estadísticas los productos vendidos con precios inferiores al costo en los mercados populares Mercal lo que, según analistas vinculados al BCV "introduce una distorsión" en el cálculo.                                  

Información Completa…

Page 13: Expo 04.  Analisis de Datos Una Variable

Tablas

GráficosDiagramas

• Distribución de Frecuencias • Diagrama de Tallo y Hoja• De Contingencia

• Diagramas de Línea• Diagramas de Barra• Diagramas Circulares • Pictogramas• Histogramas• Polígonos de Frecuencia• Polígonos de Frecuencia acumulada

(Ojivas)• Diagramas de Mosaico• Diagramas de Caja.

TABLAS DIAGRAMAS Y GRÁFICOS

Page 14: Expo 04.  Analisis de Datos Una Variable

TABLAS DE DISTRIBUCIÓN DE FRECUENCIASLa práctica deportiva en personas mayores:

Análisis de la calidad de vida y la práctica deportiva realizada

http://images.google.co.ve/imgres?imgurl=http://www.efdeportes.com/

Población de Estudio: Todas personas mayores de 65 años que pertenecen a la Asociación de Pensionistas "La Nava" de Huetor Vega, en Granada

FUENTE: Rocío López-Cózar Martín Socorro Rebollo Rico (España)

GéneroEdo. Civil

(muestra de 66 personas)

Nivel de Estudio Edad

Page 15: Expo 04.  Analisis de Datos Una Variable

Tablas de Conteo

Tablas que ayudan a ORGANIZAR LOS DATOS

Page 16: Expo 04.  Analisis de Datos Una Variable

DIAGRAMAS DE TALLO Y HOJA

peso Stem-and-Leaf Plot

Frequency Stem & Leaf

1,00 4 . 5 20,00 5 . 00000111234445667789 16,00 6 . 0111244557778999 4,00 7 . 0007 10,00 8 . 0011255558 1,00 9 . 3

Stem width: 10 Each leaf: 1 case(s)

Page 17: Expo 04.  Analisis de Datos Una Variable

TABLAS DE CONTINGENCIA

sexo * VivesEn Crosstabulation

Count

16 3 2 2 23

14 11 0 5 30

30 14 2 7 53

FEMENINO

MASCULINO

sexo

Total

Puerto Ordaz San FelixCiudadBolivar otro

VivesEn

Total

Page 18: Expo 04.  Analisis de Datos Una Variable

CHILE

DIAGRAMAS DE LÍNEA – SERIES TEMPORALESCalados Rio Orinoco

0123456789

10111213141516171819202122232425262728293031323334353637

01-Ene

15-Ene

29-Ene

12-Feb

26-Feb

12-Mar

26-Mar

09-Abr

23-Abr

07-May

21-May

04-Jun

18-Jun

02-Jul

16-Jul

30-Jul

13-Ago

27-Ago

10-Sep

24-Sep

08-Oct

22-Oct

05-Nov

19-Nov

03-Dic

17-Dic

31-Dic

Pie

s

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

Inicio operaciones 2006:01/05 con 10,2 pies.

Parada la navegacion el 06/05 hasta el 09/05 por

deficiencias el el balizaje y falta de

profundidad suficiente

Page 19: Expo 04.  Analisis de Datos Una Variable

DIAGRAMAS DE LÍNEA – CURVAS DE FRECUENCIA

17 18 19 20 21 22 23 24 25 28

edad

0

5

10

15

20

25

30

Co

un

t

Page 20: Expo 04.  Analisis de Datos Una Variable

DIAGRAMAS DE BARRA

Page 21: Expo 04.  Analisis de Datos Una Variable

GRÁFICAS DE MOSAICO

Grafica de Mosaico. Relación Aprob/Reprob Matemática I Sem 2004-3 UNEG

ReprobadosAprobados

A1A2A3A4A5A6D1D2D3D4D5D6F1F2F3F4F5F6

Page 22: Expo 04.  Analisis de Datos Una Variable

DIAGRAMAS CIRCULARES

Ejemplo de gráfico de sectores.

Distribución de una muestra de pacientes según el hábito de fumar.

Page 23: Expo 04.  Analisis de Datos Una Variable

HISTOGRAMAS – POLÍGONOS DE FRECUENCIA

Page 24: Expo 04.  Analisis de Datos Una Variable

JUGAR CON EL ANCHO DE LAS CLASES EN HISTOGRAMAS

http://www.ruf.rice.edu/~lane/stat_sim/descriptive/index.html

Instrucciones para usar el APPLETUn menú pop-up aparecerá a la izquierda cuando el applet se haya cargado. Esto puede tomar un minuto o dos dependiendo de la velocidad de su conexión y computadora del Internet. Sea por favor paciente. Comienzo y Fijación de las condiciones del applet Haga click y despliegue el menú para elegir un dataset conjunto de datos. Después de que un leve retraso, una ventana abrirá contiendo un histograma y unos digramas de validación cruzada. Si desea entrar con sus propios datos, elija "incorporar datos." Una ventana se abrirá para que usted incorpore sus datos. Usted debe tener un punto de referencia por línea. El histograma es la herramienta gráfica más importante para explorar la forma de las distribuciones de los datos. Los libros de textos proporcionan generalmente instrucciones detalladas en la construcción del histograma, pero ofrecen generalmente solamente algunos ejemplos.Una investigación en la valoración no paramétrica de la densidad ( Scott, 1992) ha proporcionado un avance de la investigación sobre cómo identificar "buenos" histogramas y "malos" histogramas. Hemos seleccionado un criterio supuesto de la "validación cruzada" aquí (véase abajo). El applet del histograma proporciona automáticamente los gráficos auxiliares de las funciones de la validación cruzada que estiman la calidad del histograma que se está exhibiendo. Valores más pequeños de la función de la validación cruzada implican generalmente errores más pequeños en la aproximación. Haciendo click en estos gráficos (o los botones de más/menos) le lleva a otros histogramas con diversos anchos de clase, o a los histogramas con el mismo ancho de clase pero con diferentes ubicaciones del límite de clase. Estos gráficos predicen la calidad de esos otros histogramas. El gráfico de la izquierda demuestra los valores de la validación cruzada para 30 anchos de clase y para el valor del "límite inferior de la primera clase" que se especifica en el gráfico derecho. El gráfico a la derecha demuestra los valores de la validación cruzada de 20 "límites inferiores de la primera clase" para el ancho de clase que se especifica en el gráfico izquierdo. El histograma por defecto utiliza el más bajo de los límites inferiores mostrados en el gráfico derecho conjuntamente con el ancho de clase que da el valor más bajo de la validación cruzada de las 30 anchuras originales del compartimiento. Típicamente, el más bajo de los límites más bajos no producirá el valor más bajo de la validación cruzada. Encontrar el valor más bajo es un proceso iterativo. Probar diversas combinaciones del límite más bajo y del ancho de la clase y observar los resultados. Usted puede cambiar los parámetros del ancho del límite inferior y/o de la clase de tres maneras: (1) haciendo click en un punto de uno de los gráficos de validación cruzada, (2) haciendo click en el botón del "+/-", y (3) incorporando un valor en el campo del texto y darle enter. Los puntos rojos en los gráficos de validación cruzada demuestran los valores usados por el histograma exhibido arriba.

Page 25: Expo 04.  Analisis de Datos Una Variable

POLÍGONOS DE FRECUENCIA ACUMULADA (OJIVAS)

DIAGRAMA DE PARETO

Page 26: Expo 04.  Analisis de Datos Una Variable

DIAGRAMAS DE CAJA Y BIGOTE

Page 27: Expo 04.  Analisis de Datos Una Variable

Histograma de Frecuencias. Calificaciones todas las asignaturas.Area Matematica

0 2 4 6 8 10 12Calif

0

30

60

90

120

150

180

frecu

en

cia

0 30 60 90 120 150 180

N° Alumnos

Proy

ecto

de

Carre

ra

Relación Aprob/Reprob por Proyecto

Admin

Contad

Indust

Inform

ReprobadoAprobado

Relación Aprobado/Reprobado

ReprobadoAprobado

66,57%

33,43%

RESUMEN ESTADISTICO AREA DE MATEMATICA:

15 ASIGNATURAS

59 SECCIONES

22 PROFESORES

2000 ALUMNOS ATENDIDOS

3500 MATRICULAS

1200 ALUMNOS APROBADOS

2300 ALUMNOS REPROBADOS

97531

95% Confidence Interval for Mu

4,03,53,0

95% Confidence Interval for Median

Variable: Calif

3,00000

2,12091

3,42644

Maximum3rd QuartileMedian1st QuartileMinimum

NKurtosisSkewnessVarianceStDevMean

P-Value:A-Squared:

4,00000

2,41908

3,84710

9,000006,000003,000001,000001,00000

446-1,190130,299613

5,108222,260143,63677

0,00017,989

95% Confidence Interval for Median

95% Confidence Interval for Sigma

95% Confidence Interval for Mu

Anderson-Darling Normality Test

Descriptive Statistics

PERÍODO LECTIVO 200403RESUMEN GENERALAREA DE MATEMATICA

Page 28: Expo 04.  Analisis de Datos Una Variable

Variable: POST-TEST

INTERPRETACIÓN : • En el Post-Test, la puntuación más frecuente asignada por los 22 alumnos estuvo entre

21 y 23 puntos.• La puntuación promedio fue de 26,27, con una desviación estándar de 56.45. El

coeficiente de variación es de 25%, lo cual nos indica que hay mayor dispersión o variabilidad en el post-test que en el pre-test.(19%)

• Pequeña tendencia al sesgo positivo como lo confirma el estadístico Skewness= 0,52.• El gráfico de Caja nos permite comparar las percepciones de los alumnos (M) con las de

las alumnas (F). Se observa que en la categoría Femenino, los datos están más concentrados y la mediana tiene menor valor. Para esta muestra de alumnos, las muchachas perciben un menor nivel de dificultad en los contenidos considerados en este experimento.

393429241914

95% Conf idence Interv al f or Mu

29,528,527,526,525,524,523,522,521,5

95% Conf idence Interv al f or Median

Variable: POST

22,0000

4,9643

23,4118

Maximum3rd QuartileMedian1st QuartileMinimum

NKurtosisSkewnessVarianceStDevMean

P-Value:A-Squared:

28,1093

9,2212

29,1337

39,000032,500024,500021,750014,0000

22-3,1E-01

0,52020841,6364 6,452626,2727

0,0390,769

95% Conf idence Interv al f or Median

95% Conf idence Interv al f or Sigma

95% Conf idence Interv al f or Mu

Anderson-Darling Normality Test

Descriptive Statistics

16 18 20 22 24 26 28 30 32 34 36 38

post

0

2

4

6

Histograma de frecuencias Puntuación en el Post-Test para 22alumnos de un curso de Estadística III

Fuente: J. Paolini(Software: SPSS)

F M

sex$

15

20

25

30

35

po

st

Grafico de Caja. Comparación entrealumnos y alumnas del nivel de dificultadpercibido después de saber su nota

Fuente: J. Paolini

EJEMPLO. PRESENTACIÓN ANÁLISIS DE UNA VARIABLE

Page 29: Expo 04.  Analisis de Datos Una Variable

Es una observación en un conjunto de datos que se aparta en valor de los otras observaciones en el conjunto de datos.

Es un valor inusualmente grande o inusualmente pequeño comparado a los otros.

Pudo ser el resultado de un error en la medición, en cuyo caso éste distorsionará la interpretación de los datos, teniendo influencia incorrecta en muchos resúmenes estadísticos, por ejemplo, la media. Si un outlier es un resultado genuino, es importante porque puede ser que indique un extremo del comportamiento del proceso bajo estudio.

Por esta razón, todos los outliers deben ser examinados cuidadosamente antes de emprender cualquier análisis formal.

Los outliers no se deben eliminar rutinariamente sin la justificación adicional

OUTLIER O DATO ABERRANTE