Curso de Probabilidad y Estadística Tema: (7) Estadística Descriptiva Dr. José Antonio Camarena...

Preview:

Citation preview

Curso de Probabilidad y EstadísticaTema: (7) Estadística Descriptiva

Dr. José Antonio Camarena Ibarrola

camarena@umich.mxFacultad de Ingeniería Eléctrica

El campo de la Estadística

Recopilación, Presentación, Análisis y Uso de Información para resolver

problemas, tomar decisiones, hacer estimaciones y diseñar productos y procedimientos

La variabilidad

La Estadística sirve para presentar, describir y entender la variabilidad

Un proceso produce un resultado, al repetirse un proceso, los resultados cambian a pesar de que el proceso se reprodujo aparentemente en las mismas circunstancias.

Población

Colección de mediciones de un universo respecto al cual queremos obtener conclusiones o tomar decisiones.

Ej. Conjunto de valores de consumo de energía (KWH) facturados en el primer bimestre de 2008

Tipos de datos

Datos numéricos (continuos o discretos)

Datos categóricos (Ej. Sexo, marca, ..)

Datos identificadores de unidades

Muestreo de datos

PoblaciónMuestraMuestreo aleatorio

Nota: Si la muestra es igual a la población, al muestreo le llamamos censo

Estadística

Descriptiva. Organización, resumen y presentación de datos

Inferencial. Llegar a una conclusión acerca de la población, el proceso o el modelo de asignación de las variables

Presentación gráfica de la información

Diagrama de puntos Gráficas de dispersión Diagramas de tallos y hojas Histogramas Diagramas de cajas con bigotes Gráficas de Pareto Series de tiempo

Diagrama de puntos

16.0 16.0 16.5 16.5 17.0 17.0 17.5 17.5 18.0 18.0 18.5 18.5

* * ** * * * * * ** * ** * * * * * * + + + + + + + + + ++ + + + + + + + + +

* = Mortero modificado* = Mortero modificado

+ = Mortero sin modificar+ = Mortero sin modificar

Ejemplo: Datos de resistencia a la tensión de Ejemplo: Datos de resistencia a la tensión de muestras de mortero Portland (Kg/cm2) con muestras de mortero Portland (Kg/cm2) con polímero agregado:polímero agregado:16.85 16.40 17.21 16.35 16.52 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.5717.04 16.96 17.15 16.59 16.57mortero Portland sin modificar:mortero Portland sin modificar:17.50 17.63 18.25 18.00 17.8617.50 17.63 18.25 18.00 17.8617.75 18.22 17.90 17.96 18.1517.75 18.22 17.90 17.96 18.15

Graficas de dispersión

Gráfica de dispersión

Grafica de dispersión 3D

Gráfica de burbujas

Ejemplo: Resistencia a la tensión de 80 muestras de aleación Aluminio-Litio

105 221 183 186 121 181 180 143 97 154 153 174 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149196 201 200 176 150 170 118 149

Diagrama de tallos y hojasTalloTallo HojaHojaFrecuenciaFrecuencia77 66 1 188 77 1 199 77 1 11010 5 15 1 2 21111 5 8 05 8 0 3 31212 1 0 31 0 3 3 31313 4 1 3 5 3 54 1 3 5 3 5 6 61414 2 9 5 8 3 1 6 92 9 5 8 3 1 6 9 8 81515 4 7 1 3 4 0 8 8 6 8 0 84 7 1 3 4 0 8 8 6 8 0 8 12 121616 3 0 7 3 0 5 0 8 7 93 0 7 3 0 5 0 8 7 9 10101717 8 5 4 4 1 6 2 1 0 68 5 4 4 1 6 2 1 0 6 10101818 0 3 6 1 4 1 00 3 6 1 4 1 0 7 71919 9 6 0 9 3 49 6 0 9 3 4 6 62020 7 1 0 87 1 0 8 4 42121 88 1 12222 1 8 91 8 9 3 32323 77 1 12424 55 1 1

Tallos y Hojas ordenadoTalloTallo HojaHojaFrecuenciaFrecuencia77 66 1 188 77 1 199 77 1 11010 1 51 5 2 21111 0 5 8 0 5 8 3 31212 0 1 30 1 3 3 31313 1 3 3 4 5 51 3 3 4 5 5 6 61414 1 2 3 5 8 6 9 91 2 3 5 8 6 9 9 8 81515 0 0 1 3 4 4 6 7 8 8 8 80 0 1 3 4 4 6 7 8 8 8 8 12 121616 0 0 0 3 3 5 7 7 8 90 0 0 3 3 5 7 7 8 9 10101717 0 1 1 2 4 4 5 6 6 80 1 1 2 4 4 5 6 6 8 10101818 0 0 1 1 3 4 60 0 1 1 3 4 6 7 71919 0 3 4 6 9 9 0 3 4 6 9 9 6 62020 0 1 7 80 1 7 8 4 42121 88 1 12222 1 8 91 8 9 3 32323 77 1 12424 55 1 1

Los datos ordenados

76 87 97 101 105 110 115 118 120 121 123 131 133 133 134 135 135 141 142 143 145 146 148 149 149 150 150 151 153 154 154 156 157 158 158 158 158 160 160 160 163 163 165 167 167 168 169 170 171 171 172 174 174 175 176 176 178 180 180 181 181 183 184 186 190 193 194 196 199 199 200 201 207 208 218 221 228 229 237 245

Son 80 datos, como es un numero par, la mediana será el promedio de los que ocupan los lugares 40 y 41, o sea (160+163)/2=161.5El primer cuartil es el valor en (0.25)*80+0.5=20.5, es decir, el promedio de los valores en los puestos 20 y 21, o sea (143+145)/2=144El tercer cuartil es el promedio de los valores en los puestos 60 y 61, es decir, (181+181)/2=181

El rango intercuartil

RIC=Q3-Q1 Es una medida de dispersión de

datos En el ejemplo anterior: RIC=181-

144=37

Tabla de Frecuencias

ClaseClase Frecuencia Frecuencia Frec. RelativaFrec. Relativa Frec. Rel. Frec. Rel. Acum.Acum.70 a 9070 a 90 22 0.02500.02500.02500.025090 a 11090 a 110 33 0.03750.0375 0.06250.0625110 a 130110 a 130 66 0.07500.0750 0.13750.1375130 a 150130 a 150 1414 0.17500.1750 0.31250.3125150 a 170150 a 170 2222 0.27500.2750 0.58750.5875170 a 190170 a 190 1717 0.21250.2125 0.80000.8000190 a 210190 a 210 1010 0.12500.1250 0.92500.9250210 a 230210 a 230 44 0.05000.0500 0.97500.9750230 a 250230 a 250 22 0.02500.0250 1.00001.0000

Histograma

0

5

10

15

20

25

70 90 110 130 150 170 190 210 230 250

Cajas con bigotes Presenta al mismo tiempo una medida de dispersión, de

tendencia central y de valores extremos Se debe determinar la mediana, el primero y el tercer

cuartil y los valores máximo y mínimo Rango Intercuartílico RIC=Q3-Q1

Las gráficas de Caja son útiles para hacer comparaciones

Supongamos que un corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 100m, durante 10 días consecutivos (cada día se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo)

El desplazamiento de las gráficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo menor, como así también la diferencia intercuartílica

Ejemplo

En un diario presentan el siguiente gráfico de caja y bigotes. La variable en estudio es “calificación en un examen de ingreso”

Teniendo en cuenta esta gráfica indique en forma aproximada:a)¿Qué calificación obtuvo el estudiante con menor nota? b)¿Qué calificación obtuvo el estudiante con mayor nota? c)¿Cuál es el primer cuartil?d)¿Cuál es el tercer cuartil?e)¿Cuál es la mediana?

Ejercicio

En un aeropuerto se registran los vuelos que arriban en una semana determinada y los datos se vuelcan en la siguiente tabla:

Ordene en forma creciente y calcule mediana y cuartiles.¿Cuántos vuelos hay el día que hay menos vuelos?¿Cuántos vuelos hay el día que hay más vuelos? Represente mediante un diagrama de caja y bigotes.

Día Lunes Martes

Miércoles

Jueves Viernes

Sábado

Domingo

Vuelos 25 37 45 50 32 40 30

Diagrama de Pareto Se ordenan la frecuencias en orden

descendente La escala horizontal no es necesariamente

numérica La línea indica los porcentajes acumulados Útiles en análisis de datos de defectos en

procesos de producción Muy usada en los programas de mejoramiento

de calidad pues permite a los ingenieros concentrarse en los problemas realmente importantes

Ejemplo, Proceso de fabricación de un puerta de automóvil

Tipo de Defecto

Cant

Mancha 21

Rayón 35

Defecto en manija

17

Floja 29

Abollada 3

Defecto en vidrio

5

TOTAL 110

Tipo de Defecto

Cant

Rayón 35

Floja 29

Mancha 21

Defecto en manija

17

Otros 8

TOTAL 110

%

32

26

19

16

7

100

Diagrama de Pareto

Serie de tiempo

0

50

100

150

200

250

300

5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80

Resist a la tensión

Descripción numérica de los datos Media Varianza Moda Mediana Sesgo Curtosis Covarianza Factor de correlación

La media

n

ii

n xnn

xxxx

1

21 1...

La media muestral

La media de la población

N

iixN 1

1

La media geométrica

nn

n

n

ii xxxxMg ...21

1

La varianza

2

1

2

1

22 1)(

1xx

nxx

ns

n

ii

n

iin

La varianza muestral

La varianza de la población

N

iixN 1

22 )(1

Varianzas muestrales, Covarianza muestral y correlación muestral

2

1

2

1

22 1)(

1xx

nxx

ns

n

ii

n

iix

2

1

2

1

22 1)(

1yy

nyy

ns

n

ii

n

iiy

yxyxn

yyxxn

sn

iii

n

iiixy

11

1))((

1

yx

xyxy SS

Sr

La cuasi-varianza muestral

2

11

21

2

21

111

1

)( n

ii

n

ii

n

ii

n xn

xnn

xxs

Esta medida de dispersión tiene la propiedad de insesgadez

La moda

El valor de mayor frecuencia Si hay dos, la distribución es bi-

modal

El rango dinámico

La diferencia entre el máximo y el mínimo de los valores de la población

Sesgo y Curtosis

31

3)(

)2)(1( s

xx

nnn

sesgo

n

ii

41

4)(

)3)(2)(1()1(

s

xx

nnnnn

curtosis

n

ii

Regresión lineal

Es una técnica estadística para investigar la relación entre dos o mas variables

Se utiliza para realizar predicciones de una variable (respuesta) en términos de otras (regresivas)

El término “regresión” fue acuñado por el frances Francis Galton quien lo usó en sus estudios de la herencia

La regresión simple o bivariada consiste de hacer predicciones de una variable en términos de otra solamente

En la regresión múltiple, la predicción se hace tomando en cuenta a varias variables

Regresión lineal simple Asumimos que la relación entre la

variable respuesta y la variable regresiva es una línea recta

Cada observación cumple La suma de los cuadrados de los

errores es

xxyE 10]|[ ii xy 10

n

i

n

iii xy

1 1

210

2 )(

Regresión lineal simple Para minimizar el error derivamos e

igualamos a cero respecto a

De la misma manera derivando respecto a

Simplificando estas dos ecs:

00)(2 10

1

i

n

ii xy

10)(2 10

1

ii

n

ii xxy

n

ii

n

ii yxn

1110

n

iii

n

ii

n

ii xyxx

11

21

10

Regresión lineal simple

Reconociendo que

La ecuación Se convierte en Esto lo reemplazamos

en

Para obtener

n

ii

n

ii yxn

1110

n

iixn

x1

1

xy 10

n

iii

n

ii

n

ii xyxx

11

21

10

n

iii

n

ii

n

ii xyxxxy

11

21

11 )(

n

iiyn

y1

1

Regresión lineal simple De la ecuación

Despejamos

Para obtener

n

iii

n

ii

n

ii xyxxxy

11

21

11 )(

n

iii

n

ii

n

ii

n

ii xyxxxxy

11

2

11

1

1

n

ii

n

ii

n

ii

n

iii

xxx

xyxy

1

2

1

111

Regresión lineal simple Es lo mismo que

n

ii

n

ii

n

ii

n

iii

xxx

xyxy

1

2

1

111

xx

xyn

ii

n

iii

n

ii

n

ii

n

ii

n

ii

n

iii

S

S

xx

xxy

xn

x

xyn

xy

2

1

12

11

2

1111

)(

)(

1

1

Ejemplo Un Ingeniero está investigando el

efecto de la temperatura sobre el rendimiento de un producto, sus experimentos arrojan los siguientes resultados

Temp

100 110 120 130 140 150 160 170 180 190

Rend

45 51 54 61 66 70 74 78 85 89

La gráfica de dispersión Esta gráfica nos indica una fuerte suposición

de que la relación entre las dos variables puede ser lineal

Haciendo los cálculos

10

1

673i

iy

10

1

1450i

ix10n

10

1

2 500,218i

ix

10

1

2 225,47i

iy

10

1

570,101i

ii yx

145x 3.67y

10

1

2210

1

2 250,810)1450(

500,218101

i iiixx xxS

10

1

10

1

10

1

985,310

)673)(1450(570,101

101

i ii

iiiixy yxyxS

Finalmente483.0

82503985

1 xx

xy

S

S

739.2)145)(483.0(3.6710 xy

xxy 483.0739.210

48

Perspectiva histórica de la teoría de la fiabilidad

• Estudios para poder evaluar la mortalidad derivada de las epidemias.

• Compañías de seguros, para determinar los riesgos de sus pólizas de seguro de vida.

• Tablas de vida: La primera tabla de vida data de 1693 y es debida a Edmund Halley

Orígenes:

se utilizaban los métodos actuariales tanto para estimar la supervivencia de pacientes sometidos a distintos tratamientos como para estudiar la fiabilidad de equipamientos, en particular de los ferrocarriles.

Siglo XX:

En 1939 Waloddi Weibulll, cuando era profesor del Royal Institute of Technology en Suiza, propuso una distribución para describir la duración de materiales, que más tarde llevaría su nombre.En 1951 Epstein y Sobel empezaron a trabajar con la distribución exponencial como modelo probabilístico para estudiar el tiempo de vida de dispositivos

49

Fiabilidad y Mantenimiento

Desde el punto de vista de la ingeniería, la fiabilidad es la probabilidad de que un aparato, dispositivo o persona desarrolle una determinada función bajo condiciones fijadas durante un periodo de tiempo determinado.

• La confiabilidad de un elemento puede ser caracterizada a través de distintos modelos de probabilidades.

• Podemos describir varias distribuciones de fallas comunes y ver qué podemos aprender de ellas para gestionar los recursos de mantenimiento. Convirtiendo el conocimiento ganado de ellas en acciones PROACTIVAS de Mantenimiento y aplicarlas en el Diseño.

50

Herramientas de Fiabilidad

Se estudia mediante el análisis estadístico de datos de supervivencia.

ISO define fiabilidad como la probabilidad de que un componente o sistema, desarrolle durante un periodo de tiempo dado, la tarea que tiene encomendada sin fallos, y en las condiciones establecidas.

Estudiar Duraciones de Procesos que es común en muchas ciencias:

• Duración de un componente (Fiabilidad)

• Supervivencia de un paciente a un tratamiento (Medicina)

• Duración del desempleo (Economía)

• Edad de las personas (Demografía y sociología)

51

Veamos, a partir de un histograma podemos desarrollar las cuatro funciones de importancia para la caracterización de la fiabilidad.

0

1

2

3

4

5

6

7

8

9

ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE

Meses

Fal

los Serie1

Serie2

MES fallasENERO 2

FEBRERO 5MARZO 7ABRIL 8MAYO 7J UNIO 6J ULIO 5

AGOSTO 4SEPTIEMBRE 3

OCTUBRE 1TOTAL 48

52

En estudios de mantenimiento necesitamos pasar del anterior histograma a funciones continuas, debido que la variable tiempo de fallo es continua. Esta funciones nos dan una idea clara de la distribución de fallos. Empezamos por la f(t) ó pdf que indica la densidad probable de fallas en cada intervalo t.

Serie1

0

1

2

3

4

5

6

7

8

9

ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE

Meses

f(t)

Pudiendo llamar a t1 y t2, -∞ y ∞ respectivamente

2

1( ) ( ) ( )

t

tf t f t d t

53

F(t) ó CDF Cumulative Density Function: aquí de -∞ a Tiempo t, seria la probabilidad de que la falla ocurra antes del tiempo t.

0

1

2

3

4

5

6

7

8

9

ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE

Meses

f(t)

el área bajo la curva - transcurrido t (Función Repartición ) cdf=14/48

Intervalo -∞ a t, la acumulación de fallasTiempo t

( ) ( )t

F t f t dt

54

R(t) Reliability (confiabilidad)

Esta es la probabilidad de éxito o sea que no ocurra la falla antes de t. Representando por el área bajo la curva desde t hasta infinito.

R(t)= 1- F(t)

0

1

2

3

4

5

6

7

8

9

ENERO FEBRERO MARZO ABRIL MAYO JUNIO JULIO AGOSTO SEPTIEMBRE OCTUBRE

Meses

f(t)

( ) ( )R t f t dtt

Tiempo t

121

2121

1)()()(

),(tttR

tRtRttTF

La tasa de falla del intervalo t1 a t2 se define como

Es la probabilidad de que ocurra una falla en el intervalo de t1 a t2 dado que no ha habido falla al tiempo t1la función de Riesgo, o tasa de mortalidad h(t) es

)()('

)(1)()(

lim1

)()()(

lim)(00 tR

tRtRt

tRttRttR

ttRtRth

tt

)(1)(

)()(

)(tFtf

tRtf

th

Y como R(t)=1-F(t), entoncesR’(t)=-F’(t)=-f(t), de ahí

Es muy común asumir que las fallas tienen una distribución exponencial, entonces:

t

t

ee

tRtf

th)()(

)(

Y entonces se dice que la tasa de falla es constante, la constante λ

56

(t)

constanteHipótesis exponencial

desarrollo

Madurez (fallos aleatorios)Inicio utilización

obsolescencia

desclasificación

1 2 3Edad t

 

DOMINIO ELECTRONICO

Función de Riesgo típica

57

(t)

Curva debida a los fallos precoces

rodaje

Madurez

obsolescencia

desclasificación

1 2 3Edad t

Puesta en servicio

Influencia del desgaste sobre (t)

 

DOMINIO MECANICO 

( ) ( )( )

( ) 1 ( )

f t f th t

R t F t

Función de Riesgo típica

58

Cuando la tasa de fallo del elemento responde a la curva de la bañera es conveniente realizar un ensayo acelerado del mismo (en condiciones de stress) para que supere la zona de mortalidad infantil o fallas infantiles.

– determinar cuando comienza la vida útil del producto y ofrecer a los clientes una garantía de funcionamiento durante ese periodo de funcionamiento problemático.

– Una vez superado el periodo crítico, la empresa está razonablemente segura de que el producto tiene una posibilidad de fallos reducida

59

La distribución de fallas de diferentes tipos de maquinaria no son las mismas. Aun varían en una misma maquina durante su operación. Sus formas pueden ser estudiadas a partir de las funciones pdf, cdf y tasa de falla de los datos reales de mantenimiento o de ensayos de fiabilidad. Estos dan forma a determinadas expresiones matemáticas conocidas como distribuciones obteniendo:

•Dist. Exponencial

•Dist. Normal

•Dist. Lognormal

•Dist. Weibull

60

f (t) = exp (-t), t 0 F(t) = 1 - exp(-t), t 0 R(t) = exp (-t ), t 0

EL MODELO EXPONENCIAL

pdf

cdf

R(t) = h(t)

61

f (x)

=1x)

=2x)

=5x)

=3,6

=2,5x)

f (t)

t

=0,5x)

t

(t)

2

1

0,5

=4

3

2

1,5

0,5t1

                             

 

EL MODELO DE WEIBULL

1

( )tt

f t e

parámetro de forma > 0;

parámetro de escala > 0;

parámetro de posición - < < +

( ) 1

t

F t e

62

Las características de la distribución de Weibull

63

Las características de la distribución de Weibull

64

f(t)

t2 < 0 2 = 0 2 > 0

            

 -  El parámetro de posición (en unidad de tiempo)

Se llama también parámetro de diferenciación o de localización.

Significado: indica la fecha de inicio de los fallos.

 

-- si > 0, hay supervivencia total entre t = 0 y t = ;

-- si = 0, los fallos empiezan en el origen del tiempo;

-- si < 0, los fallos han empezado antes del origen del tiempo.

Las características de la distribución de Weibull

65

EjemploObtención de la fiabilidad de neumáticos a través del Análisis de la degradación

Siete marcas de neumáticos fueron controlados en su desgaste cada 5.000 millas, midiendo la profundidad de cada uno. La tabla que contiene las mediciones desde su inicio hasta las 30.000 millas

Degradación Critica y= 2 mm

f (t) = exp (-t), t 0 F(t) = 1 - exp(-t), t 0 R(t) = exp(-t ), t 0

66

Ejemplo

67

Ejemplo

68

Ejemplo

69

Ejemplo

Diagrama de Ishikawa

El diagrama de Ishikawa conocido también como causa-efecto, es una forma de organizar y representar las diferentes teorías propuestas sobre las causas de un problema. Nos permite, por tanto, lograr un conocimiento común de un problema complejo, sin ser nunca sustitutivo de los datos.