View
18
Download
0
Category
Preview:
Citation preview
02/02/2013
1
Ajuste distribucional “The way statisticians look at variation is
through the lens of distributions.”
Identificando el modelo distribucional que
mejor se ajusta a los datos
Elaborado por A. Mayorga Noviembre 2012
Distribuciones • La variación es una realidad detectable en todo sistema y entidad.
• Los estadísticos miran la variación a través de una lente llamada
“distribución”.
Modelamos este
tipo de variación
como siendo
generada por un
proceso aleatorio.
Variación
Patrones, regularidades en
los datos
Ruido, variación inherente,
fluctuación
Es la variación
que queda cuando
removemos los
patrones
Shewhart (1931) la
denominó “variación
incontrolada”.
Los Modelos de
Regresión son los
más simples de estos
modelos.
Elaborado por A. Mayorga Noviembre 2012
02/02/2013
2
• La variación es una realidad observable
• Parte de esa variación puede ser explicada
• Otra parte de esa variación no puede ser
explicada
• La variación “aleatoria” es la manera en que
los estadísticos modelan la variación
inexplicable
• La variación inexplicable puede estar
producida por un proceso de muestreo
aleatorio
De acuerdo con
Shewhart, “estas
fluctuaciones son debidas
a los efectos del azar o
de causas desconocidas”.
Las “variaciones
aleatorias” pueden ser
producidas por un
sistema variable o por un
sistema constante de
causas aleatorias.
Si esta variación esta producida por un sistema constante, ésta puede predecirse mediante modelos probabilísticos. Elaborado por A. Mayorga
Noviembre 2012
Distribuciones
Están asociadas con la variación que
podemos observar (en una manera
imperfecta)
Nos informan acerca del
comportamiento de los
datos
Son conceptos constructivos
clave para los modelos
estadísticos
La frecuencia empírica o
distribución observada de
nuestra variable contiene la
variación que podemos
observar directamente en
nuestros datos
Concebimos la variación
inexplicable contenida en
nuestros datos como siendo
generada por alguna
distribución desconocida.
Nos referimos a ella como
“distribución subyacente”,
aún cuando es solo una
entidad conceptual. Existe aquí un componente
inferencial, solo una descripción de lo que existe
en los datos. Esta es la “distribución
teórica”, la cual define o describe un modelo de
probabilidad.
𝑷 𝒙𝟏 ≤ 𝒙 ≤ 𝒙𝟐 = 𝒇(𝒙)𝒅𝒙𝒙𝟐
𝒙𝟏
= 𝑭(𝒙)
Elaborado por A. Mayorga Noviembre 2012
02/02/2013
3
Nunca podremos creer
completamente en
nuestra distribución
teórica seleccionada.
Lo mejor que podemos
esperar es que el acto de
muestrear desde una
distribución teórica propuesta
refleje en una manera
adecuada los aspectos más
importantes del proceso que
generó nuestros datos ...
Es esta falta de veracidad en la
distribución teórica propuesta
la que nos conduce a
consideraciones de “robustez
de la distribución teórica” y de
“bondad de ajuste” de la
distribución teórica a la
distribución empírica.
Elaborado por A. Mayorga Noviembre 2012
Robustez:
Deseamos utilizar procedimientos
que sean insensibles a las
desviaciones de los supuestos
distribucionales
Bondad de ajuste:
Deseamos evitar la utilización
de distribuciones teóricas que
en una manera demostrada
no se ajusten a nuestros datos.
La experiencia nos muestra
que, virtualmente en
cualquier situación, toda
suposición teórica acerca
de la distribución que
deseamos utilizar se
mostrará implausible dada
una considerable cantidad
de datos.
Elaborado por A. Mayorga Noviembre 2012
02/02/2013
4
La primera regla al seleccionar un
modelo distribucional consiste en
no realizar ninguna evaluación
que no posea base técnica.
Es inadmisible someter un
conjunto de datos a
procedimientos matemáticos
sin tomar en consideración el
proceso que genera los datos.
Es mejor identificar el modelo distribucional que se esperaría para este tipo de proceso y
someterlo a verificación.
8
La primera cuestión por resolver durante el estudio de un proceso es hallar el modelo probabilístico que describiría el comportamiento ideal (perfecto) del proceso para una variable seleccionada.
Hay a disposición una gran gama de modelos probabilísticos para variables continuas: Normal, Lognormal, Exponencial, Weibull, Gamma, etc.
No todos ellos son adecuados para describir el comportamiento de una variable de proceso.
Existen variables que pueden tomar valores en ambas direcciones respecto del valor objetivo (T).
Este tipo de variables posee un límite inferior (LSL) y un límite superior (USL) de especificación.
Existen otras variables que solo permiten desviaciones unidireccionales respecto del valor objetivo.
Es decir, estas variables no poseen un valor objetivo sino sólo un único límite de especificación (superior o inferior).
Es común encontrarse situaciones en las que el analista intenta ajustar el
comportamiento distribucional de una variable del proceso sin conocer siquiera
cómo esta variable debería comportarse si el proceso fuera estable.
𝒙 ≥ 𝑳𝑺𝑳 𝒙 ≤ 𝑳𝑺𝑳 𝑳𝑺𝑳 ≤ 𝒙 ≤ 𝑼𝑺𝑳
Elaborado por A. Mayorga Noviembre 2012
02/02/2013
5
9
Un solo limite de especificación
y un target
Dos limites de especificación
y un target
Exponencial (Caso ideal)
Gamma
Lognormal
Weibull
Normal (Ideal)
Lognormal
Weibull
Gamma
Según el tipo de variable por estudiar, el analista debe identificar los modelos
posibles para describir su comportamiento, así como el método de análisis.
En caso de que durante el estudio analítico se halle que ninguna de esas
distribuciones se ajusta al comportamiento esperado de la variable, es de suponer
que algo anómalo esté sucediendo con el proceso o con las mediciones.
Modelos esperados para el comportamiento de un proceso
Elaborado por A. Mayorga Noviembre 2012
Pruebas de Bondad de Ajuste
Evaluar los supuestos distribucionales es un requerimiento para la mayoría de los procedimientos estadísticos.
El análisis estadístico paramétrico supone una cierta distribución de los datos. Si este supuesto es violado la interpretación y la inferencia pueden no ser confiables ni válidas.
Existen 3 tipos de pruebas de bondad de ajuste:
Pruebas basadas en la Función de
Distribución Empírica (EDF)
- Kolmogorov-Smirnov (1933)
- Anderson-Darling (1954)
- Von Mises (1931)
Pruebas basadas en Correlación y
Regresión
- Shapiro-Wilk (1965)
- Shapiro-Francia (1972)
- Ryan-Joiner (1976)
Pruebas basadas en Momentos
- D’Agostino-Pearson (1973)
- Jarque-Bera (1987)
02/02/2013
6
Pruebas basadas en la Función de Distribución Empírica (EDF)
La idea central en este método es comparar la
función de distribución empírica (EDF), la cual
se estima con base en los datos, con la función
de distribución acumulada (CDF) de la
distribución, con el fin de observar si existe un
buen acuerdo entre ellas
x que iguales o menores
ordenadas nesobservacio de Número :xxN
n,...,2,1i,n
xxN)x(F
)i(
)i(
n
)x(F)x(FsupD 0nxn
Kolmogorov-Smirnov Test
Este estadístico tiende a ser
más sensible cerca del
centro de la distribución.
Fn(x):= Empirical Distribution Function (EDF) estimador
F0(x):= Hypothesized Distribution Function (CDF) estimador
n,...,2,1K
xxxn
k
xx1
xx0
)x(F
1)(k(k)
(k)
(k)
n
Ejemplo cálculo Fn(x):
Sean {0,1,2,2,4,6,6,7} los conteos
ordenados del número de veces que una
muestra de n=8 personas nadaron en el
último mes.
76642210x
87654321k
)k(
8k7x1)x(F
7,6k7x6)x(F
5k6x4)x(F
4,3k4x2)x(F
2k2x1)x(F
1k1x0)x(F
0x0)x(F
n
87
n
85
n
84
n
82
n
81
n
n
Pru
eb
as
ba
sa
da
s e
n la
Fu
nc
ión
de
Dis
trib
uc
ión
Em
pír
ica
(ED
F)
02/02/2013
7
Ejemplo aplicación del test Kolmogorov-Smirnov (KS):
Sean
{108,112,117,130,111,131,113,113,105,128}
los tiempos en minutos desperdiciados
por una muestra aleatoria de 10
empleados durante la labor diaria,
dedicados a realizar una actividad no
laboral, tal como navegar en la internet o
enviar correos electrónicos a amigos.
¿Es razonable suponer que los datos
provienen de una distribución Normal con
x=120 min y x=10 min?
Solución:
Para este caso, H0:= x es NID(120,10)
H1:= x no es NID(120,10)
Para la distribución normal,
2
2
2
)x(exp
2
1),,x(f
es la función de densidad de probabilidad
(pdf).
dt ),,t(f
dt 2
)t(exp
2
1),,x(F
x
x
2
2
Normalizando, obtenemos:
)z()(
dt)exp(
zP)xX(P)x(F
x
2t
x
0
x
2
Cuyos valores obtenemos de la tabla de
valores de la función Normal
estandarizada.
Así, lo primero que debemos hacer es
ordenar los datos y luego, para cada valor
de x, calcular el valor correspondiente de
xz
Pru
eb
as
ba
sa
da
s e
n la
Fu
nc
ión
de
Dis
trib
uc
ión
Em
pír
ica
(ED
F)
1357.00.18643.01.113110
0587.09.08413.00.11309
009.08.07881.08.01288
3179.07.03821.03.01177
3580.06.02420.07.01136
2580.05.02420.07.01135
1881.04.02119.08.01124
1159.03.01841.09.01113
0849.02.01151.02.11082
0332.01.00668.05.11051
)x(F)x(F)x(F)z()x(Fzxk 0nn0)k(
3580.0
)x(F)x(FsupD 0nxn
De la tabla para valores críticos para Dn,,
409.0D 10,0.05
409.0DD0.3580 10,0.05n
Conclusión:
Así, no podemos rechazar la hipótesis nula
H0 al nivel de confianza =0.05.
Debemos suponer que los datos se ajustan
a la distribución Normal.
Pru
eb
as
ba
sa
da
s e
n la
Fu
nc
ión
de
Dis
trib
uc
ión
Em
pír
ica
(ED
F)
02/02/2013
8
Pru
eb
as
ba
sa
da
s e
n la
Fu
nc
ión
de
Dis
trib
uc
ión
Em
pír
ica
(ED
F)
)x(F1log)x(FlogsumnA i1noion1i2
n,1in
Anderson-Darling Test
Este estadístico tiende a ser
más sensible cerca de las
colas de la distribución.
F0(x):= Estimador de la función de distribución acumulativa (CDF)
xi := Valores ordenados
n := Tamaño de muestra
AD test es comparable en
cuanto a su poder al test
de Shapiro-Wilk (SW).
Puede utilizarse para las
distribuciones Normal,
Lognormal, Exponencial,
Weibull, Extreme Value
Tipo I, así como la
distribución Logística.
Si 𝑨𝒏 ≤ 𝑪𝜶,𝒏, donde (1-) es el nivel de confianza seleccionado, entonces la
hipótesis nula de que los datos siguen la distribución sujeto de comparación
no puede ser rechazada al nivel de confianza utilizado. Pru
eb
as
ba
sa
da
s e
n la
Fu
nc
ión
de
Dis
trib
uc
ión
Em
pír
ica
(ED
F)
02/02/2013
9
AD para distribución Weibull
Dodson, B. The Weibull Analysis Handbook. 2006. ASQ Press
0.2 0.1 0.05 0.025 0.01
2 0.2670 0.2680 0.2855 0.2832 0.3518
3 0.3587 0.4168 0.4780 0.5253 0.7535
4 0.4005 0.4808 0.5603 0.6293 0.9283
5 0.4242 0.5157 0.6052 0.6862 1.0247
6 0.4394 0.5377 0.6333 0.7219 1.0856
7 0.4501 0.5527 0.6524 0.7462 1.1273
8 0.4579 0.5635 0.6663 0.7639 1.1577
9 0.4639 0.5717 0.6768 0.7772 1.1808
10 0.4686 0.5782 0.6850 0.7877 1.1989
15 0.4826 0.5967 0.7086 0.8179 1.2514
20 0.4894 0.6056 0.7199 0.8323 1.2766
25 0.4934 0.6108 0.7264 0.8407 1.2914
30 0.4961 0.6142 0.7307 0.8463 1.3011
35 0.4979 0.6166 0.7338 0.8502 1.3080
40 0.4994 0.6184 0.7360 0.8531 1.3131
45 0.5004 0.6197 0.7378 0.8553 1.3170
50 0.5013 0.6208 0.7392 0.8571 1.3202
55 0.5020 0.6217 0.7403 0.8585 1.3228
60 0.5026 0.6225 0.7413 0.8598 1.3249
65 0.5031 0.6231 0.7421 0.8608 1.3267
70 0.5036 0.6236 0.7427 0.8616 1.3282
75 0.5039 0.6241 0.7433 0.8624 1.3296
80 0.5043 0.6245 0.7438 0.8631 1.3307
85 0.5045 0.6249 0.7443 0.8636 1.3318
90 0.5048 0.6252 0.7447 0.8642 1.3327
95 0.5050 0.6255 0.7450 0.8646 1.3335
100 0.5052 0.6257 0.7454 0.8650 1.3342
n
Valores críticos (ca) para estadístico Anderson-Darling
AD para distribución Normal P
rue
ba
s b
as
ad
as
en
la
Fu
nc
ión
de
Dis
trib
uc
ión
Em
pír
ica
(ED
F)
Con el fin de ajustar este estadístico según el tamaño de
muestra n utilizado y según el tipo de distribución comparado,
se utilizan los siguientes factores.
Distribución Factor
Normal 𝐴∗ = 𝐴𝑛 1.0 +0.75𝑛+2.25𝑛2
Exponencial 𝐴∗ = 𝐴𝑛 1.0 + 0.6
𝑛
Gamma 𝐴∗ = 𝐴𝑛 1.0 +0.6
𝑛 para k=1
𝐴∗ = 𝐴𝑛 +0.2+
0.3
𝑘𝑛
para k≥2
Valor Extremo 𝐴∗ = 𝐴𝑛 1.0 + 0.2
𝑛
Weibull 𝐴∗ = 𝐴𝑛 1.0 + 0.2
𝑛
Pru
eb
as
ba
sa
da
s e
n la
Fu
nc
ión
de
Dis
trib
uc
ión
Em
pír
ica
(ED
F)
02/02/2013
10
Ejemplo aplicación del test Anderson-Darling (AD): Distribución Normal
Sean
{338.7, 308.5, 317.7, 313.1, 322.7, 294.2}
los datos resultantes de una prueba de
esfuerzo, obtenidos al azar de la misma
población.
Dado que la mediana tiene un valor de
315.40 y la media un valor de 315.82, ¿es
razonable suponer que los datos
provienen de una distribución Normal con
x=315.8 y x=14.9?
Solución:
Para este caso, H0:= x es NID(315.8,14.9)
H1:= x no es NID(315.8,14.9)
Para la distribución normal,
2
2
2
)x(exp
2
1),,x(f
es la función de densidad de probabilidad
(pdf).
dt ),,t(f
dt 2
)t(exp
2
1),,x(F
x
x
2
2
Normalizando, obtenemos:
)z()(
dt)exp(
zP)xX(P)x(F
x
2t
x
0
x
2
Cuyos valores obtenemos de la tabla de
valores de la función Normal
estandarizada.
Así, lo primero que debemos hacer es
ordenar los datos y luego, para cada valor
de x, calcular el valor correspondiente de
xz
7448.073.938.541.17.3386
1409.311.679.464.7.3225
3471.427.551.127.7.3174
3746.551.427.183.1.3133
152.679.311.493.5.3082
099.938.073.456.12.2941
Azzzxi2
ii1niii
16993.0 A
ASUM A
2
2
i6,1I
2
De la tabla para valores críticos para C,
6333.0C 6,0.05
6333.0CA0.2018 6,0.05n
Conclusión:
Así, no podemos rechazar la hipótesis nula H0 al nivel de confianza =0.05.
Debemos suponer que los datos se ajustan a la distribución Normal.
Donde
i1nin1i22
i zlog1logzlog1A
𝐴∗ = 𝐴2 1.0 + 0.75𝑛+2.25𝑛2
𝐴∗ = 0.16993 1.0 + 0.756+2.2536
𝐴∗ = 0.2018 Pru
eb
as
ba
sa
da
s e
n l
a F
un
ció
n d
e D
istr
ibu
ció
n E
mp
íric
a (
EDF)
02/02/2013
11
Ejemplo aplicación del test Anderson-Darling (AD): Distribución Weibull
Dados los siguientes datos
{11.7216, 10.4286, 8.0204, 7.5778, 1.4298,
4.1154}
resultantes de una prueba de
confiabilidad.
¿Es razonable suponer que los datos
provienen de una distribución Weibull con
=8.7 y =1.3?
Solución:
Para este caso, H0:= x es Weibull con =8.7 y =1.3
Para la distribución Weibull,
xtexpx),,x(f1
es la función de densidad de probabilidad
(pdf).
iii
xz con )z(WxXP
)x
exp(1),,x(F
377565.091178.770845.47336.17216.116
063865.314691.717948.26167.14286.105
584017.566413.593293.89967.0204.84
223412.593293.566413.83166.5778.73
210914.717948.314691.37789.1154.42
355283.770845.091178.09560.4298.11
AzWzWzxi2
ii1niii
3794.0 A
ASUM A
2
2
i6,1I
2
Donde
i1nin1i22
i zWlog1logzWlog1A
Pru
eb
as
ba
sa
da
s e
n l
a F
un
ció
n d
e D
istr
ibu
ció
n E
mp
íric
a (
EDF)
𝐴∗ = 𝐴2 1.0 + 0.2
𝑛
𝐴∗ = 0.3794 1.0 + 0.2
6
𝐴∗ = 0.4103
De la tabla para valores críticos para
C(Stephens):
757.0C 0.05
0.757CCA0.4103 0.056,0.05n
Conclusión:
Así, no podemos rechazar la hipótesis nula H0 al nivel de confianza =0.05.
Debemos suponer que los datos se ajustan a la distribución Weibull con =8.7 y =1.3.
Pru
eb
as
ba
sa
da
s e
n l
a F
un
ció
n d
e D
istr
ibu
ció
n E
mp
íric
a (
EDF)
02/02/2013
12
2
2
S
bW
Shapiro-Wilk Test Este estadístico tiende a ser
más sensible cerca de la
cola izquierda de la
distribución.
Pru
eb
as
ba
sa
da
s e
n c
orr
ela
ció
n y
re
gre
sió
n
Con
2
in,1I
2
in,1I
2
1in
21
2n
)1(
i1in1ink,1I
xSUMn
1xSUMS
1- ATabla la de factor : a
impar es n si )1n(k ;par es n sik
xxaSUMb
El estadístico b da, hasta una cierta constante, la pendiente de la línea de regresión.
Los coeficientes an-i+1 son constantes generadas a partir de los momentos de la distribución Normal.
Esta prueba se ha convertido en la
preferida debido a sus excelentes
propiedades de discriminación
(power).
Es recomendado para casos con
tamaños de muestra limitados
(n 50).
(1) Esta fórmula es válida para
distribución Normal. Para
otras distribuciones, su cálculo
es diferente.
Pru
eb
as
ba
sa
da
s e
n c
orr
ela
ció
n y
re
gre
sió
n
02/02/2013
13
Pru
eb
as
ba
sa
da
s e
n c
orr
ela
ció
n y
re
gre
sió
n
Ejemplo aplicación del test Shapiro-Wilk (SW): Distribución Normal
Dados los siguientes datos ordenados
{.6925, 1.6952, 1.6970, 1.6974, 1.6981,
1.6985, 1.6988, 1.6992, 1.7001, 1.7012,
1.7015, 1.7016, 1.7030, 1.7050, 1.7055,
1.7060, 1.7083, 1.7085, 1.7107}
resultantes de una medición de 20
diámetros.
¿Es razonable suponer que los datos
provienen de una distribución Normal?
Solución:
Para este caso, H0:= x es Normal
421086.5 b
0242.0b
42
2
2
in,1I
2
in,1I
2
102.4S
00042.0
90443.5790485.57
0307.8420
190485.57
xSUMn
1xSUMS
Como n=20 k=10.
0000.7012.17015.10140.11
0001.7001.17016.10422.12
0002.6992.17026.10711.13
0042.6988.17030.11013.14
0009.6985.17050.11334.15
0012.6981.17055.11686.16
0018.6974.17060.12085.17
0029.6970.17083.12565.18
0043.6952.17085.13211.19
0086.6925.17107.14734.20
)xx(axxai1n ii1ni1nii1ni1n
i1in1ink,1I
xxaSUMb
Pru
eb
as
ba
sa
da
s e
n c
orr
ela
ció
n y
re
gre
sió
n
395.1102.4
1086.5
S
bW
4
4
2
2
De la tabla A-2 para valores críticos de la
distribución Normal:
905.0W20,0.05
905.0WW1.395 20,0.05
Conclusión:
Así, debemos rechazar la hipótesis nula H0 al nivel de confianza =0.05.
Debemos suponer que los datos no se ajustan a la distribución Normal.
02/02/2013
14
Shapiro-Wilk Statistic Critical Values
Pru
eb
as
ba
sa
da
s e
n c
orr
ela
ció
n y
re
gre
sió
n
Shapiro-Wilk Statistic Critical Values
Pru
eb
as
ba
sa
da
s e
n c
orr
ela
ció
n y
re
gre
sió
n
02/02/2013
15
Power de las pruebas de bondad de ajuste
De estas 1000 simulaciones
realizadas con PASS 11, aplicando
una prueba para ajustar distribución
Normal a datos generados mediante
un modelo Gamma, se observa que el
estadístico Shapiro-Wilk y el
Anderson-Darling poseen un power
similar para valores de tamaños de
muestra n ≤ 100, siendo además los
que presentan un mejor desempeño.
Elaborado por A. Mayorga Noviembre 2012
30
Datos truncados o asociados con pruebas de falla
Si los datos por analizar están truncados o son “censored”, entonces el procedimiento anterior podría no ser el más indicado para hallar el modelo distribucional de mejor ajuste.
En estos casos se recomienda utilizar el método basado en el Maximum Likehood Estimator (MLE) para hallar la distribución de mejor ajuste.
El método estándar indicado con
anterioridad utiliza el método LSE
(Least Square Estimates), el cual es
recomendado para muestras
pequeñas y datos no truncados
(censored).
Datos Censored: son aquellos cuyas
propiedades medidas no se conocen
con precisión, pero se sabe que están
por encima o por debajo de algún
límite de sensibilidad.
Datos Truncados: son aquellos que
debido a límites de sensibilidad
están perdidos de la muestra.
Elaborado por A. Mayorga Noviembre 2012
02/02/2013
16
31
Da
tos
ce
ns
ore
d o
as
oc
iad
os
co
n p
rue
ba
s d
e f
all
a
El procedimiento´por seleccionar depende del tipo de muestra (es
decir, si es “uncensored” o “censored”, o si los datos están
agrupados o no). El “censoring” ocurre cuando el valor asignado a
una medición u observación es conocido sólo parcialmente.
MLE, el cual a diferencia del LSE
requiere de un mínimo o de
ninguna suposición distribucional,
es útil en la obtención de una
medida descriptiva con el fin de
resumir datos observados, pero no
posee ninguna base para la prueba
de hipótesis o construir intervalos
de confianza.
A diferencia del LSE, el cual es
básicamente una herramienta descrip-
tiva, el método MLE es el preferido en
estadística en la estimación de paráme-
tros y es una herramienta indispensable
para muchas técnicas de modelado
estadístico, en particular en el modelado
no lineal con datos no normales.
Existen dos métodos generales para la estimación
de párametros: Least-Squares Estimation (LSE) y
Maximum Likelihood Estimation (MLE).
LSE ha sido la selección popular para ajuste
distribucional, y está asociada a muchos
conceptos estadísticos, tales como regresión
lineal, suma de errores cuadráticos,
desviación cuadrática media, etc.
Elaborado por A. Mayorga Noviembre 2012
32
Si a estos datos le aplicáramos el método basado en el p-value, no obtendríamos ningún ajuste distribucional por lo que no sería posible continuar con el estudio de capacidad.
Note que aunque no se
pudo asignar un p-value
al modelo lognormal, éste
parece ajustarse bien a
los datos.
Elaborado por A. Mayorga Noviembre 2012
Da
tos
ce
ns
ore
d o
as
oc
iad
os
co
n p
rue
ba
s d
e f
all
a
02/02/2013
17
33
Sin embargo, al percatarnos de que estos datos corresponden a una prueba de explosión de un balón (por lo que son datos de falla) y que son, además, datos truncados (aunque la variable es continua), podemos utilizar:
Los datos poseen solo un límite inferior (5 psi), por lo que las distribuciones esperadas para estos datos son: Weibull, Lognormal y Exponencial.
Si el proceso es robusto, es de esperar hallar una densidad de valores muy baja cerca del límite inferior y muy alta lejos de este límite.
Esta opción
permite
identificar el
modelo de
mejor ajuste
distribucional y
utiliza ambos
métodos (LSE y
MLE).
Elaborado por A. Mayorga Noviembre 2012
Da
tos
ce
ns
ore
d o
as
oc
iad
os
co
n p
rue
ba
s d
e f
all
a
34
Ambas opciones permiten
utilizar tanto el método LSE
como el MLE.
Aunque ambos métodos (LSE y
MLE) coinciden en el modelo
de mejor ajuste, difieren en
cuanto al valor de los
parámetros distribucionales.
Elaborado por A. Mayorga Noviembre 2012
Da
tos
ce
ns
ore
d o
as
oc
iad
os
co
n p
rue
ba
s d
e f
all
a
02/02/2013
18
35
10.001.000.100.01
99.9
90
50
10
1
High - Threshold
Pe
rce
nt
20105
99.999
90
50
10
10.1
High - Threshold
Pe
rce
nt
10.01.00.1
99.9
90
50
10
1
High - Threshold
Pe
rce
nt
2-Parameter Exponential
3.967
3-Parameter Lognormal
1.516
3-Parameter Weibull
1.607
Anderson-Darling (adj)
10.001.000.100.01
99.9
90
50
10
1
High - Threshold
Pe
rce
nt
20105
99.999
90
50
10
10.1
High - Threshold
Pe
rce
nt
101
99.9
90
50
10
1
High - Threshold
Pe
rce
nt
2-Parameter Exponential
*
3-Parameter Lognormal
0.977
3-Parameter Weibull
0.969
Correlation Coefficient
Probability Plot for HighML Estimates-C omplete Data
2-Parameter Exponential 3-Parameter Lognormal
3-Parameter Weibull
Probability Plot for HighLSXY Estimates-C omplete Data
2-Parameter Exponential 3-Parameter Lognormal
3-Parameter Weibull
Elaborado por A. Mayorga Noviembre 2012
36
101
99.9
99
90
50
10
1
0.1
High - T hreshold
Pe
rce
nt
AD* 1.516
Loc 1.89755
Scale 0.317639
Thres 6.33901
Mean 13.3537
StDev 2.28553
Median 13.0086
IQR 2.87974
Failure 60
Censor 0
Table of Statistics
100101
99.9
99
90
50
10
1
0.1
High - T hreshold
Pe
rce
nt
AD* 1.488
Correlation 0.977
Loc 2.03597
Scale 0.279266
Thres 5.39133
Mean 13.3556
StDev 2.26824
Median 13.0510
IQR 2.90269
Failure 60
Censor 0
Table of Statistics
Probability Plot for High
C omplete Data - ML Estimates
3-Parameter Lognormal - 95% C I
Probability Plot for High
C omplete Data - LSXY Estimates
3-Parameter Lognormal - 95% C I
02/02/2013
19
2418126
99.9
99
90
50
10
1
0.1
Low
Pe
rce
nt
100.010.01.00.1
99.9
90
50
10
1
Low - Threshold
Pe
rce
nt
101
99.9
99
90
50
10
1
0.1
Low - Threshold
Pe
rce
nt
101
99.9
90
50
10
1
Low - Threshold
Pe
rce
nt
Normal
0.945
2-Parameter Exponential
*
3-Parameter Lognormal
0.988
3-Parameter Weibull
0.982
C orrelation C oefficient
Probability Plot for LowLSXY Estimates-Complete Data
Normal 2-Parameter Exponential
3-Parameter Lognormal 3-Parameter Weibull
37
Al aplicar el método basado en el LSE a los datos de LOW, obtenemos que los datos se ajustan bien al modelo distribucional 3-parameter lognormal.
Seleccionamos la distribución con el mayor coeficiente
de correlación.
Elaborado por A. Mayorga Noviembre 2012
Da
tos
ce
ns
ore
d o
as
oc
iad
os
co
n p
rue
ba
s d
e f
all
a
2418126
99.9
99
90
50
10
1
0.1
Low
Pe
rce
nt
100.010.01.00.1
99.9
90
50
10
1
Low - Threshold
Pe
rce
nt
101
99.9
99
90
50
10
1
0.1
Low - Threshold
Pe
rce
nt
10.01.00.1
99.9
90
50
10
1
Low - Threshold
Pe
rce
nt
Normal
1.761
2-Parameter Exponential
2.906
3-Parameter Lognormal
0.855
3-Parameter Weibull
0.937
A nderson-Darling (adj)
Probability Plot for LowML Estimates-Complete Data
Normal 2-Parameter Exponential
3-Parameter Lognormal 3-Parameter Weibull
38
Al aplicar el método basado en el MLE, obtenemos que los datos se ajustan bien al modelo distribucional 3-parameter lognormal.
Seleccionamos la distribución con el menor coeficiente
AD (adj).
Elaborado por A. Mayorga Noviembre 2012
Da
tos
ce
ns
ore
d o
as
oc
iad
os
co
n p
rue
ba
s d
e f
all
a
02/02/2013
20
39
Una observación acerca del modelado distribucional
Las gráficas de
control no hacen
ninguna suposición
acerca de la forma
funcional de tal
modelo
probabilístico.
Un proceso no se puede decir que está
caracterizado por un modelo
distribucional a menos que despliegue
un grado razonable de estabilidad
(predictibilidad).
Para parafrasear a Shewhart, el propósito
de una gráfica de comportamiento de
proceso (gráfica de control) es
determinar si existe un modelo
probabilístico que describa el proceso.
Si un proceso es estable entonces existe en
principio un modelo distribucional que lo
describe.
Si Ud. no ha calificado los datos al ponerlos en una
gráfica de control y hallar que despliegan un grado
razonable de homogeneidad, entonces cualquier intento
de ajustarlos a algún modelo es prematuro.
“Nuestra experiencia muestra que después de
que las causas asignables de Tipo I se han
detectado y eliminado, la distribución observada
es, generalmente, alisada y unimodal.”
Shewhart (1931)
Elaborado por A. Mayorga Noviembre 2012
Elaborado por A. Mayorga Noviembre 2012
REFERENCES
• Balakrishnan, N. A Primer on Statistical Distributions. 2004. John Wiley & Sons, Inc.
• Thas, Olivier. Comparing Distributions. 2010. Springer Science-Business Media.
• Duistermaat & Kolk. Distributions: Theory and Applications. 2010. Birkhäuser.
• Karian & Dudewicz. Handbook of Fitting Statistical Distributions with R. 2011. CRC Press.
• Krishnamoorthy, K. Handbook of Statistical Distributions with Applications. 2006. Chapman &
Hall/CRC
• Shapiro, S. How to Test Normality and Other Distributional Assumptions. 1990. ASQC Press.
• Ross, S. Introduction to Probability Models. 6th. Edition. 1997. Academic Press Limited.
• Forbes, K. Statistical Distributions. 4th edition. 2011. John Wiley & Sons, Inc.
• Anderson & Darling. A Test of Goodness of Fit. Journal of the American Statistical Association,
Vol. 49, No. 268. (Dec., 1954), pp. 765-769.
• Shapiro & Wilk. An Analysis of Variance Test for Normality (Complete Samples). 1965.
Biometrika, Vol. 52, No. 3/4. (Dec., 1965), pp. 591-611.
• Dietrich & Schulze. Statistical Procedures for Machine and Process Qualification. 1999. ASQ
Press.
Recommended