27
STATGRAPHICS – Rev. 9/14/2006 © 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 1 Ajustando Distribución (Datos No Censurados) Resumen El procedimiento Ajustando Distribución (Datos No Censurados) ajusta cualquiera de las 45 distribuciones de probabilidad a una columna numérica de datos. Los datos se asumen que no son censurados, i.e., los datos representan muestras aleatorias de la distribución seleccionada. Si los datos han sido censurados debido al límite de detección o alguna otra causa, use el procedimiento Ajuste de Distribución (Datos Censurados). Ejemplo StatFolio: distfit uncensored.sgp Datos del Ejemplo: El archivo groundwater.sf3 contiene n = 47 medidas de concentración de uranio en agua subterranea, muestras tomadas de una lugar en el noroeste de Texas. La tabla siguiente muestra una lista parcial de los datos del archivo: ppm 8.25 2.82 4.16 18.66 12.72 8.75 2.29 7.22 9.76 7.72 27.38 5.14 Se desea encontrar una distribución de probabilidad que provea un modelo adecuado para la variación muestral que permita una referencia para comparar futuras muestras.

Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

Embed Size (px)

Citation preview

Page 1: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 1

Ajustando Distribución (Datos No Censurados) Resumen El procedimiento Ajustando Distribución (Datos No Censurados) ajusta cualquiera de las 45 distribuciones de probabilidad a una columna numérica de datos. Los datos se asumen que no son censurados, i.e., los datos representan muestras aleatorias de la distribución seleccionada. Si los datos han sido censurados debido al límite de detección o alguna otra causa, use el procedimiento Ajuste de Distribución (Datos Censurados). Ejemplo StatFolio: distfit uncensored.sgp Datos del Ejemplo: El archivo groundwater.sf3 contiene n = 47 medidas de concentración de uranio en agua subterranea, muestras tomadas de una lugar en el noroeste de Texas. La tabla siguiente muestra una lista parcial de los datos del archivo:

ppm 8.25 2.82 4.16 18.66 12.72 8.75 2.29 7.22 9.76 7.72 27.38 5.14

Se desea encontrar una distribución de probabilidad que provea un modelo adecuado para la variación muestral que permita una referencia para comparar futuras muestras.

Page 2: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 2

Entrada de Datos Los datos que son analizados consisten de una sola columna numérica que contiene n = 2 o mas observaciones.

• Datos: Columna numérica que contiene los datos que serán analizados. • Selección: Selección de un subconjunto de los datos.

Resumen del Análisis El Resumen del Análisis muestra el número de observaciones, el rango de los datos, y los valores de los parámetros estimados para cada distribución que es ajustada a los datos. Datos No Censurados - ppm Datos/Variable: ppm 47 valores con rango desde 0.74 a 47.78 Distribuciones Ajustadas Gamma Lognormal Normal Weibull forma = 1.56457 media = 13.7033 media = 12.8219 forma = 1.28496 escala = 0.122023 desviación estándar = 15.6921 desviación estándar = 10.445 escala = 13.8975 Escala log: media = 2.19873 Escala log: desv. est. = 0.915324

Los parámetros desplegados dependen de la distribución seleccionada (ver la documentación para el procedimiento de Distribuciones de Probabilidad). Los estimadores son obtenidos usando Estimación de Máxima Verosimilitud (EMV). Se puede ajustar entre 1 y 5 distribuciones al mismo tiempo usando Opciones del Análisis.

En la tabla anterior, 4 distribuciones han sido ajustadas a los datos de agua subterránea. Las distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las distribuciones lognormal y normal están definidas por su media y desviación estándar. En el caso de la distribución lognormal, la media y la desviación estándar de los logaritmos naturales de ppm también son mostrados.

Page 3: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 3

Opciones del Análisis

• Distribución: Selecciona entre 1 y 5 distribuciones para ajustar los datos. Cada distribución

es descrita en detalle en la documentación Distribuciones de Probabilidad. Para ayudar a determinar que distribuciones ajustan, el panel Comparación de Distribuciones Alternas descrito enseguida puede ser de gran ayuda. Las siguientes tablas pueden ser de ayuda.

Distribuciones Discretas Distribución Rango de los Datos Uso común Bernoulli 0 o 1 Modelo para eventos con solo dos posibles

resultados. Binomial 0, 1, 2, …, m Numero de éxitos en m ensayos Bernoulli. Uniforme Discreta a, a+1, a+2, …, b Modelo para enteros con limites fijos Geométrica 0, 1, 2, … Numero de ensayos hasta el primer éxito

Bernoulli. Hypergeométrica 0, 1, 2, …, m Conteo cuando se muestrea de una población

finita. Binomial Negativa 0, 1, 2, … Numero de ensayos hasta el k-ésimo éxito

Bernoulli. Poisson 0, 1, 2, … Numero de eventos en un intervalo fijo.

Distribuciones Continuas Distribución Rango de los Datos Uso común Beta 0 ≤ X ≤ 1 Distribución de una proporción aleatoria. Beta (4-parámetros) a ≤ X ≤ b Modelo para datos con umbrales superior e

inferior. Birnbaum-Saunders X > 0 Tempo de Fallas.

Page 4: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 4

Cauchy todos los reales X Medidas que exhiben colas pesadas. Chi-Cuadrada X ≥ 0 Distribución de referencia para la varianza

muestral. Erlang X > 0 Tiempo entre k arribos en un proceso Poisson. Exponencial X > 0 Tiempo entre consecutivos eventos Poisson. Exponencial(2-parms)

X > a Tiempos de vida con umbral inferior fijo.

Exponencial power todos los reales X Datos simétricos con curtosis variable. F X ≥ 0 Razón de dos estimadores de varianzas

independientes. Folded Normal X ≥ 0 Valores absolutos de datos de una distribución

normal Gamma X ≥ 0 Modelo para medidas positivamente sesgada. Gamma (3-parámetros)

X ≥ a Datos positivamente sesgados con umbral inferior.

Gamma Generalizada

X > 0 Incluye varias distribuciones con casos especiales.

Logística Generalizada

Todos los reales x Usada para el análisis de valores extremos.

Normal Truncada X ≥ μ Datos normales doblados alrededor de su media. Gausiana Inversa X > 0 Primer paso de tiempo en el movimiento

Browniano. Laplace todos los reales X Datos con picos pronunciados y colas pesadas. Valores Extremos Máximos

todos los reales X Valores más grandes en una muestra.

Logística todos los reales X Modelo de crecimiento; alternativa común a la normal.

Loglogistica X > 0 Logs de datos de una distribución logística. Loglogistica (3-parámetros)

X > a Logs de datos con umbral inferior fijo.

Lognormal X > 0 Datos positivamente sesgados. Lognormal (3-parámetros)

X > a Datos positivamente sesgados con umbral inferior.

Maxwell X > a Velocidad de una molécula en un gas ideal. Chi-cuadrada No central

X ≥ 0 Calculo de potencia de una prueba chi-cuadrada.

F No central X ≥ 0 Calculo de potencia de una prueba F. t No central todos los reales X Calculo de potencia de una prueba t Normal todos los reales X Datos con muchas fuentes de variabilidad. Pareto X ≥ 1 Cantidades socio-económicas con colas pesadas

en la derecha Pareto (2-parámetros)

X ≥ a Cantidades socio-económicas con umbral inferior.

Rayleigh X > a Distancia entre objetos vecinos. Valores Extremos Mínimos

todos los reales X Valore más pequeños en una muestra.

t de Student todos los reales X Distribución de referencia para la media. Triangular a ≤ X ≤ b Modelo áspero en ausencia de datos.

Page 5: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 5

Uniforme a ≤ X ≤ b Datos con la misma probabilidad sobre un intervalo.

Weibull X ≥ 0 Tiempo de vida de productos. Weibull (3-parámetros)

X ≥ a Tiempo de vida de productos con umbral inferior.

• Ensayos Binomial – Cuando se ajusta la distribución binomial, debes especificar el tamaño

de la muestra n. • Ensayos Hipergeométrica – Cuando se ajusta la distribución hipergeométrica, puedes

especificar el tamaño de la muestra n. puedes especificar el parámetro tamaño de la población N o estimarlo de los datos.

• Ensayos Binomial Negativa – Cuando se ajusta la distribución binomial negativa, puedes

especificar el parámetro k o estimarlo de los datos. • Parámetros del umbral extendidos – Cuando se ajusta distribuciones que tienen uno o mas

parámetros umbrales, puedes especificar estos parámetros o estimarlos de los datos. Las distribuciones relevantes son:

Beta (4-parámetros) – inferior y superior Exponencial (2-parámetros) – inferior solamente normal truncada(2-parámetros) – inferior solamente gamma (3-parámetros) – inferior solamente loglogistica (3-parámetros) – inferior solamente lognormal (3-parámetros) – inferior solamente Maxwell (2-parámetros) – inferior solamente Pareto (2-parámetros) – inferior solamente Rayleigh (2-parámetros) – inferior solamente Weibull (2-parámetros) – inferior solamente

Page 6: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 6

Trazas de Densidad Un buen lugar para empezar cuando se selecciona una distribución para un conjunto de datos es las Trazas de Densidad. Las Trazas de Densidad proveen un estimador no parametrito de la función de densidad de probabilidad de la población de la cual los datos fueron muestreados. Esta es formada contando el número de observaciones que caen dentro de una ventana de anchura fija movida a través del rango de los datos.

Traza de Densidad para ppm

0 10 20 30 40 50ppm

0

0.005

0.01

0.015

0.02

0.025

0.03

dens

idad

La función de densidad estimada es dada por:

∑=

⎟⎠⎞

⎜⎝⎛ −

=n

i

i

hxx

Whn

xf1

1)( (1)

Donde h es el ancho de la ventana en unidades de X y W(u) es una función de ponderación determinada por la selección en la caja de dialogo del Panel de Opciones. Dos formas de funciones de ponderación son disponibles: Función Boxcar

⎩⎨⎧

=01

)(uWotherwise

uif 2/1≤ (2)

Función Coseno

⎩⎨⎧ +

=0

)2cos(1)(

uuW

π otherwise

uif 2/1< (3)

La última selección usualmente da resultados más suaves, con el valor deseado de h que depende del tamaño de la muestra. En el caso de datos de agua subterránea, las trazas de densidad empiezan relativamente altas en X = 0, incrementan a u pico, y después caen lentamente en dirección positiva. Una distribución positivamente sesgada claramente será necesaria para modelar estos datos.

Page 7: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 7

Opciones del Panel

• Método: La función de ponderación deseada. La función boxcar pondera todos los valores

dentro de la ventana igualmente. La función coseno de pesos decrecientes a las observaciones sobre el centro de la ventana. La selección de defecto es determinada por lo fijado en la pestaña EDA de la caja de dialogo de Preferencias accesible desde el menú Editar.

• Ancho de Intervalo: El ancho de una ventana h dentro de la cual las observaciones afectan

la densidad estimada, como un porcentaje del rango cubierto por el eje x. h = 60% no es irrazonable para una muestra pequeña pero puede no dar mucho detalle como un valor pequeño en una muestra mas grande.

• Resolución del Eje X: el numero de puntos en el cual la densidad será estimada.

Gráfico de Simetría El Grafico de Simetría puede también ser usado para ayudar a saber si los datos provienen de una distribución simétrica, i.e., una distribución que tiene una función de densidad con la misma forma en ambos lados alrededor de la mediana.

Gráfica de Simetría para ppm

0 10 20 30 40distancia abajo de la mediana

0

10

20

30

40

dist

anci

a ar

riba

de la

med

iana

Page 8: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 8

Para crear esta grafica, los valores de los datos son ordenados y pareados de acuerdo a su localización con respecto a la media. Por ejemplo, con 47 observaciones, los puntos ordenados son pareados como: (x(23),x(25)), (x(22),x(26)), (x(21),x(27)), …, (x(1),x(47)) La distancia de cada para abajo y arriba de la mediana es graficada. Si los datos vienen de una distribución simétrica, loa puntos deberían caer cerca de la línea de 45 grados. Si no, los puntos se desviaran de la línea en una direccio0n particular. Los puntos de la grafica anterior se desvían mucho sobre la diagonal, indicando una cola mas pesada a la derecha que a la izquierda.

Pruebas de Normalidad El panel de Pruebas de Normalidad realice 4 diferentes pruebas diseñadas para determinar si los datos podrían razonablemente venir de una distribución normal o no. Para cada prueba las hipótesis de interés son:

• Hipótesis Nula: los datos son muestras independientes de una distribución normal • Hipótesis Alt.: los datos no son muestras independientes de una distribución normal

Pruebas de Normalidad para ppm Prueba Estadístico Valor-P Chi-Cuadrado 34.5745 0.00282602 Estadístico W de Shapiro-Wilk 0.871657 0.0000283121 Puntuación Z para asimetría 2.34972 0.0187876 Puntuación Z para curtosis 1.93069 0.0535207

Las pruebas que son corridas son seleccionadas usando las Opciones del Panel. Cada prueba es desplegada con su con su estadística de prueba asociada y su P-Valor. P-valores pequeños permiten rechazar la hipótesis nula y así rechazar la normalidad. En la tabla anterior, los P-valores para las pruebas Shapiro-Wilks y Chi-Cuadrada están ambos por debajo de 0.01, permitiendo un rechazo de la normalidad para los datos en un nivel de 99% de confianza. Las 4 pruebas disponibles están definidas como sigue:

Prueba Chi-Cuadrada – Esta prueba divide el rango de los datos en un conjunto de k clases equiprobables, donde

( )( ){ }4.017653.3,100min −= nceilingk (4)

Esta calcula el número de observaciones que caen en cada clase y las frecuencias esperadas basadas en la distribución ajustada. Una estadística chi-cuadrada es calculada de acuerdo a

iOiE

∑=

−=

k

i i

ii

EEO

X1

22 )( (5)

y comparada a una distribución chi-cuadrada con (k-3) grados de libertad.

Page 9: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 9

Prueba Shapiro-Wilks - Esta prueba, es disponible cuando 2 ≤ n ≤ 2000, usa una estadística derivada de calcular que tan bien los datos caen a lo largo de la línea recta en una grafica de probabilidad normal. En el cálculo de la estadística y su P-valor, STATGRAPHICS usa el método de Roysten como en la Sección 1.2 de Madansky (1988). Valor-Z para Sesgo – Calcula el sesgo muestral y determina si es significativamente diferente de 0. El valor Z es calculado de acuerdo a la SU aproximación descrita en p.377 de D’Agostino y Stephens (1986) y es disponible solamente si n ≥ 8. Valor-Z para curtosis – Calcula la curtosis muestral y determina si es significativamente diferente de cero. El Z valor es calculado de acuerdo a la aproximación Anscombe y Glynn descrita en p.388 de D’Agostino y Stephens (1986) y es disponible solamente si n ≥ 20.

Opciones del Panel

• Incluir – Selecciona las pruebas que serán incluidas en la salida. Las pruebas defecto son

definidas en la caja de dialogo de Ajuste de Dist. de la pestaña de Preferencias en el menú Edición.

Prueba de Bondad-de-Ajuste El panel de Prueba de Bondad-de-Ajuste realiza hasta 7 diferentes pruebas para determinar si es razonable que los datos provengan de la distribución ajustada. Para todas las pruebas, las hipótesis de interés son:

• Hipótesis Nula: los datos son muestras independientes de la distribución especificada • Hipótesis Alt: los datos no son muestras independientes de la distribución especificada

La prueba que será corrida es seleccionada usando las Opciones del Panel. Las primaras 2 pruebas en general pueden ser aplicadas a cualquier conjunto de datos:

Page 10: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 10

Pruebas de Bondad-de-Ajuste para ppm Prueba Chi-Cuadrada Gamma Lognormal Normal Weibull Chi-Cuadrada 8.53197 10.0639 34.575 8.53191 G.l. 15 15 15 15 Valor-P 0.900692 0.815699 0.00282556 0.900694

Prueba de Kolmogorov-Smirnov Gamma Lognormal Normal Weibull DMAS 0.077951 0.0441855 0.181741 0.0889679 DMENOS 0.0905791 0.0953022 0.123694 0.0833416 DN 0.0905791 0.0953022 0.181741 0.0889679 Valor-P 0.835346 0.786792 0.0896715 0.850863

Prueba Chi-Cuadrada – Esta prueba divide el rango de X en k intervalos y compara los conteos observados Oj = numero de datos observados en el intervalo j a el numero esperado dada la distribución ajustada

Ej = numero esperado de datos en el intervalo j.

La prueba estadística es dada por

( )∑=

−=

k

j j

jj

EEO

1

22χ (6)

la cual es comparada a una distribución chi-cuadrada con k-p-1 grados de libertad, donde p es el numero de parámetros estimados cuando ajustamos la distribución seleccionada. Para una distribución discreta, los intervalos son formados tomando cada valor único de X y agrupando valores juntos de cada extremo, formando intervalos con valores esperados Ej ≥ 2. Para una distribución continua, intervalos equiprobables son formados (intervalos con igual Ej) y k se selecciona para alcanzar el mas grande numero de intervalos con Ej ≥ 2. P-valores pequeños permiten rechazar la distribución supuesta. En la tabla anterior, la prueba rechaza la hipótesis de una distribución normal en un nivel de significancia del 1% ya que el P-valor is menos que 0.01. Aunque, las demás distribuciones son candidatos razonables. Prueba Kolmogorov-Smirnov – Esta prueba compara la distribución de acumulación de los datos a la distribución de acumulación ajustada (como se muestra en la grafica Cuantil enseguida). Este primero evalúa la distribución de acumulación ajustada en cada uno de los datos: (7) ( )()(

ˆii xFz = )

y entonces calcula y muestra el máximo de las distancias de la c.d.f. empírica por encima de la c.d.f. ajustada

Page 11: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 11

( )⎭⎬⎫

⎩⎨⎧ −=+

iiz

niD max (8)

y el máximo de las distancias de la c.d.f. empírica por debajo de la c.d.f. ajustada.

( )⎭⎬⎫

⎩⎨⎧ −

−=−

nizD ii

1max (9)

La estadística Kolmogorov es la más grande de las dos distancias ( )−+= DDD ,max (10) Un P-valor aproximado es entonces calculado. En la tabla anterior, ninguna de las distribuciones es rechazada por la prueba en un nivel de 5% significancia.

Las otras 5 pruebas, 2 dos de las cuales son mostradas enseguida, tienen ambas una forma estándar y una forma modificada:

D de Kolmogorov-Smirnov Modificada Gamma Lognormal Normal Weibull D 0.0905791 0.0953022 0.181741 0.0889679 Forma Modificada 0.633302 0.666324 1.26667 0.609933 Valor-P >=0.10* >=0.10* <0.01* >=0.10*

Anderson-Darling A^2 Gamma Lognormal Normal Weibull A^2 0.331698 0.322124 1.87405 0.372536 Forma Modificada 0.322124 1.90586 0.383404 Valor-P * >=0.10* 0.0000734208* >=0.10*

*Indica que el Valor-P se ha comparado con tablas de valores críticos especialmente construida para ajustar la distribución seleccionada. Otros valores-P están basados en tablas generales y pueden ser muy conservadores (excepto para la Prueba de chi-cuadrada).

La “forma modificada” de la estadística es especificada a la distribución que es ajustada. Para determinar si rechazamos una distribución especificada, una de las dos aproximaciones es tomada:

1. En muchos casos, la estadística modificada es comparada a la tabla de valores críticos que ha sido obtenida a través de estudios Monte Carlo. En tal caso, la salida desplegara una de las siguientes:

“>=0.10” si la estadística es menor o igual al valor tabulado para α=0.10.

“<0.10” si la estadística es mayor o igual al valor tabulado para α=0.10 y menor o igual al valor tabulado para α=0.05. “<0.05” si la estadística es mayor o igual al valor tabulado para α=0.05 y menor o igual al valor tabulado para α=0.01. “<0.01” si la estadística es mayor o igual al valor tabulado para α=0.01.

2. En pocos casos, P-valores aproximados son calculados.

Page 12: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 12

Detalles y tablas de valores críticos pueden ser encontrados en D’Agostino y Stephens (1988). Las estadísticas disponibles son:

Kolmogorov-Smirnov D – Esta estadística calcula la distancia máxima entre la c.d.f. empírica y la c.d.f. ajustada, como se discutió antes. Kuiper V - Esta estadística, es calculada de las estadísticas Kolmogorov de acuerdo a

−+ += DDV (11)

es frecuentemente usada para mediciones de puntos los cuales están distribuidos en un circulo.

Cramer-Von Mises W2 - Esta estadística esta relacionada a el área entre la c.d.f. empírica y ajustada. Es calculada de acuerdo a:

nnizW

n

ii 12

12

12 2

1)(

2 +⎟⎠⎞

⎜⎝⎛ −

−= ∑=

(12)

Watson U2 - Esta estadística es una versión modificada de W2 diseñada para datos sobre un círculo. Es calculada de acuerdo a:

222 )5.0( −−= znWU (13) Anderson-Darling A2 - Esta estadística es una medida ponderada del área entre la c.d.f. empírica y ajustada. Es calculada de acuerdo a:

( ) ( )( )n

zinzinA

n

iii∑

=

−−++−−−= 1

)()(2

)1ln(212)ln(12 (14)

De acuerdo a las pruebas mostradas en la tabla anterior, cualquiera de las tres distribuciones excepto la normal daría un modelo razonable para los datos.

Page 13: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 13

Opciones del Panel

• Incluir: Seleccione una o mas pruebas a realizar. Para la prueba chi-cuadrada, selecciones

use clases equiprobables para agrupar los datos en clases con frecuencia esperadas iguales. Si esta opción no es seleccionada, las clases serán creadas de acuerdo al Histograma de Frecuencias.

• Calculo de los P-Valores en la distribución específica – Si es seleccionado, los Valores-P

serán basados en tablas o formulas específicamente desarrolladas para la distribución que es probada. De otra manera, los P-Valores serán basados en tablas o formulas generales que aplican a todas las distribuciones. La aproximación general es mas conservadora (no rechazar una distribución tan fácilmente) pero puede ser preferida cuando comparamos Valores-P entre distribuciones diferentes.

Page 14: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 14

Histograma de Frecuencias La mejor forma para ver distribuciones ajustadas es a través del Histograma de Frecuencias. Este panel muestra un histograma de los datos como un conjunto de barras verticales, junto con la densidad de probabilidad estimada o más funciones.

Histograma para ppm

0 20 40 60 80ppm

0

3

6

9

12

15

frecu

enci

a

DistribuciónGammaLognormalNormalWeibull

Note que las 3 distribuciones no normales son positivamente sesgadas. Las distribuciones gamma y Weibull son cercanamente idénticas, y la distribución lognormal tiene el pico más grande. Opciones del Panel

• Numero de Clases: El numero de intervalos en los cuales los datos serán divididos. Los

intervalos son adyacentes y tienen igual anchura. El numero de intervalos en los cuales los datos serán divididos por defecto es fijado en la pestaña EDA de la caja de dialogo de Preferencias en el menú Edición.

Page 15: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 15

• Limite Inferior: Limite inferior del primer intervalo. • Limite Superior: Limite superior del primer intervalo. • Mantener: Mantiene el número de intervalos y limites iguales aunque la fuente de datos

cambie. Por defecto, el número de clases y los límites son recalculados cuando los datos cambian. Es necesario que todas las observaciones sean desplegadas por si algún dato actualizado cae más allá de los límites originales.

• Desplegar: La manera en la cual las frecuencias son desplegadas. Un Histograma escala las

barras de acuerdo al número de observaciones en cada clase. Un Rotograma escala las barras de acuerdo a la raíz cuadrada del número de observaciones. Un Rotograma Suspendido escala por la raíz cuadrada y suspende las barras de la curva.

Ejemplo – Rotograma Suspendido para una Distribución Normal

Diagrama de raíz suspendido para ppm

0 20 40 60 80ppm

-1.2

-0.2

0.8

1.8

2.8

RAI

Z(fre

cuen

cia)

DistribuciónNormal

La idea de usar raíces cuadradas es para igualar la varianza de las desviaciones entre las barras y la curva, lo cual de otra forma incrementaría con una frecuencia creciente. La idea de suspender las barras de la curva es permitir una comparación visual sencilla con la línea horizontal graficada en 0, ya que la comparación visual con una línea curva puede ser engañosa. Estadísticamente, hay grandes discrepancias entre el histograma y la distribución normal ajustada en la grafica anterior.

Page 16: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 16

Comparación de Distribuciones Alternas Este panel automáticamente muestra una colección de distribuciones diferentes y las despliega en orden de acuerdo a que tan bien ajustan los datos.

Comparación de Distribuciones Alternas Distribución Parámetros Est. Log Verosimilitud KS D A^2 Weibull (3-Parámetros) 3 -163.681 0.0858494 0.278173 Lognormal (3-Parámetros) 3 -164.894 0.100318 0.292702 Lognormal 2 -165.372 0.0953022 0.322124 Gamma 2 -164.4 0.0905791 0.331698 Loglogística 2 -165.949 0.0988569 0.342383 Weibull 2 -164.705 0.0889679 0.372536 Birnbaum-Saunders 2 -165.678 0.100989 0.559682 Normal Plegada 2 -165.778 0.116524 0.572653 Exponencial 1 -166.904 0.123457 0.975354 Valor Extremo Superior 2 -168.64 0.112849 1.00414 Logística 2 -175.464 0.130926 1.58494 Maxwell 2 -171.962 0.178343 1.71863 Rayleigh 2 -170.128 0.181461 1.82623 Normal 2 -176.458 0.181741 1.87405 Laplace 2 -175.979 0.16334 2.15572 Valor Extremo Inferior 2 -188.009 0.223254 3.30569 Uniforme 2 -180.997 0.414645

La tabla muestra:

• Distribución – El nombre de la distribución ajustada. Tú puedes seleccionar distribuciones adicionales usando las Opciones del Panel.

• Parámetros Est. – El numero de parámetros estimados para esta distribución.

• Log Verosimilitud – El logaritmo natural de la función de verosimilitud. Valores

mas grandes tienden a indicar mejores ajustes de las distribuciones.

• KS D, A^2, y otras estadísticas – Valores de varias estadísticas de bondad-de-ajuste, seleccionadas usando el botón Pruebas en la caja de dialogo de las Opciones del Panel. Valores mas pequeños tienden a indicar mejores ajustes de las distribuciones.

Las distribuciones son ordenadas de mejor a peor de acuerdo a una de las columnas de bondad-de-ajuste. Esta columna es seleccionada usando el botón Pruebas en la caja de dialogo de las Opciones del Panel. La tabla anterior muestra las distribuciones ordenadas de acuerdo al valor de la estadística Anderson-Darling A2. De acuerdo a esta estadística, la Weibull de 3-parámetros ajusta mejor.

Page 17: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 17

Opciones del Panel

• Distribución: Seleccione las distribuciones que ajustaran los datos. Las distribuciones

seleccionadas actualmente son transparentadas ya que ellas siempre estarán incluidas. • Más Común: Presionar este botón para seleccionar las distribuciones mas comúnmente

usadas (continuas). • Todas Discretas: Presionar este botón para seleccionar todas las distribuciones discretas. • Todas Continuas: Presionar este botón para seleccionar todas las distribuciones continuas. • Localización-Escala: Presionar este botón para seleccionar todas las distribuciones que son

parametrizadas por un parámetro de localización (como la media) y uno de escala (como la desviación estándar).

• Umbral: Presionar este botón para seleccionar todas las distribuciones que contienen un

parámetro umbral inferior. • Todas: Presionar este botón para seleccionar todas las distribuciones. • Limpiar: Presionar este botón para deseleccionar todas las distribuciones.

Page 18: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 18

• Pruebas: Presionar este botón para desplegar la caja de dialogo usada para especificar las estadísticas deseadas de bondad-de-ajuste:

• Incluir – Las estadísticas de bondad-de-ajuste que serán incluidas en la tabla. La lista

incluye funciones de verosimilitud y varias estadísticas desplegadas en el panel Bondad-de-ajuste.

• Ordenar Por – Seleccione una de las estadísticas para ordenar las distribuciones de

mejor a peor. Una grafica de las mejores 4 distribuciones es mostrada abajo:

Histograma para ppm

0 20 40 60 80ppm

0

3

6

9

12

15

frecu

enci

a

DistribuciónGammaLognormalNormalWeibull

Page 19: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 19

Gráfico Cuantil El Grafico Cuantil muestra la fracción de observaciones en o por debajo de X, junto con la función de distribución de acumulación de la distribución ajustada.

Gráfico Cuantil

0 10 20 30 40 50ppm

0

0.2

0.4

0.6

0.8

1

prob

abili

dad

acum

ulad

a

DistribuciónGammaLognormalNormalWeibull

Para crear la grafica, los datos son ordenados del más pequeño al más grande y graficados en las coordenadas

⎟⎠⎞

⎜⎝⎛ −

njx j

5.0,)( (15)

Idealmente, los puntos deberían estar cerca de la línea de la distribución ajustada, como es el caso en la grafica anterior menos para la normal.

Áreas de Cola Este panel muestra el valor de la distribución de acumulación hasta en 5 valores de X.

Áreas de Cola para ppm Área Cola Inferior (<=) X Gamma Lognormal Normal Weibull 10.0 0.490227 0.545171 0.393514 0.48063 15.0 0.679938 0.711046 0.582594 0.66815 20.0 0.805085 0.808051 0.75403 0.797378 25.0 0.883611 0.867472 0.878177 0.88075 30.0 0.931454 0.905528 0.949976 0.931978

Área Cola Superior (>) X Gamma Lognormal Normal Weibull 10.0 0.509773 0.454829 0.606486 0.51937 15.0 0.320062 0.288954 0.417406 0.33185 20.0 0.194915 0.191949 0.24597 0.202622 25.0 0.116389 0.132528 0.121823 0.11925 30.0 0.0685455 0.0944719 0.0500244 0.0680221

Page 20: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 20

La tabla muestra:

• Área de Cola Inferior – La probabilidad de que la variable aleatoria sea menor o igual a X.

• Área de Cola Superior – La probabilidad de que la variable aleatoria sea mayor o

igual a X.

Por ejemplo, la probabilidad de ser menor o igual a X = 10 para la distribución gamma es aproximadamente 0.4902. Opciones del Panel

• Valores Críticos: Valores de X en los cuales la probabilidad de acumulación será calculada.

Valores Críticos Este panel calcula el valor de una variable aleatoria X debajo del cual yace una probabilidad especificada.

Valores Críticos para ppm Área Cola Inferior (<=) Gamma Lognormal Normal Weibull 0.01 0.547556 1.07182 -11.4769 0.387408 0.1 2.62818 2.78902 -0.563978 2.41186 0.5 10.2174 9.01355 12.8219 10.4487 0.9 26.4455 29.1299 26.2078 26.5964 0.99 47.5454 75.7997 37.1208 45.6136

La tabla muestra los valores mas pequeños de X tal que la probabilidad de ser menor o igual a X es al menos el área de cola deseada. La tabla anterior muestra que la c.d.f. de una distribución gamma ajustada es igual a 0.01 en X = 0.548.

Page 21: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 21

Opciones del Panel

• Áreas de Cola: Valores de la c.d.f. por lo menos para determinar porcentajes de las

distribuciones ajustadas.

Gráfico Cuantil-Cuantil El grafico Cuantil-Cuantil muestra la fracción de observaciones en o por debajo de X graficadas versus los percentiles equivalentes de las distribuciones ajustadas.

Gráfica Cuantil-Cuantil

0 10 20 30 40 50Gamma distribución

0

10

20

30

40

50

ppm

DistribuciónGammaLognormalNormalWeibull

Una distribución, seleccionada usando Opciones del panel, es usada para definir el eje X y es representada por la línea diagonal. Las otras son representadas por curvas. En la grafica anterior, la distribución ajustada gamma ha sido usada para definir el eje X. el hecho de que los puntos caigan cerca de la línea diagonal confirma el hecho de que la distribución gamma provee un buen modelo para los datos, igual la distribución Weibull. La línea lognormal es cerca en el extremo inferior, pero se desvía mucho en los datos más grandes de X. Evidentemente, la cola de la distribución lognormal es muy pesada. La línea para la distribución normal completamente se desvía de los datos.

Page 22: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 22

Opciones del Panel

• Distribución de Escala para el Eje X: La distribución usada para escalar el eje horizontal,

correspondiente a la línea diagonal. • Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.

Incrementa este valor si las líneas no son suficientemente suaves.

Funciones de Distribución 1 y 2 Estos dos paneles grafica varias funciones para las distribuciones ajustadas.

Función de Densidad

0 10 20 30 40 50ppm

0

0.02

0.04

0.06

0.08

dens

idad

DistribuciónGammaLognormalNormalWeibull

Usando Opciones del Panel, se pueden graficar cualquiera de las siguientes:

1. Densidad de Probabilidad o función de masa 2. Función de Distribución Acumulada 3. Función de Supervivencia 4. Log Función de Supervivencia 5. Función de Riesgo

Page 23: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 23

Para las definiciones de estas funciones, ver la documentación para Distribuciones de Probabilidad. Opciones del Panel

• Graficar: La función a graficar. • Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.

Incrementa este valor si las líneas no son suficientemente suave. Límites de Tolerancia Normal Los limites de tolerancia estadísticos dan un rango de valores para X tal que uno puede estar 100(1-α)% confiado de que el P porcentaje de la muestras caen dentro del rango. Asumiendo que los datos viene de una distribución normal, un limite de tolerancia de dos lados puede ser calculado tomando la media muestral mas menos un múltiplo de la desviación estándar, de acuerdo a

Ksx ± (16) El Factor K del tamaño de la muestra n, el nivel de confianza (1-α), y el porcentaje especificado P.

Límites de Tolerancia Normales parappm Distribución Normal Tamaño de muestra = 47 Promedio = 12.8219 Sigma = 10.445 Intervalos de tolerancia del 95.0% (intervalo) de tolerancia para 99.73% de la población Xbarra +/- 3.66641 sigma Superior: 51.1177 Inferior: -25.4739

Page 24: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 24

Por ejemplo, la tabla anterior establece que uno puede estar 95% confiado de que el 99.73% de las muestras de agua subterránea de Texas tendrán concentraciones de uranio entre –25.5 y 51.1. Este resultado es obviamente falso, ya que los datos no vienen de una distribución normal. Es importante notar que el intervalo anterior no es simplemente el intervalo bajo la curva normal ajustada que contiene una área de 99.73%, el cual correspondería a ± 3 sigma. Este es mas ancho que esto ya que permite variabilidad muestral en ambos media y desviación estándar. Puedes seleccionar valores de α y P usando las Opciones del Panel. Opciones del Panel

• Nivel de Confianza – Especifica el nivel de confianza para los limites de tolerancia, i.e.,

100(1-α)%. • Proporción de la Población – Especifica el porcentaje de la población P que los límites de

tolerancia capturan • Límites – Selecciona límites de tolerancia de dos lados o de un solo lado. Ejemplo - Límites de un solo lado para las concentraciones de uranio Una de las razones principales para el estudio de las concentraciones de uranio fue para determinar una distribución de referencia en contra de la cual comparar muestras futuras. Para ese propósito, seria usual derivar un límite en la concentración mas allá del cual una medición pueda indicar un evento inusual. Una tolerancia superior a 99.9% daría una valor que seria excedido solamente una vez de 1000. En la documentación de Transformaciones de Potencia, se descubrió que ppm0.204 fue distribuido aproximadamente normal. Para usar los límites de tolerancia normal, la caja de dialogo de entrada seria editada como se muestra abajo:

Page 25: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 25

El Histograma de Frecuencias verifica que los valores transformados son aproximadamente normales:

Histograma para ppm̂ 0.204

0.8 1.2 1.6 2 2.4ppm̂ 0.204

0

2

4

6

8

10

frecu

enci

a

DistribuciónNormal

Requiriendo un limite de tolerancia superior normal de 99.9%, resulta en

Límites de Tolerancia Normales parappm^0.204 Distribución Normal Tamaño de muestra = 47 Promedio = 1.59219 Sigma = 0.28628 Limites de tolerancia del 95.0% (cota) de tolerancia para 99.9% de la población Xbarra + 3.79169 sigma Superior: 2.67767

El limite establece que nosotros podemos estar 95% confiados de que el 99.9% de todas las muestras de agua subterránea tendrán valores de ppm0.204 no mayores que 2.67767. Invirtiendo la transformación resulta el siguiente límite superior en la métrica original: 2.677671/0.204 = 124.98 Concentraciones de 125 o mas grandes podrían ser considerados como eventos inusuales.

Page 26: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 26

Límites de Distribución Libre Los valores k-ésimo mas pequeño y k-ésimo más grande en una muestra de datos pueden ser usados para construir un límite de tolerancia para la población sin asumir alguna distribución específica. Los limites de tolerancia resultantes dan un rango de valores para X tal que uno puede estar 100(1-α)% confiado de que al menos el P por ciento de la población cae dentro del rango. El intervalo puede ser absolutamente conservador, con el porcentaje actual es mucho más largo que el ya establecido.

Límites de Tolerancia de Distribución Libre para ppm Resumen de datos Cuenta = 47 Máximo = 47.78 Mediana = 9.44 Mínimo = 0.74 Intervalos de tolerancia del 95.0% (intervalo) de tolerancia para 90.2933% de la población Superior: 47.78 Inferior: 0.74 (Basándose en un intervalo de profundidad = 1)

Por ejemplo, la tabla anterior toma los valores mas extremos de ppm y establece que uno puede estar 95% confiado de que al menos el 90.2933% de todas las muestras tendrían concentraciones entre 0.74 y 47.78. En este procedimiento, puedes seleccionar Opciones del Panel para elegir el nivel de confianza 100(1-α) o el porcentaje de la población P, pero no ambos. Opciones del Panel

• Entrada – Especifica el nivel de confianza para el intervalo 100(1-α) o el porcentaje de la

población P. • Profundidad del Intervalo – Específica el valor de k usado para seleccionar el orden de la

estadística sobre la cual los límites serán basados. En la creación del intervalo, el procedimiento usa el valor k-ésimo más pequeño de los datos y el k-ésimo más grande.

• Límites – Selecciona límites de tolerancia de dos lados o de un solo lado.

Page 27: Ajustando Distribución (Datos No Censurados) · distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Ajustando Distribución (Datos No Censurados) - 27

Cálculos Kolmogorov-Smirnov Valor-P Sea d Dn= . Entonces: si d < 0.22 (17) 1=P

⎟⎟⎠

⎞⎜⎜⎝

⎛ −−= 2

2

8exp21

ddP ππ si 0.22 ≤ d ≤ 0.80 (18)

222 18822 ddd eeeP −−− −+= si 0.80 < d ≤ 3.15 (19)

0=P si d > 3.15 (20)