4 - identificando el modelo distribucional que mejor se ajusta a los datos

20
02/02/2013 1 Ajuste distribucional “The way statisticians look at variation is through the lens of distributions.” Identificando el modelo distribucional que mejor se ajusta a los datos Elaborado por A. Mayorga Noviembre 2012 Distribuciones La variación es una realidad detectable en todo sistema y entidad. Los estadísticos miran la variación a través de una lente llamada “distribución”. Modelamos este tipo de variación como siendo generada por un proceso aleatorio. Variación Patrones, regularidades en los datos Ruido, variación inherente, fluctuación Es la variación que queda cuando removemos los patrones Shewhart (1931) la denominó “variación incontrolada”. Los Modelos de Regresión son los más simples de estos modelos. Elaborado por A. Mayorga Noviembre 2012

Upload: amayorga

Post on 14-Aug-2015

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

1

Ajuste distribucional “The way statisticians look at variation is

through the lens of distributions.”

Identificando el modelo distribucional que

mejor se ajusta a los datos

Elaborado por A. Mayorga Noviembre 2012

Distribuciones • La variación es una realidad detectable en todo sistema y entidad.

• Los estadísticos miran la variación a través de una lente llamada

“distribución”.

Modelamos este

tipo de variación

como siendo

generada por un

proceso aleatorio.

Variación

Patrones, regularidades en

los datos

Ruido, variación inherente,

fluctuación

Es la variación

que queda cuando

removemos los

patrones

Shewhart (1931) la

denominó “variación

incontrolada”.

Los Modelos de

Regresión son los

más simples de estos

modelos.

Elaborado por A. Mayorga Noviembre 2012

Page 2: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

2

• La variación es una realidad observable

• Parte de esa variación puede ser explicada

• Otra parte de esa variación no puede ser

explicada

• La variación “aleatoria” es la manera en que

los estadísticos modelan la variación

inexplicable

• La variación inexplicable puede estar

producida por un proceso de muestreo

aleatorio

De acuerdo con

Shewhart, “estas

fluctuaciones son debidas

a los efectos del azar o

de causas desconocidas”.

Las “variaciones

aleatorias” pueden ser

producidas por un

sistema variable o por un

sistema constante de

causas aleatorias.

Si esta variación esta producida por un sistema constante, ésta puede predecirse mediante modelos probabilísticos. Elaborado por A. Mayorga

Noviembre 2012

Distribuciones

Están asociadas con la variación que

podemos observar (en una manera

imperfecta)

Nos informan acerca del

comportamiento de los

datos

Son conceptos constructivos

clave para los modelos

estadísticos

La frecuencia empírica o

distribución observada de

nuestra variable contiene la

variación que podemos

observar directamente en

nuestros datos

Concebimos la variación

inexplicable contenida en

nuestros datos como siendo

generada por alguna

distribución desconocida.

Nos referimos a ella como

“distribución subyacente”,

aún cuando es solo una

entidad conceptual. Existe aquí un componente

inferencial, solo una descripción de lo que existe

en los datos. Esta es la “distribución

teórica”, la cual define o describe un modelo de

probabilidad.

𝑷 𝒙𝟏 ≤ 𝒙 ≤ 𝒙𝟐 = 𝒇(𝒙)𝒅𝒙𝒙𝟐

𝒙𝟏

= 𝑭(𝒙)

Elaborado por A. Mayorga Noviembre 2012

Page 3: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

3

Nunca podremos creer

completamente en

nuestra distribución

teórica seleccionada.

Lo mejor que podemos

esperar es que el acto de

muestrear desde una

distribución teórica propuesta

refleje en una manera

adecuada los aspectos más

importantes del proceso que

generó nuestros datos ...

Es esta falta de veracidad en la

distribución teórica propuesta

la que nos conduce a

consideraciones de “robustez

de la distribución teórica” y de

“bondad de ajuste” de la

distribución teórica a la

distribución empírica.

Elaborado por A. Mayorga Noviembre 2012

Robustez:

Deseamos utilizar procedimientos

que sean insensibles a las

desviaciones de los supuestos

distribucionales

Bondad de ajuste:

Deseamos evitar la utilización

de distribuciones teóricas que

en una manera demostrada

no se ajusten a nuestros datos.

La experiencia nos muestra

que, virtualmente en

cualquier situación, toda

suposición teórica acerca

de la distribución que

deseamos utilizar se

mostrará implausible dada

una considerable cantidad

de datos.

Elaborado por A. Mayorga Noviembre 2012

Page 4: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

4

La primera regla al seleccionar un

modelo distribucional consiste en

no realizar ninguna evaluación

que no posea base técnica.

Es inadmisible someter un

conjunto de datos a

procedimientos matemáticos

sin tomar en consideración el

proceso que genera los datos.

Es mejor identificar el modelo distribucional que se esperaría para este tipo de proceso y

someterlo a verificación.

8

La primera cuestión por resolver durante el estudio de un proceso es hallar el modelo probabilístico que describiría el comportamiento ideal (perfecto) del proceso para una variable seleccionada.

Hay a disposición una gran gama de modelos probabilísticos para variables continuas: Normal, Lognormal, Exponencial, Weibull, Gamma, etc.

No todos ellos son adecuados para describir el comportamiento de una variable de proceso.

Existen variables que pueden tomar valores en ambas direcciones respecto del valor objetivo (T).

Este tipo de variables posee un límite inferior (LSL) y un límite superior (USL) de especificación.

Existen otras variables que solo permiten desviaciones unidireccionales respecto del valor objetivo.

Es decir, estas variables no poseen un valor objetivo sino sólo un único límite de especificación (superior o inferior).

Es común encontrarse situaciones en las que el analista intenta ajustar el

comportamiento distribucional de una variable del proceso sin conocer siquiera

cómo esta variable debería comportarse si el proceso fuera estable.

𝒙 ≥ 𝑳𝑺𝑳 𝒙 ≤ 𝑳𝑺𝑳 𝑳𝑺𝑳 ≤ 𝒙 ≤ 𝑼𝑺𝑳

Elaborado por A. Mayorga Noviembre 2012

Page 5: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

5

9

Un solo limite de especificación

y un target

Dos limites de especificación

y un target

Exponencial (Caso ideal)

Gamma

Lognormal

Weibull

Normal (Ideal)

Lognormal

Weibull

Gamma

Según el tipo de variable por estudiar, el analista debe identificar los modelos

posibles para describir su comportamiento, así como el método de análisis.

En caso de que durante el estudio analítico se halle que ninguna de esas

distribuciones se ajusta al comportamiento esperado de la variable, es de suponer

que algo anómalo esté sucediendo con el proceso o con las mediciones.

Modelos esperados para el comportamiento de un proceso

Elaborado por A. Mayorga Noviembre 2012

Pruebas de Bondad de Ajuste

Evaluar los supuestos distribucionales es un requerimiento para la mayoría de los procedimientos estadísticos.

El análisis estadístico paramétrico supone una cierta distribución de los datos. Si este supuesto es violado la interpretación y la inferencia pueden no ser confiables ni válidas.

Existen 3 tipos de pruebas de bondad de ajuste:

Pruebas basadas en la Función de

Distribución Empírica (EDF)

- Kolmogorov-Smirnov (1933)

- Anderson-Darling (1954)

- Von Mises (1931)

Pruebas basadas en Correlación y

Regresión

- Shapiro-Wilk (1965)

- Shapiro-Francia (1972)

- Ryan-Joiner (1976)

Pruebas basadas en Momentos

- D’Agostino-Pearson (1973)

- Jarque-Bera (1987)

Page 6: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

6

Pruebas basadas en la Función de Distribución Empírica (EDF)

La idea central en este método es comparar la

función de distribución empírica (EDF), la cual

se estima con base en los datos, con la función

de distribución acumulada (CDF) de la

distribución, con el fin de observar si existe un

buen acuerdo entre ellas

x que iguales o menores

ordenadas nesobservacio de Número :xxN

n,...,2,1i,n

xxN)x(F

)i(

)i(

n

)x(F)x(FsupD 0nxn

Kolmogorov-Smirnov Test

Este estadístico tiende a ser

más sensible cerca del

centro de la distribución.

Fn(x):= Empirical Distribution Function (EDF) estimador

F0(x):= Hypothesized Distribution Function (CDF) estimador

n,...,2,1K

xxxn

k

xx1

xx0

)x(F

1)(k(k)

(k)

(k)

n

Ejemplo cálculo Fn(x):

Sean {0,1,2,2,4,6,6,7} los conteos

ordenados del número de veces que una

muestra de n=8 personas nadaron en el

último mes.

76642210x

87654321k

)k(

8k7x1)x(F

7,6k7x6)x(F

5k6x4)x(F

4,3k4x2)x(F

2k2x1)x(F

1k1x0)x(F

0x0)x(F

n

87

n

85

n

84

n

82

n

81

n

n

Pru

eb

as

ba

sa

da

s e

n la

Fu

nc

ión

de

Dis

trib

uc

ión

Em

pír

ica

(ED

F)

Page 7: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

7

Ejemplo aplicación del test Kolmogorov-Smirnov (KS):

Sean

{108,112,117,130,111,131,113,113,105,128}

los tiempos en minutos desperdiciados

por una muestra aleatoria de 10

empleados durante la labor diaria,

dedicados a realizar una actividad no

laboral, tal como navegar en la internet o

enviar correos electrónicos a amigos.

¿Es razonable suponer que los datos

provienen de una distribución Normal con

x=120 min y x=10 min?

Solución:

Para este caso, H0:= x es NID(120,10)

H1:= x no es NID(120,10)

Para la distribución normal,

2

2

2

)x(exp

2

1),,x(f

es la función de densidad de probabilidad

(pdf).

dt ),,t(f

dt 2

)t(exp

2

1),,x(F

x

x

2

2

Normalizando, obtenemos:

)z()(

dt)exp(

zP)xX(P)x(F

x

2t

x

0

x

2

Cuyos valores obtenemos de la tabla de

valores de la función Normal

estandarizada.

Así, lo primero que debemos hacer es

ordenar los datos y luego, para cada valor

de x, calcular el valor correspondiente de

xz

Pru

eb

as

ba

sa

da

s e

n la

Fu

nc

ión

de

Dis

trib

uc

ión

Em

pír

ica

(ED

F)

1357.00.18643.01.113110

0587.09.08413.00.11309

009.08.07881.08.01288

3179.07.03821.03.01177

3580.06.02420.07.01136

2580.05.02420.07.01135

1881.04.02119.08.01124

1159.03.01841.09.01113

0849.02.01151.02.11082

0332.01.00668.05.11051

)x(F)x(F)x(F)z()x(Fzxk 0nn0)k(

3580.0

)x(F)x(FsupD 0nxn

De la tabla para valores críticos para Dn,,

409.0D 10,0.05

409.0DD0.3580 10,0.05n

Conclusión:

Así, no podemos rechazar la hipótesis nula

H0 al nivel de confianza =0.05.

Debemos suponer que los datos se ajustan

a la distribución Normal.

Pru

eb

as

ba

sa

da

s e

n la

Fu

nc

ión

de

Dis

trib

uc

ión

Em

pír

ica

(ED

F)

Page 8: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

8

Pru

eb

as

ba

sa

da

s e

n la

Fu

nc

ión

de

Dis

trib

uc

ión

Em

pír

ica

(ED

F)

)x(F1log)x(FlogsumnA i1noion1i2

n,1in

Anderson-Darling Test

Este estadístico tiende a ser

más sensible cerca de las

colas de la distribución.

F0(x):= Estimador de la función de distribución acumulativa (CDF)

xi := Valores ordenados

n := Tamaño de muestra

AD test es comparable en

cuanto a su poder al test

de Shapiro-Wilk (SW).

Puede utilizarse para las

distribuciones Normal,

Lognormal, Exponencial,

Weibull, Extreme Value

Tipo I, así como la

distribución Logística.

Si 𝑨𝒏 ≤ 𝑪𝜶,𝒏, donde (1-) es el nivel de confianza seleccionado, entonces la

hipótesis nula de que los datos siguen la distribución sujeto de comparación

no puede ser rechazada al nivel de confianza utilizado. Pru

eb

as

ba

sa

da

s e

n la

Fu

nc

ión

de

Dis

trib

uc

ión

Em

pír

ica

(ED

F)

Page 9: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

9

AD para distribución Weibull

Dodson, B. The Weibull Analysis Handbook. 2006. ASQ Press

0.2 0.1 0.05 0.025 0.01

2 0.2670 0.2680 0.2855 0.2832 0.3518

3 0.3587 0.4168 0.4780 0.5253 0.7535

4 0.4005 0.4808 0.5603 0.6293 0.9283

5 0.4242 0.5157 0.6052 0.6862 1.0247

6 0.4394 0.5377 0.6333 0.7219 1.0856

7 0.4501 0.5527 0.6524 0.7462 1.1273

8 0.4579 0.5635 0.6663 0.7639 1.1577

9 0.4639 0.5717 0.6768 0.7772 1.1808

10 0.4686 0.5782 0.6850 0.7877 1.1989

15 0.4826 0.5967 0.7086 0.8179 1.2514

20 0.4894 0.6056 0.7199 0.8323 1.2766

25 0.4934 0.6108 0.7264 0.8407 1.2914

30 0.4961 0.6142 0.7307 0.8463 1.3011

35 0.4979 0.6166 0.7338 0.8502 1.3080

40 0.4994 0.6184 0.7360 0.8531 1.3131

45 0.5004 0.6197 0.7378 0.8553 1.3170

50 0.5013 0.6208 0.7392 0.8571 1.3202

55 0.5020 0.6217 0.7403 0.8585 1.3228

60 0.5026 0.6225 0.7413 0.8598 1.3249

65 0.5031 0.6231 0.7421 0.8608 1.3267

70 0.5036 0.6236 0.7427 0.8616 1.3282

75 0.5039 0.6241 0.7433 0.8624 1.3296

80 0.5043 0.6245 0.7438 0.8631 1.3307

85 0.5045 0.6249 0.7443 0.8636 1.3318

90 0.5048 0.6252 0.7447 0.8642 1.3327

95 0.5050 0.6255 0.7450 0.8646 1.3335

100 0.5052 0.6257 0.7454 0.8650 1.3342

n

Valores críticos (ca) para estadístico Anderson-Darling

AD para distribución Normal P

rue

ba

s b

as

ad

as

en

la

Fu

nc

ión

de

Dis

trib

uc

ión

Em

pír

ica

(ED

F)

Con el fin de ajustar este estadístico según el tamaño de

muestra n utilizado y según el tipo de distribución comparado,

se utilizan los siguientes factores.

Distribución Factor

Normal 𝐴∗ = 𝐴𝑛 1.0 +0.75𝑛+2.25𝑛2

Exponencial 𝐴∗ = 𝐴𝑛 1.0 + 0.6

𝑛

Gamma 𝐴∗ = 𝐴𝑛 1.0 +0.6

𝑛 para k=1

𝐴∗ = 𝐴𝑛 +0.2+

0.3

𝑘𝑛

para k≥2

Valor Extremo 𝐴∗ = 𝐴𝑛 1.0 + 0.2

𝑛

Weibull 𝐴∗ = 𝐴𝑛 1.0 + 0.2

𝑛

Pru

eb

as

ba

sa

da

s e

n la

Fu

nc

ión

de

Dis

trib

uc

ión

Em

pír

ica

(ED

F)

Page 10: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

10

Ejemplo aplicación del test Anderson-Darling (AD): Distribución Normal

Sean

{338.7, 308.5, 317.7, 313.1, 322.7, 294.2}

los datos resultantes de una prueba de

esfuerzo, obtenidos al azar de la misma

población.

Dado que la mediana tiene un valor de

315.40 y la media un valor de 315.82, ¿es

razonable suponer que los datos

provienen de una distribución Normal con

x=315.8 y x=14.9?

Solución:

Para este caso, H0:= x es NID(315.8,14.9)

H1:= x no es NID(315.8,14.9)

Para la distribución normal,

2

2

2

)x(exp

2

1),,x(f

es la función de densidad de probabilidad

(pdf).

dt ),,t(f

dt 2

)t(exp

2

1),,x(F

x

x

2

2

Normalizando, obtenemos:

)z()(

dt)exp(

zP)xX(P)x(F

x

2t

x

0

x

2

Cuyos valores obtenemos de la tabla de

valores de la función Normal

estandarizada.

Así, lo primero que debemos hacer es

ordenar los datos y luego, para cada valor

de x, calcular el valor correspondiente de

xz

7448.073.938.541.17.3386

1409.311.679.464.7.3225

3471.427.551.127.7.3174

3746.551.427.183.1.3133

152.679.311.493.5.3082

099.938.073.456.12.2941

Azzzxi2

ii1niii

16993.0 A

ASUM A

2

2

i6,1I

2

De la tabla para valores críticos para C,

6333.0C 6,0.05

6333.0CA0.2018 6,0.05n

Conclusión:

Así, no podemos rechazar la hipótesis nula H0 al nivel de confianza =0.05.

Debemos suponer que los datos se ajustan a la distribución Normal.

Donde

i1nin1i22

i zlog1logzlog1A

𝐴∗ = 𝐴2 1.0 + 0.75𝑛+2.25𝑛2

𝐴∗ = 0.16993 1.0 + 0.756+2.2536

𝐴∗ = 0.2018 Pru

eb

as

ba

sa

da

s e

n l

a F

un

ció

n d

e D

istr

ibu

ció

n E

mp

íric

a (

EDF)

Page 11: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

11

Ejemplo aplicación del test Anderson-Darling (AD): Distribución Weibull

Dados los siguientes datos

{11.7216, 10.4286, 8.0204, 7.5778, 1.4298,

4.1154}

resultantes de una prueba de

confiabilidad.

¿Es razonable suponer que los datos

provienen de una distribución Weibull con

=8.7 y =1.3?

Solución:

Para este caso, H0:= x es Weibull con =8.7 y =1.3

Para la distribución Weibull,

xtexpx),,x(f1

es la función de densidad de probabilidad

(pdf).

iii

xz con )z(WxXP

)x

exp(1),,x(F

377565.091178.770845.47336.17216.116

063865.314691.717948.26167.14286.105

584017.566413.593293.89967.0204.84

223412.593293.566413.83166.5778.73

210914.717948.314691.37789.1154.42

355283.770845.091178.09560.4298.11

AzWzWzxi2

ii1niii

3794.0 A

ASUM A

2

2

i6,1I

2

Donde

i1nin1i22

i zWlog1logzWlog1A

Pru

eb

as

ba

sa

da

s e

n l

a F

un

ció

n d

e D

istr

ibu

ció

n E

mp

íric

a (

EDF)

𝐴∗ = 𝐴2 1.0 + 0.2

𝑛

𝐴∗ = 0.3794 1.0 + 0.2

6

𝐴∗ = 0.4103

De la tabla para valores críticos para

C(Stephens):

757.0C 0.05

0.757CCA0.4103 0.056,0.05n

Conclusión:

Así, no podemos rechazar la hipótesis nula H0 al nivel de confianza =0.05.

Debemos suponer que los datos se ajustan a la distribución Weibull con =8.7 y =1.3.

Pru

eb

as

ba

sa

da

s e

n l

a F

un

ció

n d

e D

istr

ibu

ció

n E

mp

íric

a (

EDF)

Page 12: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

12

2

2

S

bW

Shapiro-Wilk Test Este estadístico tiende a ser

más sensible cerca de la

cola izquierda de la

distribución.

Pru

eb

as

ba

sa

da

s e

n c

orr

ela

ció

n y

re

gre

sió

n

Con

2

in,1I

2

in,1I

2

1in

21

2n

)1(

i1in1ink,1I

xSUMn

1xSUMS

1- ATabla la de factor : a

impar es n si )1n(k ;par es n sik

xxaSUMb

El estadístico b da, hasta una cierta constante, la pendiente de la línea de regresión.

Los coeficientes an-i+1 son constantes generadas a partir de los momentos de la distribución Normal.

Esta prueba se ha convertido en la

preferida debido a sus excelentes

propiedades de discriminación

(power).

Es recomendado para casos con

tamaños de muestra limitados

(n 50).

(1) Esta fórmula es válida para

distribución Normal. Para

otras distribuciones, su cálculo

es diferente.

Pru

eb

as

ba

sa

da

s e

n c

orr

ela

ció

n y

re

gre

sió

n

Page 13: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

13

Pru

eb

as

ba

sa

da

s e

n c

orr

ela

ció

n y

re

gre

sió

n

Ejemplo aplicación del test Shapiro-Wilk (SW): Distribución Normal

Dados los siguientes datos ordenados

{.6925, 1.6952, 1.6970, 1.6974, 1.6981,

1.6985, 1.6988, 1.6992, 1.7001, 1.7012,

1.7015, 1.7016, 1.7030, 1.7050, 1.7055,

1.7060, 1.7083, 1.7085, 1.7107}

resultantes de una medición de 20

diámetros.

¿Es razonable suponer que los datos

provienen de una distribución Normal?

Solución:

Para este caso, H0:= x es Normal

421086.5 b

0242.0b

42

2

2

in,1I

2

in,1I

2

102.4S

00042.0

90443.5790485.57

0307.8420

190485.57

xSUMn

1xSUMS

Como n=20 k=10.

0000.7012.17015.10140.11

0001.7001.17016.10422.12

0002.6992.17026.10711.13

0042.6988.17030.11013.14

0009.6985.17050.11334.15

0012.6981.17055.11686.16

0018.6974.17060.12085.17

0029.6970.17083.12565.18

0043.6952.17085.13211.19

0086.6925.17107.14734.20

)xx(axxai1n ii1ni1nii1ni1n

i1in1ink,1I

xxaSUMb

Pru

eb

as

ba

sa

da

s e

n c

orr

ela

ció

n y

re

gre

sió

n

395.1102.4

1086.5

S

bW

4

4

2

2

De la tabla A-2 para valores críticos de la

distribución Normal:

905.0W20,0.05

905.0WW1.395 20,0.05

Conclusión:

Así, debemos rechazar la hipótesis nula H0 al nivel de confianza =0.05.

Debemos suponer que los datos no se ajustan a la distribución Normal.

Page 14: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

14

Shapiro-Wilk Statistic Critical Values

Pru

eb

as

ba

sa

da

s e

n c

orr

ela

ció

n y

re

gre

sió

n

Shapiro-Wilk Statistic Critical Values

Pru

eb

as

ba

sa

da

s e

n c

orr

ela

ció

n y

re

gre

sió

n

Page 15: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

15

Power de las pruebas de bondad de ajuste

De estas 1000 simulaciones

realizadas con PASS 11, aplicando

una prueba para ajustar distribución

Normal a datos generados mediante

un modelo Gamma, se observa que el

estadístico Shapiro-Wilk y el

Anderson-Darling poseen un power

similar para valores de tamaños de

muestra n ≤ 100, siendo además los

que presentan un mejor desempeño.

Elaborado por A. Mayorga Noviembre 2012

30

Datos truncados o asociados con pruebas de falla

Si los datos por analizar están truncados o son “censored”, entonces el procedimiento anterior podría no ser el más indicado para hallar el modelo distribucional de mejor ajuste.

En estos casos se recomienda utilizar el método basado en el Maximum Likehood Estimator (MLE) para hallar la distribución de mejor ajuste.

El método estándar indicado con

anterioridad utiliza el método LSE

(Least Square Estimates), el cual es

recomendado para muestras

pequeñas y datos no truncados

(censored).

Datos Censored: son aquellos cuyas

propiedades medidas no se conocen

con precisión, pero se sabe que están

por encima o por debajo de algún

límite de sensibilidad.

Datos Truncados: son aquellos que

debido a límites de sensibilidad

están perdidos de la muestra.

Elaborado por A. Mayorga Noviembre 2012

Page 16: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

16

31

Da

tos

ce

ns

ore

d o

as

oc

iad

os

co

n p

rue

ba

s d

e f

all

a

El procedimiento´por seleccionar depende del tipo de muestra (es

decir, si es “uncensored” o “censored”, o si los datos están

agrupados o no). El “censoring” ocurre cuando el valor asignado a

una medición u observación es conocido sólo parcialmente.

MLE, el cual a diferencia del LSE

requiere de un mínimo o de

ninguna suposición distribucional,

es útil en la obtención de una

medida descriptiva con el fin de

resumir datos observados, pero no

posee ninguna base para la prueba

de hipótesis o construir intervalos

de confianza.

A diferencia del LSE, el cual es

básicamente una herramienta descrip-

tiva, el método MLE es el preferido en

estadística en la estimación de paráme-

tros y es una herramienta indispensable

para muchas técnicas de modelado

estadístico, en particular en el modelado

no lineal con datos no normales.

Existen dos métodos generales para la estimación

de párametros: Least-Squares Estimation (LSE) y

Maximum Likelihood Estimation (MLE).

LSE ha sido la selección popular para ajuste

distribucional, y está asociada a muchos

conceptos estadísticos, tales como regresión

lineal, suma de errores cuadráticos,

desviación cuadrática media, etc.

Elaborado por A. Mayorga Noviembre 2012

32

Si a estos datos le aplicáramos el método basado en el p-value, no obtendríamos ningún ajuste distribucional por lo que no sería posible continuar con el estudio de capacidad.

Note que aunque no se

pudo asignar un p-value

al modelo lognormal, éste

parece ajustarse bien a

los datos.

Elaborado por A. Mayorga Noviembre 2012

Da

tos

ce

ns

ore

d o

as

oc

iad

os

co

n p

rue

ba

s d

e f

all

a

Page 17: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

17

33

Sin embargo, al percatarnos de que estos datos corresponden a una prueba de explosión de un balón (por lo que son datos de falla) y que son, además, datos truncados (aunque la variable es continua), podemos utilizar:

Los datos poseen solo un límite inferior (5 psi), por lo que las distribuciones esperadas para estos datos son: Weibull, Lognormal y Exponencial.

Si el proceso es robusto, es de esperar hallar una densidad de valores muy baja cerca del límite inferior y muy alta lejos de este límite.

Esta opción

permite

identificar el

modelo de

mejor ajuste

distribucional y

utiliza ambos

métodos (LSE y

MLE).

Elaborado por A. Mayorga Noviembre 2012

Da

tos

ce

ns

ore

d o

as

oc

iad

os

co

n p

rue

ba

s d

e f

all

a

34

Ambas opciones permiten

utilizar tanto el método LSE

como el MLE.

Aunque ambos métodos (LSE y

MLE) coinciden en el modelo

de mejor ajuste, difieren en

cuanto al valor de los

parámetros distribucionales.

Elaborado por A. Mayorga Noviembre 2012

Da

tos

ce

ns

ore

d o

as

oc

iad

os

co

n p

rue

ba

s d

e f

all

a

Page 18: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

18

35

10.001.000.100.01

99.9

90

50

10

1

High - Threshold

Pe

rce

nt

20105

99.999

90

50

10

10.1

High - Threshold

Pe

rce

nt

10.01.00.1

99.9

90

50

10

1

High - Threshold

Pe

rce

nt

2-Parameter Exponential

3.967

3-Parameter Lognormal

1.516

3-Parameter Weibull

1.607

Anderson-Darling (adj)

10.001.000.100.01

99.9

90

50

10

1

High - Threshold

Pe

rce

nt

20105

99.999

90

50

10

10.1

High - Threshold

Pe

rce

nt

101

99.9

90

50

10

1

High - Threshold

Pe

rce

nt

2-Parameter Exponential

*

3-Parameter Lognormal

0.977

3-Parameter Weibull

0.969

Correlation Coefficient

Probability Plot for HighML Estimates-C omplete Data

2-Parameter Exponential 3-Parameter Lognormal

3-Parameter Weibull

Probability Plot for HighLSXY Estimates-C omplete Data

2-Parameter Exponential 3-Parameter Lognormal

3-Parameter Weibull

Elaborado por A. Mayorga Noviembre 2012

36

101

99.9

99

90

50

10

1

0.1

High - T hreshold

Pe

rce

nt

AD* 1.516

Loc 1.89755

Scale 0.317639

Thres 6.33901

Mean 13.3537

StDev 2.28553

Median 13.0086

IQR 2.87974

Failure 60

Censor 0

Table of Statistics

100101

99.9

99

90

50

10

1

0.1

High - T hreshold

Pe

rce

nt

AD* 1.488

Correlation 0.977

Loc 2.03597

Scale 0.279266

Thres 5.39133

Mean 13.3556

StDev 2.26824

Median 13.0510

IQR 2.90269

Failure 60

Censor 0

Table of Statistics

Probability Plot for High

C omplete Data - ML Estimates

3-Parameter Lognormal - 95% C I

Probability Plot for High

C omplete Data - LSXY Estimates

3-Parameter Lognormal - 95% C I

Page 19: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

19

2418126

99.9

99

90

50

10

1

0.1

Low

Pe

rce

nt

100.010.01.00.1

99.9

90

50

10

1

Low - Threshold

Pe

rce

nt

101

99.9

99

90

50

10

1

0.1

Low - Threshold

Pe

rce

nt

101

99.9

90

50

10

1

Low - Threshold

Pe

rce

nt

Normal

0.945

2-Parameter Exponential

*

3-Parameter Lognormal

0.988

3-Parameter Weibull

0.982

C orrelation C oefficient

Probability Plot for LowLSXY Estimates-Complete Data

Normal 2-Parameter Exponential

3-Parameter Lognormal 3-Parameter Weibull

37

Al aplicar el método basado en el LSE a los datos de LOW, obtenemos que los datos se ajustan bien al modelo distribucional 3-parameter lognormal.

Seleccionamos la distribución con el mayor coeficiente

de correlación.

Elaborado por A. Mayorga Noviembre 2012

Da

tos

ce

ns

ore

d o

as

oc

iad

os

co

n p

rue

ba

s d

e f

all

a

2418126

99.9

99

90

50

10

1

0.1

Low

Pe

rce

nt

100.010.01.00.1

99.9

90

50

10

1

Low - Threshold

Pe

rce

nt

101

99.9

99

90

50

10

1

0.1

Low - Threshold

Pe

rce

nt

10.01.00.1

99.9

90

50

10

1

Low - Threshold

Pe

rce

nt

Normal

1.761

2-Parameter Exponential

2.906

3-Parameter Lognormal

0.855

3-Parameter Weibull

0.937

A nderson-Darling (adj)

Probability Plot for LowML Estimates-Complete Data

Normal 2-Parameter Exponential

3-Parameter Lognormal 3-Parameter Weibull

38

Al aplicar el método basado en el MLE, obtenemos que los datos se ajustan bien al modelo distribucional 3-parameter lognormal.

Seleccionamos la distribución con el menor coeficiente

AD (adj).

Elaborado por A. Mayorga Noviembre 2012

Da

tos

ce

ns

ore

d o

as

oc

iad

os

co

n p

rue

ba

s d

e f

all

a

Page 20: 4 - Identificando El Modelo Distribucional Que Mejor Se Ajusta a Los Datos

02/02/2013

20

39

Una observación acerca del modelado distribucional

Las gráficas de

control no hacen

ninguna suposición

acerca de la forma

funcional de tal

modelo

probabilístico.

Un proceso no se puede decir que está

caracterizado por un modelo

distribucional a menos que despliegue

un grado razonable de estabilidad

(predictibilidad).

Para parafrasear a Shewhart, el propósito

de una gráfica de comportamiento de

proceso (gráfica de control) es

determinar si existe un modelo

probabilístico que describa el proceso.

Si un proceso es estable entonces existe en

principio un modelo distribucional que lo

describe.

Si Ud. no ha calificado los datos al ponerlos en una

gráfica de control y hallar que despliegan un grado

razonable de homogeneidad, entonces cualquier intento

de ajustarlos a algún modelo es prematuro.

“Nuestra experiencia muestra que después de

que las causas asignables de Tipo I se han

detectado y eliminado, la distribución observada

es, generalmente, alisada y unimodal.”

Shewhart (1931)

Elaborado por A. Mayorga Noviembre 2012

Elaborado por A. Mayorga Noviembre 2012

REFERENCES

• Balakrishnan, N. A Primer on Statistical Distributions. 2004. John Wiley & Sons, Inc.

• Thas, Olivier. Comparing Distributions. 2010. Springer Science-Business Media.

• Duistermaat & Kolk. Distributions: Theory and Applications. 2010. Birkhäuser.

• Karian & Dudewicz. Handbook of Fitting Statistical Distributions with R. 2011. CRC Press.

• Krishnamoorthy, K. Handbook of Statistical Distributions with Applications. 2006. Chapman &

Hall/CRC

• Shapiro, S. How to Test Normality and Other Distributional Assumptions. 1990. ASQC Press.

• Ross, S. Introduction to Probability Models. 6th. Edition. 1997. Academic Press Limited.

• Forbes, K. Statistical Distributions. 4th edition. 2011. John Wiley & Sons, Inc.

• Anderson & Darling. A Test of Goodness of Fit. Journal of the American Statistical Association,

Vol. 49, No. 268. (Dec., 1954), pp. 765-769.

• Shapiro & Wilk. An Analysis of Variance Test for Normality (Complete Samples). 1965.

Biometrika, Vol. 52, No. 3/4. (Dec., 1965), pp. 591-611.

• Dietrich & Schulze. Statistical Procedures for Machine and Process Qualification. 1999. ASQ

Press.