prueba-ad

5
 Incertidumbre de la medición PRUEBA ANDERSON-DARLING PRUEBA DE BONDAD DE AJUSTE La mayorí a de los tod os est adíst ico s asumen una di str ibu ció n fun dament al en la derivación de sus resultados y al asumir que una serie de datos siguen una distribución específica, estamos tomando un serio riesgo, pues si la afirmación es errada, entonces los resultados obteni dos pueden ser inválid os ; entonces establecer la distribución fundamental de un grupo de datos ( o variable aleatoria) es crucial para la correcta implementación de algunos procedimientos estadísticos. Por ejemplo, la aplicación del test de t requiere que la distribución de probabilidades sea normal. Existen procedimientos estadísticos conocidos como pruebas de Bondad de Ajuste ( GoF ), estas pruebas son utilizadas para probar ( o asegurar) si un conjunto de datos muestrales provienen de una poblac ión con una distribución de probabili dades específica; una de ellas es la prueba de Anderson-Darling La pr ue ba de Anderson-Dar li ng se basa en la compar acn de la di st ri buci ón de pro babilidades acumul ada emp íri ca ( obt eni da de los dat os ) con la distribución de probabilida des acumulada teórica ( defina por H 0 ) La pr ueba puede ser aplicada pa ra evaluar el aj uste a cual qu ier distribuci ón de prob abil ida des, es de nuestro interé s apli carl a para el caso de bondad de ajuste a la distribución normal.  A continuació n plantearemo s la aplicación de la prueba de Anderson-Da rling para el caso mencionado empleando un ejemplo cuyos datos y cálculos se encuentran en el archivo denominado “prueba AD” en Excel. La teoría para el desarrollo de la prueba indica lo siguiente: Se obtienen datos correspondientes a una variable, se desea evaluar si esta variable de respuesta sigue una distribución normal con media μ y varianza σ 2  . Se plantean las hipótesis: H0 : la variable sigue una distribución normal (μ , σ 2  ) H1 : la variable no sigue una distribución normal (μ , σ 2  ) estadístico de la prueba El estadístico de la prueba es denotado como A 2  , y se obtiene mediante la expresión  A 2  = AD – n ……. ( 1 ) Donde :  AD ( la bibliografía se encuentra también denominada como S ) se obtiene de la siguiente expresión [ ] )) ( 1 ln( ) ( ln ) 2 1 ( 1 1 1 i n i n i  Z  F  Z  F i n  AD + = +       =  …. ( 2 ) Programa de Especialización ISO/IEC 17025:2005

Upload: veronika-amador

Post on 22-Jul-2015

185 views

Category:

Documents


0 download

TRANSCRIPT

Incertidumbre de la medicin

PRUEBA ANDERSON-DARLING PRUEBA DE BONDAD DE AJUSTE La mayora de los mtodos estadsticos asumen una distribucin fundamental en la derivacin de sus resultados y al asumir que una serie de datos siguen una distribucin especfica, estamos tomando un serio riesgo, pues si la afirmacin es errada, entonces los resultados obtenidos pueden ser invlidos ; entonces establecer la distribucin fundamental de un grupo de datos ( o variable aleatoria) es crucial para la correcta implementacin de algunos procedimientos estadsticos. Por ejemplo, la aplicacin del test de t requiere que la distribucin de probabilidades sea normal. Existen procedimientos estadsticos conocidos como pruebas de Bondad de Ajuste ( GoF ), estas pruebas son utilizadas para probar ( o asegurar) si un conjunto de datos muestrales provienen de una poblacin con una distribucin de probabilidades especfica; una de ellas es la prueba de Anderson-Darling La prueba de Anderson-Darling se basa en la probabilidades acumulada emprica ( obtenida de probabilidades acumulada terica ( defina por H0 ) La prueba puede ser aplicada para evaluar el probabilidades, es de nuestro inters aplicarla para distribucin normal. comparacin de la distribucin de los datos ) con la distribucin de ajuste a cualquier distribucin de el caso de bondad de ajuste a la

A continuacin plantearemos la aplicacin de la prueba de Anderson-Darling para el caso mencionado empleando un ejemplo cuyos datos y clculos se encuentran en el archivo denominado prueba AD en Excel. La teora para el desarrollo de la prueba indica lo siguiente: Se obtienen datos correspondientes a una variable, se desea evaluar si esta variable de respuesta sigue una distribucin normal con media y varianza 2 . Se plantean las hiptesis: H0 : la variable sigue una distribucin normal ( , 2 ) H1 : la variable no sigue una distribucin normal ( , 2 ) estadstico de la prueba El estadstico de la prueba es denotado como A2 , y se obtiene mediante la expresin A2 = AD n . ( 1 ) Donde : AD ( la bibliografa se encuentra tambin denominada como S ) se obtiene de la siguiente expresin

1 n AD = (1 2i )[ ln F ( Z i ) + ln(1 F ( Z n + 1 i ))] n i= 1Programa de Especializacin ISO/IEC 17025:2005

. ( 2 )

n: Z:

es el nmero de observaciones es la variable aleatoria normal estndar con = 0 y 2 = 1 La creacin de esta variable Z se realiza por medio de la transformacin llamada estandarizacin : Zi = Xi . ( 3 )

F(Z) : es la distribucin de probabilidades acumulada normal con media igual a 0 y varianza igual a 1 a partir de la muestra. ln: Xi : funcin logaritmo natural son los datos obtenidos ordenados de menor a mayor

Criterio de aceptacin La hiptesis nula ( H0 ) se rechaza con un nivel de significacin si:

0,75 2,25 2 + 2 . ( 4 ) A 2 es mayor que Acritico 1 + n n es decir si

0,75 2,25 2 A 2 < Acritico 1 + + 2 .. ( 5 ) n n se acepta H0 : la variable sigue una distribucin normal ( , 2 ) En la tabla 1 se presentan valores crtico para la prueba de Anderson-Darling aplicada a la distribucin normal en diferentes niveles de significacin A2crtico 0,1 0,631 0,05 0,752 0,025 0,873 0,01 1,035

Al desarrollar la prueba seguiremos los pasos que se presentan a continuacin, paralelamente revisemos el ejemplo desarrollado en el archivo denominado prueba AD en Excel donde se presenta un cuadro con 13 columnas que emplearemos para realizar la prueba Pasos a seguir 1 ) Obtener los datos En la columna 1 se encuentra un grupo de 22 datos de la variable X, , son datos obtenidos , en nuestro caso , en el trabajo del laboratorio al determinar cierto analito.

Pontificia Universidad Catlica del Per

2

Incertidumbre de la medicin

2 ) Ordenar los datos en forma creciente En la columna 3 se encuentra el grupo de n=22 datos ordenados en forma creciente, y en la columna 2 se encuentran los valores de i correspondientes a este ordenamiento, donde i es la posicin de cada dato al ser estos ordenados de menor a mayor. 3 ) Calcular el promedio y la desviacin estndar del grupo de datos El promedio es calculado en la celda D35 y la desviacin estndar en la celda D36 de la hoja de excel , segn las funciones que la hoja de clculo nos ofrece. ( Vamos a hacer los clculos para aplicar la ecuacin (2) y posteriormente la ecuacin ( 1 ) ) 4 ) Realizar la estandarizacin de la variable, es decir hallar Z Aplicar la ecuacin ( 3 ) a cada valor de la columna 3 , los valores de Z obtenidos se encuentran registrados en la columna 4. 5 ) Aplicar la funcin F a cada valor de Z F es la funcin de distribucin acumulativa y el clculo se realiza de la siguiente manera ; En la hoja de excel Insertar --- Funcin ---DIST.NORM.ESTAND operando para cada valor de Z de la columna 4 , se obtienen los datos registrados en la columna 5. Nota : la funcin DIST.NORM.ESTAND se encuentra dentro de las funciones estadsticas, devuelve la funcin normal estndar acumulativa . Tiene media cero y varianza uno 6 ) Calcular el logaritmo natural de la evaluacin del valor obtenido al aplicar la funcin F ( Zn ) Aplicar la funcin logaritmo natural a los datos registrados en la columna 5 , se obtienen los datos registrados en la columna 6. 7 ) Ordenar los datos en forma decreciente En la columna 8 se encuentra el grupo de n=22 datos ordenados en forma decreciente, y en la columna 7 se encuentran los valores de n+1-i correspondientes a este ordenamiento, donde n+1-i es la posicin de cada dato al ser estos ordenados de mayor a menor. 8) Calcular los valores de Z correspondientes En la columna 9 se registran los valores de Z correspondientes a los datos registrados en la columna 8 9 ) Aplicar la funcin F a cada valor de Z En forma similar la paso 5 aplicar la funcin F a los valores de Z registrados en la columna 9, estos valores son registrados en la columna 10. 10 ) Calcular la expresin ( 1 F(Zn+1-i)) Para cada valor de la columna 9 calcula la expresin indicada (1 F(Zn+1-i)), los valores correspondientes son registrados en la columna 11.Programa de Especializacin ISO/IEC 17025:2005 3

11 ) Calcular el logaritmo natural de la evaluacin del valor obtenido al aplicar la expresin ( 1 F(Zn+1-i)) Aplicar la funcin logaritmo natural a los datos registrados en la columna 11 , se obtienen los datos registrados en la columna12. 12 ) Aplicar la expresin

(1 2i )[ ln F ( Z i ) + ln(1 F ( Z n + 1 i ))] . ( 6 )a cada fila del cuadro correspondiente a un valor de i Se emplear los valores de las columnas 6 y 12 para realizar el clculo de la expresin matemtica ( 6 )para cada fila o valor de i registrados en la columna 2. Se obtienen los valores registrados en la columna 13. 13 ) Hallar la suma de los valores (1 2i )[ ln F ( Z i ) + ln(1 F ( Z n + 1 i ))] Como se indica en la expresin ( 2 ) se debe obtener la sumatoria :n

i= 1

(1 2i )[ ln F ( Z i ) + ln(1 F ( Z n + 1 i ))]

entonces se deben sumar los valores registrados en la columna 13. La suma se registra en la celda N35 14) Hallar el valor de AD segn se indica en la expresin ( 2 ) Dividir la suma registrada en la celda N35 entre el valor de n registrado en la celda D37 ( n=22) Se registra el valor de AD en la celda N37 15) Hallar el valor de A2 segn la expresin matemtica ( 1 ) Restar el valor de AD registrado en la celda N37 menos el valor de n registrado en la celda D37 ( n=22) Se registra el valor de A2 en la celda N39 16 ) Registrar el valor de A2 crtico En este caso el valor crtico de A2 se toma de tablas para = 0,05 , el valor es 0,7252 17 ) Calcular la expresin ( 4 ) Empleando los datos indicados de A2critico para = 0,05 y n calcula la expresin ( 4 ) Se registra el clculo de la expresin ( 4 ) en la celda N41Pontificia Universidad Catlica del Per 4

Incertidumbre de la medicin

18 ) Evaluar las hiptesis ( H0 y H1 ) segn el resultados del estadstico A2 Se evala la prueba de hiptesis segn el resultado del estadstico A 2 y la comparacin con el valor crtico correspondiente. Se registra la evaluacin en las celdas M43 y N43.

Programa de Especializacin ISO/IEC 17025:2005

5