formulario de estadística aplicada a la medición...

21
Formulario de Estadística Aplicada a la Medición Química Por Francisco Rojo Callejas Presentación La medición química es un proceso generalmente costoso, por lo que el tamaño de muestras es generalmente pequeño. Esta característica hace que la estadística aplicada a la misma presente ciertas particularidades: Primeramente, si bien llegan a usarse, los diagramas de puntos y todas las variantes de histogramas de frecuencias (barras, pasteles, etc.) tienen uso limitado en esta área. Dada la distribución muestral continua de las mediciones químicas, los diagramas de pareto y semejantes casi nunca se utilizan. En segundo lugar, la variación de la mayoría de las técnicas y equipos de medición (balanzas, material volumétrico, espectrómetros, cromatógrafos, potenciómetros, etc.) no presenta sesgos, por lo que es válido asumir que los resultados se distribuyen normalmente. Esto implica que las técnicas normales de la estadística paramétrica son válidas y son las más utilizadas (pruebas de hipótesis, análisis de regresión, análisis de varianza). En algunos casos especiales, como son el análisis de trazas en equipos que nunca reportan resultados inferiores a cero (p. ej. cromatografía), la distribución es log- normal, por lo que deben aplicarse las transformaciones pertinentes antes de aplicar la estadística. Finalmente, las pruebas no-paramétricas, de tanta importancia en las ciencias sociales se usan en mucho menor grado, aunque unas pocas son muy útiles (Kolmogorov-Smirnov, McNemar, Wilcoxon, rachas, Spearman). Introducción En química cuando queremos medir alguna propiedad lo primero que hacemos es tomar una muestra. Así, por ejemplo, cuando queremos caracterizar el estado de salud de un cuerpo de agua, como un lago, este representa desde el punto de vista estadístico la población, la cual si consideramos el total de moléculas presentes es prácticamente infinita. Por ello es imposible medir en cada grupo individual de moléculas propiedades como temperatura, potencial redox, pH, nitratos, fosfatos, etc. Lo que hacemos es tomar una serie de muestras en diferentes puntos del lago y en ellas medir los parámetros de interés. Ocurren varias cosas, primeramente la población (el lago) no es perfectamente homogénea, es seguro que el pH, potencial redox y concentraciones de especies químicas es diferente en diferentes zonas, la población por si misma presenta una dispersión. Además, nuestros diferentes instrumentos de medición también presentan variaciones alrededor de un valor central, causadas por cambios en la temperatura ambiente, ruido inherente a la electrónica del instrumento, variaciones en el voltaje de alimentación, etc. Si hacemos varias repeticiones sobre una misma muestra, o varias muestras diferentes, en cualquier caso, podremos obtener polígonos de frecuencias, o histogramas, en que graficaremos el número de veces que obtuvimos un resultado dado, en función del resultado obtenido, así al medir el potencial redox de varias muestras de nuestro lago, tomadas en puntos diferentes, obtendríamos resultados como los mostrados en la gráfica: 1

Upload: nguyenliem

Post on 24-Sep-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Formulario de Estadística Aplicada a la Medición Química

Por Francisco Rojo Callejas

Presentación La medición química es un proceso generalmente costoso, por lo que el tamaño de muestras es generalmente pequeño. Esta característica hace que la estadística aplicada a la misma presente ciertas particularidades: Primeramente, si bien llegan a usarse, los diagramas de puntos y todas las variantes de histogramas de frecuencias (barras, pasteles, etc.) tienen uso limitado en esta área. Dada la distribución muestral continua de las mediciones químicas, los diagramas de pareto y semejantes casi nunca se utilizan. En segundo lugar, la variación de la mayoría de las técnicas y equipos de medición (balanzas, material volumétrico, espectrómetros, cromatógrafos, potenciómetros, etc.) no presenta sesgos, por lo que es válido asumir que los resultados se distribuyen normalmente. Esto implica que las técnicas normales de la estadística paramétrica son válidas y son las más utilizadas (pruebas de hipótesis, análisis de regresión, análisis de varianza). En algunos casos especiales, como son el análisis de trazas en equipos que nunca reportan resultados inferiores a cero (p. ej. cromatografía), la distribución es log-normal, por lo que deben aplicarse las transformaciones pertinentes antes de aplicar la estadística. Finalmente, las pruebas no-paramétricas, de tanta importancia en las ciencias sociales se usan en mucho menor grado, aunque unas pocas son muy útiles (Kolmogorov-Smirnov, McNemar, Wilcoxon, rachas, Spearman).

Introducción En química cuando queremos medir alguna propiedad lo primero que hacemos es tomar una muestra. Así, por ejemplo, cuando queremos caracterizar el estado de salud de un cuerpo de agua, como un lago, este representa desde el punto de vista estadístico la población, la cual si consideramos el total de moléculas presentes es prácticamente infinita. Por ello es imposible medir en cada grupo individual de moléculas propiedades como temperatura, potencial redox, pH, nitratos, fosfatos, etc. Lo que hacemos es tomar una serie de muestras en diferentes puntos del lago y en ellas medir los parámetros de interés. Ocurren varias cosas, primeramente la población (el lago) no es perfectamente homogénea, es seguro que el pH, potencial redox y concentraciones de especies químicas es diferente en diferentes zonas, la población por si misma presenta una dispersión. Además, nuestros diferentes instrumentos de medición también presentan variaciones alrededor de un valor central, causadas por cambios en la temperatura ambiente, ruido inherente a la electrónica del instrumento, variaciones en el voltaje de alimentación, etc. Si hacemos varias repeticiones sobre una misma muestra, o varias muestras diferentes, en cualquier caso, podremos obtener polígonos de frecuencias, o histogramas, en que graficaremos el número de veces que obtuvimos un resultado dado, en función del resultado obtenido, así al medir el potencial redox de varias muestras de nuestro lago, tomadas en puntos diferentes, obtendríamos resultados como los mostrados en la gráfica:

1

Page 2: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Potencial redox en lago Ch23A al 10/08/07

0

10

20

30

40

50

60

70

80

90

150 160 170 180 190 200 210 220 230 240 250

E (mV)

núm

ero

de re

sulta

dos

La distribución de estos resultados debe ser caracterizada, principalmente para obtener el valor central (centroide de masa) y la dispersión, matemáticamente estos se obtienen mediante los momentos matemáticos.

Momentos de una función matemática Antes de tocar los aspectos prácticos de la estadística es conveniente introducir estos términos, que si bien usaremos muy poco, es importante que el lector pueda relacionarlos directamente con las ecuaciones comúnmente utilizadas que se muestran mas adelante. Momento de orden cero. Representa el área bajo la curva, se define por:

( )( )

o

o

f x dx

f x x

µ

µ

= ⋅

= ⋅∆∫∑

Momento de primer orden ( 1µ ) y momento reducido de primer orden ( 1µ ′ ). El segundo representa el centroide de masa de la función, es el estimador exacto de la tendencia central

( )( )( )( )( )

1

1

1

x f x dx

x f x dx

f x dx

x f x xf x x

µ

µ µ

µ µ

= ⋅ ⋅

⋅ ⋅′= =

⋅ ⋅∆′= =⋅∆

∫∫∫

∑∑

2

Page 3: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Momento central reducido de segundo orden ( 2µ ′′ ). Representa la varianza de la función matemática.

( ) ( )( )

( ) ( )( )

2

122

2

122

x f x dx

f x dx

x f x x

f x x

µσ µ

µσ µ

′− ⋅ ⋅′′= =

′− ⋅ ⋅∆′′= =

⋅∆

∫∫

∑∑

Momentos centrales reducidos de orden superior. Se utilizan en el cálculo del sesgo (asimetría) y la curtosis (agudeza o aplanamiento de la función), las ecuaciones base tienen la misma forma de la varianza, pero en órdenes superiores:

( ) ( )( )

( ) ( )( )

1

1

n

n

n

n

x f x dx

f x dx

x f x x

f x x

µµ

µµ

′− ⋅ ⋅′′ =

′− ⋅ ⋅∆′′ =

⋅∆

∫∫

∑∑

Sesgo ( )1γ : Representa la asimetría de la función. Un función o distribución simétricas tienen sesgo igual a cero, un sesgo positivo significa que la distribución está mas cargada hacia los valores pequeños, a la inversa, un sesgo negativo implica que los valores que predominan son los mas altos. El sesgo se calcula con la ecuación:

( )

3 31 33

22

µ µγσ µ

′′ ′′= =

′′

Curtosis o apuntamiento ( )2γ : Mide la agudeza o el aplanamiento de la distribución, la campana de Gauss representa la referencia, se define como mesocúrtica y su curtosis es cero. Las distribuciones mas puntiagudas tienen curtosis positiva y se les define como leptocúrticas, las distribuciones con curtosis negativas son aplanadas y se les llama platicúrticas. La curtosis se calcula con la ecuación:

( )4 4

2 242

3 3µ µγσ µ′′ ′′

= − = −′′

La situación en la medición química Generalmente el origen aleatorio de las variaciones de los resultados en química provoca que los resultados se dispersen alrededor de la tendencia central en una forma prácticamente gaussiana, es decir, sesgo y curtosis son casi cero. Existen, por supuesto, excepciones como el ya mencionado caso de la cuantificación de trazas por métodos cromatográficos, en los que los resultados son siempre positivos y el sesgo resulta significativamente negativo. Consecuencia práctica de esta característica es que en química podemos aplicar la estadística paramétrica clásica, basada en distribuciones

3

Page 4: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

gaussianas, sin cometer grandes errores aún en los casos de excepción, es decir, los temas de este curso son aplicables a la generalidad de las mediciones químicas.

Exactitud y precisión Cuando efectuamos mediciones repetitivas, ya sea de una misma muestra, o de una misma población, los resultados se encontrarán más o menos dispersos alrededor de un valor central. La precisión se relaciona con la dispersión de nuestros resultados, mientras que la exactitud se relaciona con la diferencia entre el valor central de estos resultados y el valor real, o el valor que aceptamos como real, luego entonces, se pueden presentar varias situaciones de carencia de exactitud y/o precisión, representadas gráficamente en las figuras siguientes:

Caso 2: Exacto, poco preciso

0 2 4 6 8 10 12 14 16 18 2

N-NO3 (ppm)

núm

ero

de re

sulta

dos

0

Promedio deresultados

Valor real

Caso 4: Exacto y preciso

0 2 4 6 8 10 12 14 16 18 20

N-NO3 (ppm)

núm

ero

de re

sulta

dos

Promedio deresultados

Valor realValor real

Caso 1: Poco exacto y poco preciso

0 5 10 15 20 25 30 35 40 45 50

N-NO3 (ppm)

núm

ero

de re

sulta

dos

Promedio deresultados

Valor real

Caso 3: Preciso, pero poco exacto

0 5 10 15 20 25 30 35 40 45 50

N-NO3 (ppm)

núm

ero

de re

sulta

dos

Promedio deresultados

Valor real

En el primer caso los resultados están muy dispersos (errores aleatorios) y además la mayoría de ellos están lejos del valor real (errores sistemáticos), el método de medición que se utilizó carece tanto de precisión como de exactitud.

En el segundo caso el promedio de los resultados es cercano al valor real, por lo que este método es exacto, pero los resultados están muy dispersos (el error aleatorio es grande), por lo que este método es poco preciso.

El tercer caso muestra errores aleatorios pequeños, los resultados son precisos, sin embargo hay un gran error sistemático, el promedio de los resultados está alejado del valor real, este método es poco exacto. Aunque se nos ocurriera aplicar un factor de

4

Page 5: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

corrección a los resultados (p. ej. en el caso mostrado restarle 15 ppm al valor obtenido, o bien, dividir entre 2.5 el resultado obtenido), nada nos garantiza que en otra muestra con otras condiciones (otro pH, diferente contenido de carbonatos o de otra especie química, un potencial mas reductor, etc.) la magnitud del error sistemático sea la misma, por lo que en principio no se deben utilizar a priori correcciones matemáticas para forzar un método inexacto a proporcionarnos valores aparentemente exactos, sino que se debe encontrar la causa del error sistemático y corregirla. El cuarto caso representa la única situación aceptable, tanto los errores aleatorios como sistemáticos son pequeños, por lo que nuestro resultado es exacto y preciso. Se puede deducir que para probar la exactitud de nuestra medición tendremos que obtener un estimador de la tendencia central de la población y contrastar este valor contra el real. Por otro lado, para probar la precisión de la medición deberemos obtener un estimador de la dispersión (varianza) de nuestros resultados.

5

Page 6: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Formulario A continuación se presenta un resumen de las fórmulas estadísticas mas utilizadas en la medición química.

Medidas de tendencia central (promedio) El valor real es el momento reducido de primer orden, dada su complejidad, se recurre a fórmulas más simples, el lector puede relacionar directamente las dos primeras aquí mostradas con la ecuación original. Media aritmética Este es el estimador más comúnmente utilizado en la estadística clásica, se calcula con la ecuación:

n

ii

xx

nµ == =

∑ Donde xi representa cada una de las medidas y n es el número de datos,

x es el estimador de la media poblacional (µ) obtenido a partir de una muestra.

Media de datos agrupados en clases

xx f

n

i ii

n

= =∑

1 Donde xi representa la marca de clase y fi la frecuencia de clase.

Media ponderada

xx w

w

i ii

n

ii

n= =

=

∑1

1

Donde wi representa el peso relativo de cada medición xi.

Media geométrica

x xii

nn=

=∏

1

Mediana Una vez ordenados los datos en forma creciente, la mediana es el valor del dato

que se encuentra a la mitad, si el número de datos es par, entonces la mediana es el promedio aritmético de los dos datos de en medio.

Moda El valor que se repite más veces.

6

Page 7: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Medidas de dispersión Al igual que con la tendencia central, para el cálculo de la dispersión es común recurrir a fórmulas simplificadas, que se muestran a continuación.

Varianza poblacional

( )2

2 2 1ˆ1

n

ii

x xs

nσ =

−= =

∑Donde s2 es el estimador de la varianza poblacional (σ2) obtenido

a partir de una muestra.

Desviación estándar poblacional

( )2

1ˆ1

n

ii

x xs

nσ =

−= =

∑ Donde s es el estimador de la desviación estándar poblacional

(σ) obtenido a partir de una muestra. Ecuación comúnmente usada para el cálculo de la desviación estándar poblacional:

( )s

n x x

n n

i ii

n

i

n

=−⎛⎝⎜

⎞⎠⎟

−==∑∑ 2

1

2

1

1

Desviación estándar poblacional de datos acumulados

( )

( )

2

1

ˆˆ

1

n

i ii

i

f xs

f

µσ =

−= =

∑∑

Coeficiente de variación porcentual, o desviación estándar relativa

% % 100 sRSD CVx

= = ∗

Distribuciones muestrales

Distribución muestral de la media

1

2

n sx tn

φαµ = −= ± ∗

Donde n es el número de datos experimentales, x sy son la media y desviación estándar estimadas y 1

2

ntφα= − es la variable de la distribución t de student con un riesgo α

y n-1 grados de libertad. Una consecuencia de esta distribución es el efecto del número de réplicas (mediciones de una sola muestra) sobre la incertidumbre experimental, el cual se ilustra en la siguiente figura para diferentes niveles de riesgo (1%, 5% y 10%).

7

Page 8: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Incertidumbre en la determinación de una media

0

1

2

3

4

0 5 10 15 20

número de réplicas

alfa=0.01

alfa=0.05

alfa=0.10

Conclusiones importantes de la gráfica son que para tener un buen estimador de una medición experimental se necesitarían por lo menos siete réplicas con un riesgo promedio del 5% o diez réplicas en el caso de que no se puedan correr grandes riesgos (1%). En cualquier caso, más de veinte réplicas ya no representan incrementos notables de calidad y si mayor trabajo. En la práctica es común el uso de triplicados e incluso solamente duplicados, por lo que nuestras incertidumbres son generalmente altas. Propagación del error En muchas ocasiones, el resultado final de nuestro experimento proviene de un cálculo en el que involucramos varias medidas experimentales diferentes, por ejemplo, la masa de una muestra, el volumen de un matraz, la absorbancia de un espectrofotómetro, etc. En ese caso, el error final es la acumulación de las contribuciones de cada uno de los errores individuales, el cálculo se efectúa basado en la siguiente ecuación de propagación del error: Sea z una variable dependiente y 1 2, ,..., nx x x variables mutuamente independientes. Si

2ixσ representa la varianza de cada variable independiente, entonces si no existen efectos

conjuntos de 1 2, ,..., nx x x la varianza de z se puede estimar como:

2

2 2

1i

n

z xi i

zx

σ σ=

⎛ ⎞∂= ⋅⎜ ⎟∂⎝ ⎠∑

Aplicando esta ecuación a cálculos en los que lo único que se hizo fue multiplicar y dividir las diferentes xi, por ejemplo, el cálculo final de la concentración de una muestra que involucró los errores en los pesos atómicos usados en el cálculo del peso molecular, el error en la balanza con que se pesó el estándar y la muestra, los errores en los diferentes matraces aforados y pipetas que se usaron al preparar las muestras, y el error en el instrumento de medición analítico (espectrofotómetro, detector de un cromatógrafo, cualquier instrumento analítico de respuesta lineal), entonces el cálculo del error final utilizando la derivada anterior lleva a la ecuación:

22

ixz

iz xσσ ⎛ ⎞⎛ ⎞ = ⎜ ⎟⎜ ⎟

⎝ ⎠ ⎝ ⎠∑

Es decir, los cuadrados de los errores relativos son acumulativos (dicho de otro modo, las varianzas relativas son acumulativas).

8

Page 9: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Distribución muestral de la variancia La variancia se encuentra comprendida en el intervalo:

( )n s−1 2

2

2χα

< <σ 2 ( )( )

n s−

1 2

1 2

2χ α

Donde son los valores de la distribución ji-cuadrada con n-1 grados de libertad y

probabilidades

χ 2

α2 y ( )1 2−α . α es el riesgo.

Inferencia estadística (pruebas de hipótesis) Estas pruebas siempre se realizan usando dos hipótesis alternas. La hipótesis nula es la igualdad entre las variables comparadas y la alterna puede ser que son diferentes o que una es mayor que la otra. Estas últimas dos posibilidades hacen que las pruebas de hipótesis puedan realizarse a dos colas (variables diferentes) o a una cola de las distribuciones (una variable mayor que la otra). Hipótesis nula Ho : a = b Hipótesis alterna diferentes H1 : a ≠ b Riesgo de ambos lados, prueba a dos colas Hipótesis alterna mayor que H1 : a > b Riesgo a la derecha, prueba de una cola Hipótesis alterna menor que H1 : a < b Riesgo a la izquierda, prueba de una cola Hipótesis relativas a una media Utilizamos esta prueba cuando queremos demostrar que un resultado experimental es igual a un valor de referencia, o bien cuando queremos demostrar que es: diferente, mayor que o menor que el valor de referencia (p. ej. verificar la calibración del método contra un estándar). Para ello calculamos el valor experimental de la variable t de student

expoxt s

n

µ−=

Donde µo es el valor de la variable de referencia contra la que deseamos comparar nuestra media experimental x y s es el estimador experimental de la desviación estándar. La hipótesis nula es que nuestra media experimental es igual al valor contra el que estamos comparando. La decisión de aceptarla o rechazarla depende de cual sea la hipótesis alterna y para ello se utiliza la siguiente tabla:

Hipótesis nula 0 : oH x µ=

Hipótesis alterna Rechazamos la hipótesis nula si: ó 1

exp2

nt tφα= −>

1 : oH x µ<

1 : oH x µ≠ 1exp

2

nt tφα= −< −

1exp

nt tφα= −< −

1 : oH x µ> 1exp

nt tφα= −>

9

Page 10: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Donde α es el riesgo máximo que estamos dispuestos a correr (generalmente del 5%, cuando no podemos correr riesgos este se baja al 2 o 1%, y en estimadores muy burdos, se puede subir al 10%). o 1ntφα

= − 1

2

ntφα= − es el valor de tablas de la t de student con n-1

grados de libertad, también lo podemos calcular en excel con las ecuaciones:

Hipótesis alterna Ecuación para el cálculo de t: 1 : oH x µ≠ 1

2

ntφα= − = DISTR.T.INV ( α, n-1)

1 : oH x µ< 1ntφα= −− = -DISTR.T.INV ( 2*α, n-1)

1 : oH x µ> 1ntφα= − = DISTR.T.INV ( 2*α, n-1)

Si rechazamos la hipótesis nula, al hacerlo lo haremos con un riesgo αexp. Este riesgo αexp lo podemos aproximar interpolando en la tabla t student para n-1 grados de libertad y un valor texp de la t de student, o bien lo podemos calcular en Excel con las ecuaciones:

Hipótesis nula 0 : oH x µ=

Hipótesis alterna Rechazamos la hipótesis nula si exp aceptableα α≤ , donde:

1 : oH x µ≠ ( )( )exp exp = DISTR.T ABS , -1, 2t nα

1 : oH x µ< ( )exp exp = DISTR.T , -1, 1t nα −

1 : oH x µ> ( )exp exp = DISTR.T , -1, 1t nα

Hipótesis relativas a dos medias Utilizamos esta prueba cuando queremos comparar dos resultados experimentales, ya sea que deseemos saber si dos muestras son iguales o si dos métodos de análisis arrojan resultados comparables. En mediciones químicas nos enfrentamos al problema de tener estimadores de la media y la variancia obtenidos de muestras pequeñas, por lo que antes de hacer esta prueba debemos comparar las variancias de las dos muestras (léase mas adelante en hipótesis relativas a dos variancias). Dependiendo de si las variancias son comparables o no, usaremos dos pruebas ligeramente diferentes:

Comparación entre dos medias de muestras con variancias comparables. Calculamos el valor experimental de la variable t de student con:

( )( ) ( )

( )1 2 1 2 1 2exp 2 2

1 21 1 2 2

2

1 1

x x n n n nt

n nn s n s

− + −=

+− + −

10

Page 11: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Y los grados de libertad con:

1 2 2n nφ = + −

Comparación entre dos medias de muestras con variancias diferentes. Calculamos el valor experimental de la variable t de student según:

( )1 2exp 2 2

1 2

1 2

x xt

s sn n

−=

+

Y los grados de libertad (φ) se calculan ahora con la ecuación:

φ =+

⎛⎝⎜

⎞⎠⎟

⎛⎝⎜

⎞⎠⎟

−+

⎛⎝⎜

⎞⎠⎟

sn

sn

sn

n

sn

n

12

1

22

2

2

12

1

2

1

22

2

2

21 1

.

En ambos casos la hipótesis nula es que las dos medias son comparables, la decisión de aceptación o rechazo se toma según la siguiente tabla, en la que los valores de texp y φ se calculan con alguna de las parejas de ecuaciones arriba indicadas, la que corresponda al caso particular:

Hipótesis nula 0 1:H x x= 2

Hipótesis alterna Rechazamos la hipótesis nula si:

1 1:H x x≠ 2 exp2

t tφα< − ó exp2

t tφα>

1 1:H x x< 2 expt tφα< −

1 1:H x x> 2 expt tφα>

Donde α es nuevamente el riesgo máximo que estamos dispuestos a correr, tα o

2tα es el

valor de tablas de la t de student con φ grados de libertad, también lo podemos calcular en excel con las ecuaciones:

Hipótesis alterna Ecuación para el cálculo de t: 1 1:H x x≠ 2 ( )

2DISTR.T.INV , tφα α φ=

1 1:H x x< 2 ( )DISTR.T.INV 2 , tφα α φ− = −

1 1:H x x> 2 ( )DISTR.T.INV 2 , tφα α φ=

Si rechazamos la hipótesis nula, al hacerlo lo haremos con un riesgo αexp.

11

Page 12: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Este riesgo αexp lo podemos aproximar interpolando en la tabla t student para φ grados de libertad y un valor texp de la t de student, o bien lo podemos calcular en Excel con las ecuaciones:

Hipótesis nula 0 1:H x x= 2

Hipótesis alterna Rechazamos la hipótesis nula si exp aceptableα α≤ , donde:

1 1:H x x≠ 2 ( )( )exp exp = DISTR.T ABS , , 2tα φ

1 1:H x x< 2 ( )exp exp = DISTR.T , ,1tα φ−

1 1:H x x> 2 ( )exp exp = DISTR.T , ,1tα φ

Hipótesis relativas a una variancia Utilizamos esta prueba cuando queremos saber si la dispersión de nuestros resultados experimentales cumple determinada condición. Un ejemplo típico es cuando queremos saber si la incertidumbre de nuestros resultados experimentales es inferior a determinado valor (comúnmente 0.2% en química). Para desarrollarla calculamos la ji-cuadrada experimental y la comparamos contra valores de tablas. El valor experimental

se obtiene con: ( ) 22exp 2

1

o

n sχ

σ−

=

donde s2 es la variancia experimental y es la variancia contra la que estamos comparando nuestros valores, por ejemplo, si queremos saber si la dispersión de nuestros valores es menor al 0.2%, usaríamos

σ o2

( )σ o x2 20 002= ∗. . La hipótesis nula es que nuestra variancia experimental es igual al valor contra el que estamos comparando. La decisión de aceptarla o rechazarla depende de cual sea la hipótesis alterna y para ello se utiliza la siguiente tabla:

Hipótesis nula 2 2

0 : oH s σ=

Hipótesis alterna Rechazamos la hipótesis nula si 2 2

1 : oH s σ≠ 2 2exp 1 2αχ χ −< ó 2 2

exp 2αχ χ> 2 2

1 : oH s σ< 2 2exp 1 αχ χ −<

2 21 : oH s σ> 2 2

exp αχ χ>

Donde ahora son los valores de tablas de la ji-cuadrada con n-1 grados de libertad, que podemos leer directamente en tablas, o calcular en excel con la función:

χ χ χ χα α α α12 2

1 22

22

− −, , ,/ /

2 =PRUEBA.CHI.INV( , -1)probabilidad nχ . La probabilidad es, según sea el

12

Page 13: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

caso, 1 , ,1 o 2 2α α α α− − . Nuevamente α es el riesgo máximo que estamos dispuestos

a correr. Si rechazamos la hipótesis nula, al hacerlo lo haremos con un riesgo αexp . Este riesgo αexp lo podemos aproximar interpolando en la tabla de ji cuadrada con n-1 grados de libertad y un valor 2

expχ de la ji cuadrada, o bien lo podemos calcular en Excel con las ecuaciones:

Hipótesis nula 2 2

0 : oH s σ=

Hipótesis alterna Rechazamos la hipótesis nula si exp aceptableα α≤ , donde: 2 2

1 : oH s σ≠ ( )( )( )

2 2 2exp exp

2 2 2exp exp

si = 2 DISTR.CHI , 1 si = 2* 1-DISTR.CHI , 1

s n

s n

σ α χ

σ α χ

≥ −

< −

i

2 21 : oH s σ< ( )2

exp exp= 1-DISTR.CHI , 1nα χ − 2 2

1 : oH s σ> ( )2exp exp= DISTR.CHI , 1nα χ −

Hipótesis relativas a dos variancias Cuando comparamos dos métodos de medición o técnicas, no solo debemos saber si dan resultados comparables. También debemos conocer si las incertidumbres son comparables. Por eso es que comparamos las variancias con una prueba F de Snedecor. Para ello calculamos la F experimental con:

2

exp 2a

b

sFs

= Con na-1 grados de libertad para el numerador y nb-1 grados de libertad para

el denominador. La hipótesis nula es que nuestras variancias experimentales son iguales. La decisión de aceptarla o rechazarla depende de cual sea la hipótesis alterna y para ello se utiliza la siguiente tabla:

Hipótesis nula 2 2

0 1:H s s= 2

Hipótesis alterna Estadístico de prueba Rechazar la hipótesis nula si: 2 2

1 1 2:H s s≠ 2

exp 2M

m

sFs

=

2 21 1:H s s< 2 2

2exp 2

1

sFs

= ( )exp 2 1con 1, 1 grados de lib.F F n nα> − −

2 21 1:H s s> 2 2

1exp 2

2

sFs

= ( )exp 1 2con 1, 1 grados de lib.F F n nα> − −

( )exp / 2 con 1, 1 grados de lib.M mF F n nα> − −

13

Page 14: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Nuevamente α es el riesgo máximo que estamos dispuestos a correr, Fα es el valor de tablas de la F de Snedecor con n1-1 grados de libertad para el numerador y n2-1 grados de libertad para el denominador, también lo podemos calcular en excel con las ecuaciones:

Hipótesis alterna Ecuación para el cálculo de F de Snedecor: 2 2

1 1:H s s2≠ ( )2

DISTR.F.INV , 1, 12 M mF nαα n= − −

2 21 1:H s s2< ( )2 1DISTR.F.INV , 1, 1F nα α n= − −

2 21 1:H s s> 2 ( )1 2DISTR.F.INV , 1, 1F nα α n= − −

Si rechazamos la hipótesis nula, al hacerlo lo haremos con un riesgo αexp. Este riesgo αexp lo podemos aproximar interpolando en la tabla F de Snedecor con los grados de libertad y el valor Fexp de la F de Snedecor, o bien lo podemos calcular en Excel con las ecuaciones:

Hipótesis nula 2 2

0 1:H s s= 2

Hipótesis alterna Rechazamos la hipótesis nula si exp aceptableα α≤ , donde: 2 2

1 1:H s s≠ 2 ( )exp exp= 2 DISTR.F , 1, 1M mF n nα − −i 2 2

1 1:H s s< 2 ( )exp exp 2 1= DISTR.F , 1, 1F n nα − − 2 2

1 1:H s s> 2 ( )exp exp 1 2= DISTR.F , 1, 1F n nα − −

Análisis de regresión lineal Al efectuar mediciones químicas es común el caso de una respuesta lineal entre la variable de medición (absorbancia, fluorescencia, área, etc.) y la concentración del analito. Dicha respuesta se expresa comúnmente por la ecuación de una recta:

y = m*x + b Donde llamamos pendiente a la constante m y ordenada al origen a b. El problema al hacer mediciones químicas es que tenemos incertidumbre tanto en la variable medida, como en la concentración, para resolverlo normalmente se considera que el error en la concentración es mucho menor que el error en la señal medida, algo que no siempre es válido, pero que resulta difícil negar a priori. La afirmación anterior tiene como consecuencia que las curvas de calibración de las técnicas de medición las expresemos comúnmente por la recta:

Señal = Fr*C + b Donde a la pendiente le llamamos de muchas maneras: factor de respuesta, coeficiente de extinción, etc. Estadísticamente la consecuencia es que usaremos la regresión lineal clásica, que consiste en encontrar la mejor recta posible que pase por los puntos experimentales, pero minimizando los errores de la variable dependiente:

14

Page 15: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Fig. 2 Método de mínimos cuadrados

0

2

4

6

8

10

12

0 2 4 6 8 10

x

y

e = error {

Calculamos el error de cada medida como la distancia sobre las y entre el valor observado y el valor de la recta: e = (yi - (m*xi + b)). Del mismo modo que con la varianza, calculamos el error cuadrático total como la suma de los cuadrados de las

diferencias: . Finalmente, para encontrar la mejor recta,

calculamos que valores de m y b nos dan un mínimo en el error cuadrático. Esto se hace derivando la ecuación anterior con respecto a m y a b, e igualando a cero estas derivadas. El resultado es un sistema de dos ecuaciones muy conocido:

([e y m x bt i ii

n2 2

1

= − ⋅ +=∑ )]

2i i

i i i i

y m x n bx y m x b x

= ⋅ + ⋅= ⋅ + ⋅

∑ ∑∑ ∑ ∑

Por lo tanto, los estimadores de la ordenada y pendiente se obtienen calculando las sumas solicitadas y resolviendo el sistema de ecuaciones. Como consecuencia de la incertidumbre en nuestras mediciones de las variables, los estimadores de m y b, así como el uso de la recta para predicciones futuras (medición de muestras problema), tendrán todo necesariamente cierta incertidumbre, que es necesario evaluar.

Intervalo de confianza sobre las estimaciones de una recta Intervalo de confianza sobre la ordenada al origen y pendiente. Se puede demostrar estadísticamente que estas variables siguen una distribución t, por lo que los intervalos de confianza estarán dados por:

intervalo de confianza sobre la ordenada β α= ± ⋅ +b t sn

xSe

xx2

1 2

Intervalo de confianza sobre la pendiente µ α= ± ⋅m t sSe

xx2

1

Donde tα2 es el valor de la función t de Student, con un riesgo α y n-2 grados de

libertad. n es el número de parejas experimentales y S x Se , y 2xx se calculan según:

15

Page 16: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

( ) ( ) ( )( )

( )

S xx

nS y

y

nS xy

x y

n

sS

SS

nx

xn

xx yy xy

e

yyxy

xx

= − = − = −

=−

−=

∑ ∑ ∑ ∑ ∑ ∑ ∑

2

2

2

2

2

2

2

Intervalo de confianza sobre los valores de calibración

Se conoce comúnmente como cinturón de confianza (fig. 3) y lo usaremos cuando deseemos saber si un punto de calibración (xstdr, ystdr) está fuera de la recta y lo podemos rechazar como valor aberrante. Se calcula con la ecuación:

( ) ( )y m x b t sn

x xSstdr stdr e

stdr

xx

= ⋅ + ± ⋅ +−

α2

12

Si un punto de la curva de calibración queda fuera del cinturón de confianza, lo podremos rechazar con un riesgo α.

Fig. 3 Cinturón de confianza de los puntos de calibraciónpara una regresión lineal

02468

101214

0 2 4 6 8 10 1

x

y

2

Límites de predicción de una regresión lineal

Cuando usamos posteriormente la curva de calibración para medir muestras problema (sólo conocemos xmtra y estimaremos ymtra con la recta), el intervalo de predicción es mayor al cinturón de confianza de los valores de calibración, se le llama cinturón de predicción (cinturón más alejado de la recta en la Fig.4) y está dado por la ecuación:

( ) ( )2

211 mtra

mtra mtra exx

x xy m x b t s

n Sα

−= ⋅ + ± ⋅ + +

16

Page 17: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Fig. 4. Cinturones de confianza y predicciónpara la regresión lineal

02468

101214

0 2 4 6 8 10 1

x

y2

Este intervalo de predicción lo utilizamos mucho, ya que es el que nos PERMITE ESTIMAR LA INCERTIDUMBRE de las mediciones de problemas que realicemos. Esta incertidumbre depende no del número de réplicas que realicemos sobre una medición, sino del número de estándares que utilicemos para obtener la recta de calibración. El efecto del número de parejas (x,y) sobre el intervalo de predicción se muestra en la figura 5:

Incertidumbre en una Regresión Lineal

0

1

2

3

4

5

6

7

0 5 10 15 20 25

número de puntos

Ince

rtid

umbr

e

alfa=0.01 alfa=0.05 alfa=0.10

Esta figura muestra que para riesgos típicos, el número de puntos de calibración que debemos utilizar para obtener una recta aceptable es siete, pero que resulta preferible utilizar de diez a veinticinco. Nuevamente, el uso de demasiados puntos solo mejora marginalmente la calidad de nuestros resultados. Otra consecuencia importante de esta ecuación, es que al tener un estimador de la incertidumbre de nuestras mediciones, ya no necesitamos muchas réplicas de cada muestra problema. Si se tienen buenas rectas de calibración (cinturones de predicción estrechos), basta con usar duplicados, pero solo para comprobar que no existe diferencia significativa entre ellos. Si las muestras no son suficientemente homogéneas, los duplicados saldrían significativamente diferentes y entonces de nuevo se necesitaría un buen número de réplicas de cada muestra para tener buenos estimadores, algo que no nos conviene y debemos evitar teniendo métodos de alta precisión y muestras homogéneas y representativas. Finalmente, la forma del cinturón, que proporciona menos error en la zona central, indica que debemos ser muy cuidadosos al escoger el intervalo de las soluciones de

17

Page 18: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

calibración. Estas deben ser tales que tengamos estándares con concentraciones inferiores a las de las muestras problema y otros con concentraciones superiores. Además es preferible, para asegurarnos del comportamiento lineal de nuestra técnica, que los estándares estén igualmente espaciados en todo el intervalo de calibración.

Pruebas de hipótesis sobre las estimaciones de una recta Nuevamente podemos hacer pruebas de hipótesis, ahora sobre la ordenada, la pendiente, un valor de calibración o una muestra problema. Un ejemplo típico es la prueba de exactitud de un método cuando estamos validándolo. En este caso, lo que se hace es aplicar el método sobre muestras reales de concentración conocida, o sobre muestras sintéticas que simulan las reales. La curva de calibración que se analiza es una de concentración real contra concentración medida; en teoría, si el método es exacto, la ecuación debería ser: ConcMedida = ConcReal. Es decir, una recta de pendiente uno y ordenada cero. Si estadísticamente no son iguales a estos valores, indicaría errores sistemáticos de nuestro método analítico, que se clasifican según la tabla:

Resultados de las pruebas de hipótesis sobre la recta:

(Conc Medida) = m*(ConcReal) + b

Tipo de error que presenta el método

m > 1 Error sistemático proporcional por exceso m < 1 Error sistemático proporcional por defectob > 0 Error sistemático constante por exceso b < 0 Error sistemático constante por defecto

Como quiera que sea, si bien este tipo de errores no son deseables, e indican problemas del método que debemos corregir, La ecuación obtenida para esta recta puede emplearse como un factor de corrección para estimar las concentraciones reales usando las concentraciones medidas por nuestro método, siempre que el error sistemático siga siendo el mismo para otras muestras, algo muy cuestionable.

18

Page 19: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Estadísticos de prueba para regresión lineal Se utiliza la t de Student, comparando la texp calculada contra la t de tablas. La t de student calculada depende de cual sea la variable sobre la que estemos planteando una hipótesis:

Hipótesis sobre: Estadístico de prueba t:

ordenada ( )

exp 21e

xx

bt

xsn S

β−=

+

pendiente ( )

exp xxe

mt S

sµ−

=

Punto de calibración xstdr, ystdr (valor aberrante, estándar fuera del intervalo

lineal, etc.)

( )( )

exp 21

stdr stdr

stdre

xx

y m x bt

x xs

n S

− ⋅ +=

−+

muestra problema (uso de la curva de calibración para medir muestras reales)

( )( )

exp 211

mtra mtra

mtrae

xx

y m x bt

x xs

n S

− ⋅ +=

−+ +

La hipótesis nula Ho es, como siempre, de igualdad (b = 0, m = 1, Cmedida = Creal, etc.) El criterio de decisión depende de la hipótesis alterna, pero la tabla es la misma que para las pruebas sobre una media: Hipótesis nula

( )( )

0 :stdr stdr

muestra muestra

bm

Hy m x b

y m x b

βµ

==

= ⋅ += ⋅ +

Hipótesis alterna Rechazamos la hipótesis nula si: 1 : variable diferente a la referenciaH 2

exp2

nt tφα= −< − ó 2

exp2

nt tφα= −>

1 : variable menor a la referenciaH 2exp

nt tφα= −< −

1 : variable mayor a la referenciaH 2exp

nt tφα= −>

Donde α es el riesgo máximo que estamos dispuestos a correr (generalmente del 5%, cuando no podemos correr riesgos este se baja al 2 o 1%, y en estimadores muy burdos, se puede subir al 10%). tα es el valor de tablas de la t de student con n-2 grados de libertad, también lo podemos calcular en excel con las ecuaciones:

19

Page 20: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Hipótesis alterna Ecuación para el cálculo de t: 1

2

ntφα= − = DISTR.T.INV ( α, n-2)

= -DISTR.T.INV ( 2*α, n-2) = DISTR.T.INV ( 2*α, n-2)

1 : variable diferente a la referenciaH

1 : variable menor a la referenciaH 1ntφα= −−

1 : variable mayor a la referenciaH 1ntφα= −

Si rechazamos la hipótesis nula, al hacerlo lo haremos con un riesgo αexp. Este riesgo αexp lo podemos aproximar interpolando en la tabla t student para n-2 grados de libertad y un valor texp de la t de student, o bien lo podemos calcular en Excel con las ecuaciones:

Hipótesis nula

( )( )

0 :stdr stdr

muestra muestra

bm

Hy m x b

y m x b

βµ

==

= ⋅ += ⋅ +

Hipótesis alterna Rechazamos la hipótesis nula si exp aceptableα α≤ , donde:

1 : variable diferente a la referenciaH ( )( )exp exp = DISTR.T ABS , - 2, 2t nα

1 : variable menor a la referenciaH ( )exp exp = DISTR.T , - 2, 2t nα −

1 : variable mayor a la referenciaH ( )exp exp = DISTR.T , - 2, 2t nα

20

Page 21: Formulario de Estadística Aplicada a la Medición Químicadepa.fquim.unam.mx/amyd/archivero/1.0Apuntes_2235.pdf · histogramas de frecuencias (barras, pasteles, etc.) tienen uso

Bibliografía • Miller, I., Freund, J.E. y Johnson, R.. “Probabilidad y Estadística para Ingenieros”. 4ª

Ed. Prentice-Hall Hispanoamericana, México, 1992. • Kateman, G. And Buydens, L. “Quality Control in Analytical Chemistry” vol. 60 in.

Elving, P.J. and Winefordner, J. D. (Eds.) “Chemical Analysis”. John Wiley & Sons, N.Y., 1995.

• Sharaf, M.A.; Illman, D.L.; Kowalski, B.R. “Chemometrics”. Ibid, vol. 82, N.Y., 1986.

• Wernimont, G.T. “Use of Statistics to Develope and Evaluate Analytical Methods”. AOAC, Arlington, Virginia, USA, 1985.

• Miller, J. C. And Miller, J. N.. “Estadística y Quimiometría para Química Analítica” (4a Ed.). Prentice Hall, Madrid, 2002.

• Massart, D.L.; Dijkstra, A. And Kaufman, L.. “Evaluation and Optimization of Laboratory Methods and Analytical Procedures”. Vol. I in : “Techniques and Instrumentation in Analytical Chemistry”. Elsevier Scientific Pub. Co., Amsterdan, 1978.

• Taylor, John K.. “Quality Assurance of Chemical Measurements”. Lewis Publishers. USA, 1989.

• Siegel, Sydney y Castellan, N. John. “Estadística no Paramétrica: Aplicada a las Ciencias de la Conducta”. 4° Ed. México, 1998.

21