diapositiva 1 - fcnym.unlp.edu.ar chicos.pdf · jtp de matemática y estadística ... muestra...
Post on 19-Sep-2018
226 Views
Preview:
TRANSCRIPT
13/08/2015
1
ANÁLISIS DE LA VARIANZA
COMPARACIONES MULTIPLES ENTRE MEDIAS MUESTRALES
ANOVA
Marta Alperin
Profesora Adjunta de Estadística
Guillermo Natale
JTP de Matemática y Estadística
alperin@fcnym.unlp.edu.ar
guillermo.natale@gmail.com
http://www.fcnym.unlp.edu.ar/catedras/estadistica
2015
• Es común en el estudio de las ciencias naturales tomar datos de dos o más muestras, de dos o más poblaciones, situación comúnmente denominada análisis de muestras múltiples.
• Para poder contrastar las hipótesis múltiples generadas a partir de este tipo de estudios se recurre al Análisis de la Varianza (ANOVA)
PLANIFICACIÓN DE LA INVESTIGACIÓN
1. INTRODUCCION
• Para todo profesional de las Ciencias Naturales es importantecomparar medias muestrales.
Dos procedimientos para comparar dos promedios:Límites de confianzaPrueba de hipótesis “t”
Cuando se necesita comparar mas de dos promedios ¿Por qué nose realizan test de hipótesis “t” para comparar todos los paresposibles de medias?
Dos problemas1º a medida que el número de comparaciones aumenta, aumenta laprobabilidad de cometer errores de tipo I, rechazar la hipótesisnula.
2º por lo general contamos con muy pocas observaciones en cadamuestra estadística como para tener una buena estimación de lavarianza poblacional 2.
ANALISIS DE LA VARIANZA
• “Es un método fundamental para todas aplicaciones de la
estadística a la biología y especialmente en la
planificación de experimentos”
• “Es una forma de comparar si más de dos medias
muestrales pueden haberse obtenido de poblaciones con
la misma media paramétrica respecto de una variable
dada”
• “Sin embargo el ANOVA es algo más que una técnica
para análisis estadístico, una vez comprendido, permite
discernir la naturaleza de la variación de los
acontecimientos naturales.
• “Si se pudiese hablar de belleza en un método
estadístico, el análisis de la varianza la poseería en mayor
grado que ningún otro”
Según Sokal y Rohlf (1979)
Cajas Negras
• Dispositivos descriptos por Bunge (1999) se intenta mediante la experimentación simple “acusar o culpar” al factor estudiado (variable independiente) como el responsable de generar la causa o el efecto, medido habitualmente como diferencias significativas en la magnitud de la variable de respuesta (variable dependiente) en el grupo tratado respecto del grupo control.
Este tipo de dispositivos, nos permiten realizar explicaciones simples,
generales y predictivas
El primer resumen completo de sus ideas fue publicado
en 1926, en un artículo “Arrangement of Field
Experiments” en el Journal of the Ministry of Agriculture of
Great Britain 33, 503-513.
En este artículo describió los componentes de los experimentos
de prácticas agrícolas: control local (condiciones para reducir el
error experimental), replicación (medio para estimar la varianza
del error experimental), aleatorización (medio para obtener una
estimación válida de la varianza).
Ronald Aylmer Fisher, (Londres, 17 de
febrero de 1890 – Adelaida, 29 de julio de
1962) científico, matemático, estadístico,
biólogo evolutivo y genetista inglés.
13/08/2015
2
El diseño de experimentos (1935) El diseño de experimentos: ANOVA• La hipótesis de investigación y la relación con los tratamientos.
• La forma de reducir el error experimental, incrementar la exactitud, establecer la base de inferencia del estudio.
• Replicar para obtener experimentos válidos
• Reproducibilidad
• Detección de errores
• Estimación del error experimental
• Aumentar la precisión
• La magnitud de las diferencias que consideramos relevante o significativa para el caso a evaluar.
• La aleatorización como un mecanismo para tener inferencias válidas.
Razonamiento: las variables de respuesta se modifican por la
variación de algún conjunto de variables independientes
desconocidas.
Se asume que el conjunto de factores no medidos y desconocidos
conformarán un efecto “no explicable” sobre la variable de respuesta
(error aleatorio)
ANALISIS DE LA VARIANZA ANALISIS DE LA VARIANZA
Objetivo: identificar variables independientes importantes en un
estudio y determinar como interactúan y afectan a la respuesta
Fuentes de Variación: El análisis de la varianza divide la varianza
total, llamada suma de cuadrados total, en partes, cada una de las
cuales se atribuye a una de las variables independientes en el
experimento, mas un residuo que se asocia con un error aleatorio.
Ejemplo
Hipótesis de trabajo
- Las diferencias ambientales afectan los niveles de acidez-alcalinidad de las aguas de lluvia.
- El pH del agua de lluvia es una propiedad que cambia regionalmente.
Experimento
Total de las estaciones meteorológicas del país que tenían relevado datos de pH de agua de
lluvia en 2006 (m).
Estaciones meteorológicas seleccionadas para el experimento (k=4)
ANOVA SIMPLE DE UNA VÍA PARA UN MODELO II O MODELO DE EFECTOS ALEATORIOS
M1 M2
M3 M4
Localidad
Replica
Marino
(1)
Volcánico
(2)
Desértico
(3)
Mesopotámico
(4)
1 5,6 5,1 6,2 6,1
2 5,9 5,3 6,0 5,6
3 5,8 5,6 5,9 6,2
4 6,2 5,7 6,1
5 6,1 6,3
6 6,3 6,0
Datos del pH del agua de lluvia de 4 localidades argentinas con distintas característicasclimáticas
13/08/2015
3
La denominación más corriente para ANOVA es
• X la variable dependiente o respuesta (el pH).
• la variable independiente o factor de variación tiene al menos 3
categorías o condiciones en las cuales se toman los datos a
comparar (las distintas estaciones meteorológicas elegidas
aleatoriamente para relevar datos).
• k categorías de la variable independiente (4, cada una de la
estaciones meteorológicas).
• ni repeticiones o réplicas (cantidad de datos tomados en cada
estación meteorológica).
• N número total de datos (19).
• xi,j dato, (i= tratamiento, j= posición del dato en el tratamiento i;
x1,4= 6,2).
1. EL MODELO
1
i
1 iix
CMDentro CMEntre
CMTotal
Hipótesis nula
Hipótesis alternartiva
1
i
Hipótesis nula
Hipótesis alternartiva
Se denomina modelo lineal para la observación ijx a:
ijiijx )(
donde:
ijx es la j-ésimo dato del i-ésimo factor
es la media general de los datos o el punto de equilibrio
)( i es el efecto del i-ésimo factor
ij es una variable aleatoria normal, independientemente distribuida con esperanza “0” y
varianza es igual a la varianza poblacional 2 0 ;
22
El ANOVA intenta encontrar si existe más variación Entre muestras
diferentes o Dentro de una misma muestra.
H0: las muestras son tomadas de la misma
población normalmente distribuida
(o de poblaciones idénticas).
H1: las muestras son tomadas de diferentes
poblaciones aunque todas tienen la misma varianza.
Si las muestras son tomadas en forma aleatoria de una población común
( la hipótesis nula), la variación entre las muestras es aproximadamente
la misma que la variación dentro de las muestras pues ambas reflejan la
variación de la población.
Si las muestras son tomadas de diferentes poblaciones (la hipótesis
alternativa), la variación entre las muestras es el reflejo de la variación de
la población de la cual es extraída. La diferencias entre las muestras,
indica que existe diferencia entre las poblaciones.
1
i
¿Cómo estimar la varianza poblacional común2 ?
Recordemos que la varianza se puede escribir como CMgl
SCCM 2
1
)( XxSC i
n
i
Si llamamos
n
ijx1
suma de las observaciones de cada muestra
iX promedio de la i-ésima muestra
X promedio de todos los datos o Gran media
Cada desviación de una observación a la gran media,se puede descomponer en dos términos: la desviaciónde cada dato a la media grupal, más la desviación dela media de cada grupo a la gran media.
)()()( iijiij XxXXXx
𝜎2 =1
𝑛
1
𝑛
𝑥𝑖 − 𝑋2
¿Cómo estimar la varianza poblacional común2
• Calculando una varianza ponderada a partir de las varianzas muestrales de
las distintas poblaciones. Esto es calculando el Cuadrado Medio (CM),
CM Dentro también llamado CM Error.
?
glDentro
SCDentroCMDentro ;
k
i
n
j
iij XxSCDentro1
2
1
;
k
i
i kNnglDentro1
)1(
• Calculando una varianza ponderada a partir de las varianzas entre las medias
muestrales de las distintas poblaciones y la gran media esto es el CM Entre.
glEntre
SCEntreCMEntre ; 2
1
)( XXnSCEntre i
k
i
i
; 1 kglEntre
• También se puede calcular el CM Total:
glTotal
SCTotalCMTotal ; 2
11
)( XxSCTotal ij
n
j
k
i
; 1 NglTotal
13/08/2015
4
En ANOVA se cumplen las siguientes relaciones:
SCTotal = SCEntre + SCDentro
GLTotal = GLEntre + GLDentro
CMTotal ≠ CMEntre +CMDentro
El CMDentro es un estimador insesgado de la varianza poblacional 2. Las
medias poblacionales tienen todas la misma varianza, entonces las “i”
varianzas muestrales estiman al mismo parámetro poblacional, y el
promedio ponderado de estas varianzas es un buen estimador de esta
varianza poblacional 2.
El CMEntre,
• Hipótesis Nula del ANOVA es cierta, estima a la varianza poblacional 2
Solo cuando las i son iguales, ya que la componente de la varianza total
producida por los tratamientos se anula y entonces CMEntre es 2.
• Si la Hipótesis nula no es verdadera el CMEntre estima a la 2 más una
cantidad que representa una medida de la magnitud de los efectos de los
factores.
La relación entre las varianzas calculadas, CMEntre y CMDentro,
permite comparar medias poblacionales.
Con esto resolvemos la paradoja de cómo a partir de un análisis de
varianzas es posible comparar medias.
1
i
La partición en dos de las suma de cuadrados total: en donde unarepresenta la variación entre las medias de los Grupos/Tratamientos(respecto a la media total), y la otra la variación de cada valor (respectode la media total) = error experimental .
Esta PARTICION FUNDAMENTAL aclara y explica las variaciones en losresultados del experimento.
Al comparar la Suma de cuadrados Total respecto a la Suma deCuadrados de los tratamientos (SCEntre) y la Suma de Cuadrados delError (SCDentro), vemos claramente cuanto (p,%) de la variabilidad totalestán explicando cada una.
Esto se refleja en la tabla RESUMEN DE ANALISIS DE LA VARIANZA.
SC Total = SC tratamientos + SC error
Sintetizando3. PROCEDIMIENTO PARA EL CALCULO
SC =
n
i
i Xx1
2)( = 2x - 2x /n Recordemos
SCTotal =
K
i
n
j1 1
(xij- X )2 =
K
i
n
j
ijx1 1
2 – C
Factor de corrección de la media: C = (
K
i
n
j
ijx1 1
)2
N
SCEntre =
K
i 1
ni ( Xi - X )2 =
K
i 1
(n
1
xij)2 / ni - C
SCDentro =
K
i
n
j1 1
( (xij- Xi )2) = SCTotal – SCEntre
•GLTotal = N-1
•GLEntre = k-1
•GLDentro = GLtotal – GLEntre
•CMTotal = SCTotal / GLTotal;
•CMEntre = SCEntre/GLEntre;
•CMDentro = SCDentro/GLDentro
Hiptesis de ANOVAH0 : 1 = 2 = … = k ;
Ha: i ≠ j para al menos un par de (i, j)
Prueba estadísticaComparar el CMEntre con el CMDentro. Las dos varianzas miden en forma
independiente la varianza de la distribución de medias muestrales.
¿Que probabilidad hay que estos 2 valores estimen la
misma varianza poblacional?
Respuesta
“F” es el cociente entre varianzas.
La hipótesis nula se rechazará cuando
F con 1 = (k -1) y 2 = (N -k) grados de libertad(Los valores críticos de F se encuentran en tablas)
Se realiza una prueba a una cola ya que se trata de detectar la variabilidadque tienda a aumentar la varianza Entre medias.
CMDentro
CMEntre> F(k-1;N-k; )
H0: 2ENTRE=2DENTRO
H1: 2ENTRE>2DENTRO
A mayor diferencia entre las medias observadas de los
tratamientos, mayor es la evidencia que indica una diferencia
entre las medias poblacionales correspondientes.
Cuando se analiza la relación expresada en la SCEntre, se
puede ver que a medida que las medias se alejan una de otras,
las desviaciones aumentarán en valor absoluto y la SCEntre
aumentará en magnitud.
Por consiguiente a mayor valor de SCEntre mayor peso de la
evidencia en rechazar la hipótesis nula.
13/08/2015
5
Fuente de variación
Suma de Cuadrados gl Cuadrado Medio
f calculado
Entre los tratamientos Dentro de los tratamientos Total
K
i 1
(
n
j
ijx1
)2 /ni - C
SCTotal – SCEntre
K
i
n
j
ijx1 1
2 - C
k-1
N-k N-1
SCEntre GLEntre
SCDentro GLDentro
CME CMD
TABLA RESUMEN DE ANOVA para el caso de un experimentoaleatorizado que contiene k medias de tratamientos
Para C = (
K
j
n
i
Xij1 1
)2
N
Localidad Replica
Marino (1)
Volcánico (2)
Desértico (3)
Mesopotamico (4)
Totales
1 5,6 5,1 6,2 6,1 2 5,9 5,3 6,0 5,6 3 5,8 5,6 5,9 6,2
4 6,2 5,7 6,1 5 6,1 6,3 6 6,3 6,0
ni 4 3 6 6 19
x 23,5 16,0 36,2 36,3 112,0
n
ijx1
5,9 5,3 6,0 6,1 23,3
(n
ijx1
)2 552,3 256,0 1310,4 1317,7 3436,4
i
n
ij
n
x1
2)(
138,1 85,3 218,4 219,6 661,4
n
ijx1
2 138,3 85,5 218,6 219,9 662,3
Factor de corrección: C = (
K
j
n
i
Xij1 1
)2 N
C = (23,5+16,0+36,2+36,3)2 / 19 = (112,0)2 / 19 =12544,0 / 19 = 660,2
SCTotal =
K
j
n
i
ijx1 1
2 – C SCT = 662,3 – 660,3 = 2,05
SCEntre=
K
i 1
(
n
j
ijx1
)2 / ni - C SCE = 661,4 – 660,3 = 1,21
SCDentro = SCT – SCE SCD = 2,0 – 1,2 = 0,84 gl T = N – 1 ; glE = K–1 ; glD = glT – glE = (N-K) gl T = 19–1= 18 ; gl E = 4 – 1 = 3 ; gl D = 19 – 4 = 15 CME = SCE / gl E CME = 1,21 / 3 = 0,402 CMD = SCD / gl D CMD = 0,84 / 15 = 0,056 f = CME / CMD f = 0,402 / 0,056 = 7,163 Valor Crítico de tabla: F (K-1; N-K; α) F (3; 15; 0,05) = 3,287
Ho: las 4 medias poblacional i del pH del agua de lluvia de las diferentes estaciones meteorológicas son iguales H1: la media del pH del agua de lluvia de al menos una de las diferentes estaciones meteorológicas es diferente Hipótesis Nula: µ1 = µ2 = µ3 = µ4 ; ó σ 2
ENTRE = σ2DENTRO
Hipótesis Alternativa: al menos una media diferente; ó σ 2ENTRE > σ2
DENTRO Riesgo de error de tipo I: α = 0,05
Fuente de variación
Suma de cuadrados
gl Cuadrado
Medio f
Entre las localidades Dentro de las localidades
Total
1,21
0,84
2,0
3
15
18
0,402
0,056
7,163
f = 0,402 / 0,056 = 7,163 F (3; 15; 0,05) = 3,287 Región crítica: f >F (3; 15; 0,10)
Como f> F critico de tabla, rechazo la
Hipótesis nula. Por lo tanto puedo
afirmar, con un error del 5%, que el pH
del agua de lluvia es una propiedad que
toma valores diferentes según se trate
del lugar.
Tabla resumen de ANOVA
4. SUPUESTOS del ANOVA
1º Se han tomado una muestra aleatoria simple de cada una de los
“i” distribuciones.
2º Las “i” distribuciones son normales.
3º Las “i” distribuciones tienen todas idéntica varianza.
Discrepancias moderadas con el cumplimiento de los “supuestos del
ANOVA” (aleatoriedad del muestreo, normalidad en las distribuciones y
homogeneidad de varianzas) prácticamente no afectan las propiedades
de la prueba. Sin embargo, si las diferencias son importantes se debe
recurrir a otra estrategia de análisis.
5. COMPARACIONES MÚLTIPLES. PRUEBA DE TUKEY
Para todos los pares posibles de comparaciones entre medias.A es la media más grande a comparar y B la más pequeña.
Ho: µA= µB
Ha: µA≠ µB
SE
XXq BA
c
Estadístico de prueba
Tamaños de muestra iguales
ni
CMDentroSE
Tamaños de muestra diferentes
nbna
CMDentroSE
11
2
na=tamaño de la muestra A ,
nb=tamaño de la muestra B
La hipótesis nula se rechaza cuando qc > q(k; N-k; )
Diferencias significativas qc > q(k; N-k; :0,05)Diferencias altamente significativas qc > q(k; N-k; :0,01)
qc se aproxima a una distribución de q(k; N-k; ),k: número e categorías del factorglD: grados de libertad del CMDentroTabla Rango Total Studentizado
13/08/2015
6
Se rechazó la hipótesis nula de ANOVA en el ejemplo del pH del agua de lluvia en las cuatro
estaciones meteorológicas
¿entre que ambientes el pH del agua de lluvia es diferente?.
Localidad
Marino (1)
Volcánico (2)
Desértico (3)
Mesopotamico (4)
ni 4 3 6 6
x 23,5 16,0 36,2 36,3
Cuadrado Medio
Dentro = 0,056
1. Para cada par posible de comparaciones contrastar las siguientes hipótesis:
Ho: µA= µB ; Ha: µA≠ µB
2. Calcular las diferencias de medias comenzando por las medias mayores BA XX
3. Calcularnbna
CMDentroSE
11
2
0966,06
1
6
1
2
056,0SE 1080,0
4
1
6
1
2
056,0SE
1138,03
1
6
1
2
056,0SE 1278,0
3
1
4
1
2
056,0SE
4. Buscar valores críticos Tabla Rango Total Studentizado q.
q(4; 15; 0,05)=4,08 y q(4; 15; 0,01)=5,245
Datos
5. Armar la tabla, tomar la decisión estadística e interpretar los resultados
Se puede afirmar, con un error de 5%, que el pH del agua de lluvia de lasestaciones meteorológicas 3 y 4, correspondientes a ambientes de clima desérticoy mesopotámico, son iguales entre si y diferentes al de las estacionesmeteorológicas 1 y 2 (ambiente marítimo y volcánico respectivamente). Además elpH del agua de lluvia de las estaciones meteorológicas 1 y 2, marítimo y volcánico,son diferentes entre sí.
Comparación (A vs. B)
Diferencias
BA XX SE qc q(4; 15; 0,05) Conclusión
4 vs. 3 36,3-36,2=0,1 0,0966 1,035 4,08 Aceptar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 3 es igual.
4 vs. 1 36,3-23,5=12,8 0,1080 118,5 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 1 es igual.
4 vs. 2 36,3-16,0=20,3 0,1138 171,5 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 4 y 2 es igual.
3 vs.1 36,2-23,5=12,7 0,1080 117,58 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 3 y 1 es igual.
3 vs. 2 36,2-16,0=20,2 0,1138 170,72 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 3 y 2 es igual.
1 vs. 2 23,5-16,0=7,5 0,1278 58,68 4,08 Rechazar Ho: el pH del agua de lluvia de las estaciones meteorológicas 1 y 2 es igual.
EN SINTESIS
• Contrastación de hipótesis,
• Asignación de aportes de efectos (“culpas”) a los factores y tratamientos,
• Comparación entre grupos (promedios),
• Evaluación de significancias (test a posteriori),
• Contextualización Biológica/Geológica,
• Formular Conclusiones y Tomar decisiones,
• Volver a la planificación de la Investigación…
El ANOVA permite la:
GRACIAS
top related