notas de clase antonio morillas - webpersonal.uma.eswebpersonal.uma.es/~morillas/anova.pdf · la...

A. Morillas: Análisis de la varianza (un factor). Notas de clase . p. 1

1

ANÁLISIS DE LA VARIANZA (UN FACTOR)

Notas de clase

Antonio Morillas


2

ÍNDICE

1. Introducción.

2. Modelo de un factor completamente aleatorizado.

3. Procedimientos para comparaciones múltiples.

4. Verificación de las hipótesis básicas.

5. Análisis de la varianza no paramétrico.


3

1. Introducción

El análisis de la varianza (ANOVA, de su expresión inglesa), debido a R.A. Fisher,

surge, poco después de la 1ª Guerra Mundial, como una técnica encaminada a comparar

las medias de más de dos poblaciones, que son observadas en circunstancias

experimentales no totalmente controlables u homogéneas. En concreto, inicialmente,

parte de los trabajos de este autor en investigación agraria y, por ello, ha incorporado

términos propios de esta campo en su desarrollo teórico: tratamiento, factor, unidad

experimental, etc. El problema que se plantea Fisher es cómo estudiar si existen o no

diferencias (en términos de media) en la respuesta o reacción que tienen un grupo de

unidades experimentales ante distintos tratamientos con un determinado factor. Por

ejemplo, ¿sería igual la cosecha de trigo (respuesta media), observada en diversos

grupos de parcelas (unidades experimentales), si se les somete a distintos niveles

(tratamientos) de abonado (factor)?. Si la respuesta es afirmativa y el experimento

estadístico ha sido diseñado correctamente, podría concluirse que el nivel de abonado

no afecta a la cosecha obtenida. Por el contrario, si hay diferencias significativas en la

cosecha media obtenida para cada nivel de abonado, podemos deducir que hay, al

menos, un nivel que determina que el volumen cosechado sea distinto de los demás

(supongamos que superior) y procederemos a la identificación del nivel que produce

esa mayor respuesta.

Su singularidad respecto al contraste de la diferencia de medias poblacionales

radica, además de que se emplea para comparar más de dos poblaciones, en que se

considera que los resultados pueden verse expuestos a efectos de factores no

controlables en el experimento: diferentes calidades de suelos, horas de insolación,

pendientes, etc., en el ejemplo anterior. Por eso, un objetivo básico del método es aislar

y evaluar la incidencia de los errores achacables al propio experimento. El ANOVA ha

tenido un gran desarrollo y ha dado lugar a una rama con personalidad propia en el

campo de la Estadística: el diseño de experimentos.

El análisis de la varianza también puede ser contemplado como un caso especial de

regresión (véase el Gráfico 1.1) en que la variable dependiente cuantitativa, Y, que se

asume es continua, viene explicada por una variable categórica (cualitativa o


4

cuantitativa, pero agrupada en clases, modalidades o categorías), X, que puede tomar k

categorías y que se supone, en principio, se encuentra siempre bajo control del

investigador, que decide tales categorías. La variable dependiente, Y, es la respuesta

(observación o medida) obtenida para las k categorías (tratamientos o niveles) de la

variable explicativa o factor, X, en cada una de las n unidades experimentales que

constituyen el tamaño (muestra) del experimento. En el gráfico mencionado, puede

observarse como la respuesta media de cada uno de los grupos de 5 unidades

experimentales observadas es diferente para cada nivel de factor, mostrando, en este

ejemplo, un mayor valor para el nivel o tratamiento C que para el A o el B.

Gráfico 1.1

Hablaremos de análisis de la varianza de un factor (one-way), cuando sólo se

contempla una sola variable explicativa. Al modelo de dos variables explicativas,

siempre observadas por categorías, le llamaremos análisis de la varianza de dos factores

(two-way), y así sucesivamente. En esta lección trataremos, exclusivamente, los

modelos de uno y dos factores.

El modelo más simple (véase Tabla 1) de diseño consiste en suponer que se tiene

sólo un factor y que las n unidades experimentales se asignan en forma completamente

aleatoria a cada uno de los k≥2 tratamientos (n= n1+ n2+...+ nj+... +nk). Los tamaños

muestrales de cada tratamiento no tienen por qué ser iguales. Las respuestas

individuales de cada una de las unidades experimentales serán llamadas yij .


5

El objetivo es comparar los efectos medios o respuestas medias, jY. , que producen

los distintos tratamientos o niveles de factor. La hipótesis nula será que las medias

poblaciones son iguales, y, por tanto, igual a la media global, frente a la alternativa de

que al menos una no lo es:

H0: µ1=µ2=...=µj=...µk = µ

H1: no todas las µj son iguales

Por hipótesis, se supondrá normalidad y varianza igual en las poblaciones. Si se

acepta la hipótesis nula, por tanto, concluiremos diciendo que la respuesta es la misma

en todas las unidades experimentales y que no se ve afectada por los distintos niveles

de factor o tratamientos fijados1 por el investigador. Como es fácil de entender, el

contraste estadístico hará uso de las medias muestrales, y se basará, además de esta de

normalidad que acabamos de enunciar, en una serie de hipótesis que comentamos a

continuación.

Tabla 1: Análisis de la varianza Unidades Experimentales (n)

• • • • • • • • • • (n1)

• • • • • • • • • • • • • • (n2)

...... • • • • • • • • • • • • (nk)

Tratamientos (Var. Explicativa, X)

X1 Nivel 1

X2 Nivel 2 ...... Xk

Nivel k Hipótesis Respuesta (Var. Dependiente, Y)

Y1 N(µ1 , σ)

Y2 N(µ2 , σ) ...... Yk

N(µk , σ) Muestra: Respuesta observada

y11 y21 .. yi1 ..

11ny

y12 y22 .. yi2 ..

22ny

......

y1k y2k .. yik ..

knky

Totales muestrales T.1 T.2 ...... T.k Medias muestrales

1.Y 2.Y ...... kY.

La realización correcta de un diseño experimental de este tipo tiene su fundamento

en dos premisas fundamentales: aleatoriedad y repetición. La primera, en el proceso de

asignación de las unidades experimentales a los distintos tratamientos, garantiza la

imparcialidad y neutralidad ante la presencia de posibles efectos externos, no

controlables por el investigador, que puedan perturbar el experimento. La segunda,

mediante la observación de las unidades experimentales, que se supondrán homogéneas,

1 Sólo analizaremos aquí los modelos basados en esta premisa, llamados de efectos fijos. No se verá, por tanto, el modelo bajo la hipótesis de efectos aleatorios, donde los tratamientos se eligen al azar.


6

sometidas a un mismo tratamiento, pondrá de manifiesto los cambios en la respuesta

que no son atribuibles a variaciones en los niveles de factor. Es decir, las variaciones

aleatorias o error experimental.

En estos conceptos se basan los dos diseños básicos de modelos para el análisis de la

varianza:

• Diseño completamente aleatorio: todas las unidades experimentales son

homogéneas y su asignación a los distintos tratamientos (o viceversa) se hace de

forma totalmente aleatoria.

• Diseño en bloques completamente aleatorio: no todas las unidades son

homogéneas, pero es posible agruparlas en bloques homogéneos y asignarles, en

cada uno de ellos, de forma totalmente aleatoria, los tratamientos

correspondientes. Se trata de limitar el error experimental, evitando, en la forma

mencionada, la heterogeneidad de las unidades experimentales en el análisis.

Antes de pasar a exponer algunos de los modelos más importantes, digamos que

la exigencia de que el investigador planee anticipadamente el experimento, hace que

esta metodología tenga pocas posibilidades de aplicarse con rigor a ciencias no

experimentales.

2. Modelo de un factor completamente aleatorizado

Se corresponde con el tipo de modelo formulado en el apartado anterior. Una sola

variable explicativa, o factor, con, al menos, dos categorías o niveles (tratamientos), que

producen una respuesta observable en las distintas unidades experimentales o elementos

muestrales. Se supone que estos son homogéneos y que se asignan en forma aleatoria a

los distintos tratamientos. Se trata, por tanto, de un diseño completamente aleatorizado.

El objetivo es comprobar si hay diferencias significativas en la repuesta media para

los distintos niveles de factor. Como dijimos, es una extensión del contraste de la

diferencia de medias de dos poblaciones normales, con varianzas desconocidas, pero

iguales. El objetivo, por tanto, es realizar el contraste siguiente:

H0: µ1=µ2=...=µj=...µk = µ


7

H1: no todas las µj son iguales

Si rechazamos la hipótesis nula, es que podremos distinguir los efectos que

producen los distintos tratamientos. Si la aceptásemos, cualquier discrepancia en las

respuestas medias sería achacable al azar, producto del error experimental.

La respuesta de la unidad experimental i ante el tratamiento j, yij , será igual a la

respuesta media del grupo de las nj unidades experimentales (homogéneas) sometidas a

este tratamiento, µj , más el error experimental o efecto aleatorio producido, εij . Puede

representarse mediante la siguiente ecuación:

yij = µj + εij

El efecto diferencial, τj , del tratamiento j respecto al efecto medio global o del

conjunto de la muestra, µ , puede escribirse como sigue:

τj = µj - µ

y el modelo quedaría expresado en los siguientes términos:

yij = µ + τj + εij , para j=1, 2,...,k ; i=1, 2,..., nj [1]

Se supone que los errores son independientes y se distribuyen normalmente, con media

cero y varianza constante:

εij ∼ N(0 , σ2) para j=1, 2,...,k ; i=1, 2,..., nj

Si trabajamos con la hipótesis de efectos fijos, es decir, si admitimos que los

niveles de factor son seleccionados a priori por el investigador, la distribución de la

respuesta será la misma que la del error (µ y τj serían constantes). Por tanto, se

distribuirá normal e independientemente, pero su media estará desplazada a µj (µ + τj =

µj):


8

yij ∼ N(µj , σ2) para j=1, 2,...,k ; i=1, 2,..., nj

Las inferencias realizadas con este modelo sólo serán válidas para los niveles

que se han seleccionado previamente2. Esta hipótesis, junto con la de unidades

experimentales homogéneas, hace que se pueda considerar que se trabaja con la misma

población original, pero tratada en k formas diferentes.

Las hipótesis de normalidad e independencia de la respuesta, junto con la de

varianza constante, necesitan de una verificación previa a la aplicación del análisis. Se

ha comprobado que este resulta muy robusto ante la violación de la hipótesis de

normalidad, pero que, sin embargo, es muy sensible a la presencia de valores extremos

en las muestras (outliers). Por otro lado, si hay diferencias apreciables en las varianzas

de los distintos grupos, el test puede resultar afectado. Si, por ejemplo, existe asociación

entre los tamaños muestrales, nj , y las varianzas correspondientes, 2jσ , se ha

demostrado que el valor muestral del estadístico (veremos que es una F ) tiende a tomar

valores muy grandes y, por tanto, a rechazar la hipótesis nula, que, como se ha dicho, es

la de igualdad de medias o, de forma equivalente, que los efectos diferenciales son todos

nulos:

H0 : τ1 = τ2 = ...= τj =...= τk =0

El modelo dado por la ecuación [1], dado que τj = (µj - µ) y εij = (yij - µj ),

puede escribirse como sigue:

yij = µ + (µj - µ) + (yij - µj )

o, de otra forma,

(yij - µ) = (µj - µ) + (yij - µj ) [2]

Si observamos con detenimiento, esta ecuación nos está diciendo que la

diferencia respecto a la media global de cualquier observación, (yij - µ), se puede

descomponer en dos factores:

2 En el modelo de efectos aleatorios, se considera que τj ∼ N(0, σ2). Las inferencias serían válidas para todo el conjunto de la población de niveles.


9

• La parte correspondiente a la diferencia inducida por el tratamiento, evaluada

por la diferencia de la media del grupo de unidades experimentales

sometidas a ese tratamiento a la media global del experimento: (µj - µ).

• La diferencia observada en cada una las unidades experimentales sometidas

a ese mismo tratamiento respecto a la media dentro del mismo: (yij - µj ). Por

las hipótesis vertidas anteriormente (homogeneidad de las unidades

experimentales y aleatoriedad en su asignación), esta diferencia será de tipo

aleatorio, no explicada por el nivel de factor aplicado o tratamiento, y

recogerá el error experimental.

Si hubiera un tratamiento que produce resultados diferenciados, la diferencia

debida al mismo debería ser suficientemente mayor que la provocada por el error

aleatorio. Este será el razonamiento en que, como se verá más adelante, se apoyará el

test utilizado para la verificación de la hipótesis de medias iguales.

Como no será posible trabajar con los parámetros poblacionales µ y µj , habrá

que estimarlos a partir de las correspondientes medias muestrales, que, suponiendo σ2

igual para todos los grupos o niveles, son los mejores estimadores de las

correspondientes medias poblacionales. Les llamaremos, respectivamente, jYY ... y .

Incorporando a la ecuación [2] estas estimaciones:

(yij - ..Y ) = )( ... YY j − + (yij - jY. )

Elevando al cuadrado ambos miembros de la igualdad y sumando para i y para j,

tendremos:

[ ]

∑∑ ∑∑∑∑

∑∑∑∑

= = = == =

= == =

−−+−+−=

=−+−=−

k

j

n

i

k

j

n

ijijj

k

j

n

ijijj

k

j

n

iijj

k

j

n

iij

j jj

jj

YyYYYyYY

YyYYYy

1 1 1 1....

1 1

2.

2...

1 1

2.....

1 1

2..

))((2)()(

)()()(

Puede comprobarse que el último sumando de esta última expresión siempre será

nulo:


10

0)()())((1

....1 1 1

.... =

−−=−− ∑∑∑ ∑

== = =

jj n

ijijj

k

j

n

i

k

jjijj YyYYYyYY

ya que la expresión entre corchetes es la suma de las diferencias respecto a su media de

los valores de las observaciones del grupo o tratamiento j. Por tanto, finalmente, queda:

∑∑ ∑∑∑∑= = = == =

−+−=−k

j

n

i

k

j

n

ijijj

k

j

n

iij

j jj

YyYYYy1 1 1 1

2.

2...

1 1

2.. )()()( [3]

Esta es la ecuación fundamental del análisis de la varianza. Nos dice que la suma

total de cuadrados (STC) de las desviaciones en la respuesta de las unidades

experimentales, con respecto a la media global del experimento, se descompone en dos

sumandos:

• El primero, representa la suma de cuadrados de las desviaciones respecto a la

respuesta media global producidas por los distintos tratamientos (SCTR), en

términos de la diferencia de sus correspondientes respuestas medias respecto

a dicha media global. Es decir, la suma de cuadrados de las diferencias entre

grupos.

• El segundo, recoge la suma de cuadrados de las desviaciones en la respuesta

de cada unidad experimental con respecto a la media obtenida dentro del

tratamiento (grupo, muestra) a que ha sido sometida. Es decir, la suma de

cuadrados de los errores experimentales (SCE) observados dentro de cada

grupo.

Así, pues, de la expresión STC = SCTR + SCE , puede concluirse que las

variaciones totales en la respuesta (STC) se explican por los efectos de las variaciones

inducidas por los distintos tratamientos (SCTR), más una componente residual que

recoge las variaciones debidas al error experimental (SCE).

Si las respuestas medias para los distintos tratamientos son iguales entre sí,

entonces SCTR=0, y todas las variaciones en la respuesta se deben, exclusivamente, al

error experimental (aleatorio). Para un valor grande de SCTR, mayor serán las

diferencias existentes entre las medias de los tratamientos y la global. Los distintos

niveles de factor (valores o modalidades de la variable explicativa), en tal caso,

explicarían, en principio, las variaciones en la respuesta (variable dependiente).


11

Si todas las respuestas son iguales dentro de todos y cada uno de los tratamientos

o grupos, entonces SCE=0. Absolutamente todas las variaciones en la respuesta se

deberían al efecto de los tratamientos.

Ambos sumandos, dada una suma total de cuadrados, juegan de forma inversa: a

un mayor valor de SCTR le corresponde un valor menor de SCE, y viceversa. Cuanto

mayor sea el primero respecto al segundo, tantas más razones habrá para rechazar la

hipótesis nula de que las respuestas medias son iguales. Por consiguiente, el cociente

SCTR/SCE , puede ser un estadístico adecuado para llevar a cabo el contraste de dicha

hipótesis3.

No es excesivamente complicado demostrar que χσ2

12 −=

k

SCTR . Veamos:

[ ]

2..

1...

2..

1

2.

1...

2..

1

2.

1

2...

1

2...

1 1

2...

)())(( que ya , )()(

))((2)()(

)()()()(

µµµµµ

µµµµ

µµ

−=−−−−−=

=−−−−+−=

=−−−=−=−=

∑∑

∑∑

∑∑∑∑

==

==

=== =

YnYYnYnYn

YYnYnYn

YYnYYnYYSCTR

k

jjj

k

jjj

k

jjj

k

jjj

k

jjj

k

jjj

k

j

n

ij

j

Por consiguiente, 2

..

2

1

.2 //

−−

−= ∑

= nY

nYSCTR k

j j

j

σµ

σµ

σ, es una suma de los

cuadrados de variables independiente y normalmente distribuidas4, con µ=0 y σ=1. Se

trata, por tanto, de una distribución Chi-cuadrado con k-1 grados de libertad.

Tampoco es difícil demostrar que χσ2

2 kn

SCE−

= . Se ha visto que

∑∑= =

−=k

j

n

ijij

j

YySCE1 1

2. )( , y se sabe que j

j

n

ijij

jj SCE

nYy

n

j

s 11)(

11

1

2.

2ˆ −=−

−= ∑

=

, por lo

3 Se puede demostrar que E(SCTR/k-1)=σ2+(1/k-1)∑jnjτj

2, que es mayor que E(SCE/n-k)=σ2. La región crítica del test estará, por tanto, situada a la derecha de la distribución de este estadístico. 4 Las jY. son medias muestrales provenientes de una distribución N(µ , σ2) y, por tanto, su distribución es

N(µ , σ2/nj).


12

que SCEjk

j jsn =∑ −

=1

2ˆ)1( . Si dividimos por σ2 , teniendo en cuenta que las k muestras

son independientes, tendremos lo siguiente:

χσσ2

21

2

2ˆ)1(kn

k

j

jj SCEsn−

=

→=−

∑

ya que ∑=

−=−k

jj knn

1)1( .

Se puede demostrar que SCTR y SCE son independientes, por lo que,

knkkn

k Fkn

kCME

CMTRknSCE

kSCTR−−

−

− →−

−→=

−−

,12

21

2

2

/1/

/)/(1/)/(

χχ

σσ

siendo, CMTR y CME los cuadrados medios de los tratamientos y los cuadrados medios

del error, respectivamente5. Así, pues, el test de la F de Snedecor será el adecuado para

contrastar la hipótesis de que las respuestas medias de los tratamientos son iguales,

frente a la alternativa de que al menos una no lo es:

H0: µ1=µ2=...=µj=...=µk=µ

H1: no todas las medias son iguales

Cuanto mayor sea la suma de cuadrados explicadas por los tratamientos, o

variación entre grupos, en relación a la explicada por los errores, o variaciones dentro de

los grupos, más evidente es que las respuestas medias a los diferentes tratamientos no

son iguales. Rechazaremos la hipótesis nula con valores suficientemente grandes de la F

observada, situándose la región crítica del test, por tanto, en la cola derecha de la

distribución F. La F observada vendrá dada por la siguiente expresión:

∑∑

∑∑

= =

= =

−−

−−==

k

j

n

ijij

k

j

n

ij

obs j

j

knYy

kYY

CMECMTRF

1 1

2.

1 1

2...

/)(

1/)(

Pueden obtenerse fórmulas de cálculo más sencillas para las diferentes sumas de

cuadrados que intervienen en el análisis, desarrollando convenientemente las

5 Obsérvese que SCTR estima σ2 , a través de la distribución de las medias, [k. (σ2/k)= σ2], mientras que SCE hace lo mismo en la distribución de las respuestas. La distribución muestral de un ratio de este tipo es una distribución F central, si la hipótesis nula de igualdad es cierta. La hipótesis alternativa es que esta F no es central sino tumbada hacia la derecha (parámetro de no centralidad, ∑ 2

jτ , significativamente

distinto de cero), que es, precisamente, el contraste ya visto anteriormente.


13

expresiones iniciales. Dejamos su obtención como ejercicio para el alumno, que debe

obtener las siguientes expresiones finales:

SCTRSTCSCEn

TyYnyYySTC

nT

nT

YnYnYYSCTR

k

j

n

iij

k

j

n

iij

k

j

n

iij

k

j

k

j j

jk

jjj

n

ij

jjj

j

−=

−=−=−=

−=−=−=

∑∑∑∑∑∑

∑ ∑∑∑

= == == =

= ===

1 1

2..2

1 1

2..

2

1 1

2..

2..

1 1

2.

1

2..

2.

1

2...

)(

)(

Es usual presentar los resultados obtenidos en forma de una tabla, cuyo

contenido es el siguiente:

Tabla ANOVA Fuente de variación

Grados de libertad

Suma de cuadrados

Cuadrados medios

F observada

-Tratamientos (Entre grupos) -Error (Dentro grupos)

k-1

n-k

∑∑= =

−k

j

n

ij

j

YY1 1

2... )(

∑∑= =

−k

j

n

ijij

j

Yy1 1

2. )(

SCTR/k-1

SCE/n-k

CMECMTRFobs =

Total

n-1 ∑∑

= =

−k

j

n

iij

j

Yy1 1

2.. )(

⇒ η2 =R2=(SCTR/STC)

El sígnificado de η2 (eta cuadrado) es similar al de R2 en el análisis de regresión,

ya que da el porcentaje de variabilidad en la respuesta que viene explicado por el factor

o variable explicativa. Finamente, como se pone de manifiesto en la nota a pié de página

número 3, hay que señalar que los cuadrados medios del error (SCE/n-k), es el mejor

estimador de la varianza poblacional (σ2).

3. Procedimientos para comparaciones múltiples.

Si la hipótesis nula, de igualdad de medias, resulta rechazada, la cuestión inmediata

que surge es como localizar cuáles son los grupos o tratamientos que tienen medias

diferentes. Es necesario, por tanto, realizar un análisis ex post, con objeto de encontrar

la media o medias que resultan ser diferentes y por las que la hipótesis nula es

rechazada.


14

Hay diversas propuestas para llevar a cabo este procedimiento de comparación

entre múltiples medias: Mínima Diferencia Significativa (LSD, en inglés), Bonferroni,

Tukey, Scheffé, Duncan, ...). El primero no garantiza el mantenimiento del nivel de

significación para el conjunto del experimento. Los demás son soluciones de

compromiso entre el cumplimiento de esta garantía y la pérdida de potencia del test que

generalmente supone su aplicación. Vamos a ver, a continuación, el procedimiento de la

Mínima Diferencia Significativa (MDS), propuesto por Fisher.

Sean jY. e lY. , respectivamente, las medias muestrales de los grupos o tratamientos

j y l . Su diferencia será un estadístico muestral cuya distribución, como ya conocemos,

será la siguiente:

)1,0()()(

)(

..

..

NYY

lj YY

ljlj ≈−−−

−σµµ

dónde,

ljl

Y

j

YYYYY nnnn

lj

ljlj

112222

)(..

....+=+=+=− σ

σσσσσ

suponiendo que se cumple la hipótesis, formulada anteriormente, de que la respuesta se

distribuye normalmente con media µ y varianza σ2 , constante e igual en todos los

grupos o tratamientos (homoscedasticidad).

Como σ2 es desconocida, la estimaremos mediante los cuadrados medios de los

errores o error cuadrático medio, que se demuestra es su mejor estimador insesgado. Es

decir, kn

SCEs−

=2ˆ . Por lo tanto, según se sabe,

kn

lj

ljlj t

nns

YY−≈

+

−−−

11ˆ

)()( .. µµ

Mediante este estadístico, se puede establecer un intervalo de confianza del

100(1-α)% para cualquiera diferencia de medias:


15

+±− −

ljknjj nn

stYY 11ˆ .)( 2/,.. α

Si el intervalo contiene el valor cero, la diferencia de medias no será

significativa.

Es posible plantear este procedimiento de otra forma. Supongamos que H0 es

cierta (por tanto, µj = µl ), y sea tn-k,α/2 el valor del estadístico correspondiente al punto

crítico del test, con un nivel de significación α. Se puede afirmar que en este punto,

según la fórmula que expresa la distribución de tn-k, la diferencia de medias viene dada

por la siguiente ecuación:

ljknlj nn

stYY 11ˆ . 2/,.. +=− − α

Puesto que α, nj y nl son constantes, punto crítico del test y diferencia de medias

se determinan mutuamente, pudiendo afirmarse que esta es la discrepancia máxima

permitida en cualquier pareja de medias para no considerarlas como diferentes, dado un

nivel de significación α para realizar el contraste. Así, pues, puede afirmarse que la

diferencia mínima (MDS) a partir de la cual estamos dispuestos a rechazar la igualdad

entre las dos medias consideradas, viene dada por la expresión:

ljkn nn

stMDS 11ˆ . 2/, += − α

Cualquier valor superior nos llevaría a rechazar la hipótesis de igualdad de las

dos medias sometidas a comparación. Esta expresión también puede ser escrita en la

forma que sigue:

αα ;,12

2/;2 . . 11 . ˆ . 11

knlj

knlj

FCMEnn

tsnn

MDS −−

+=

+=

Es preciso obtener el valor de esta expresión para cada una de las k(k-1)/2

comparaciones repetidas de medias que son necesarias realizar, lo que en la práctica

supone repetir ese número de veces el contraste de la t que ya se viera en capítulos

anteriores.


16

Sin embargo, hay un caso especial en que es posible simplificar todo este

procedimiento. Si se trata de un diseño experimental equilibrado (igual número de

observaciones o unidades experimentales en cada grupo o tratamiento), entonces resulta

que nj = nl = m , la igualdad anterior quedaría como sigue:

αα ;,12

2/; . . 2ˆ . knmkn FCMEm

stMDS −− ==

En tal caso, los cálculos se simplifican bastante, ya que el valor obtenido para la

MDS, con el nivel de significación dado para obtener el valor de la F, sirve como única

referencia para contrastar todas las diferencias de medias. El intervalo de confianza

único sería el siguiente:

MDSYY lj ±− )( ..

Si el valor cero está dentro del intervalo formado, aceptaremos la hipótesis nula,

de igualdad de medias. En caso contrario, la rechazaremos. Visto de otra forma, sólo si

MDSYY lj ≤− .. aceptaremos H0. Es evidente que, en este caso, los cálculos se

simplificarían enormemente. El procedimiento lógico es, en primer lugar, ordenar las

medias, de menor a mayor valor. A continuación, se comienzan las comparaciones por

las dos medias más alejadas entre sí, continuando con este criterio hasta que se

encuentre una diferencia no significativa. En este momento puede ahorrarse el esfuerzo

de continuar con los contrastes, puesto que no será posible encontrar ninguna pareja de

medias que sea diferente, al ser su diferencia siempre menor que la primera hallada

como no significativa.

Sin embargo, este método de la MDS tiene un inconveniente. Obsérvese que si

el error de Tipo I en el contraste se estableciera como α=0,05 y hubiera k grupos, el

número esperado de diferencias que resultarían significativas, a pesar de que la hipótesis

nula de igualdad fuese cierta, sería 0,05[k(k-1)/2], ya que α es la probabilidad de

rechazar la hipótesis nula siendo cierta y [k(k-1)/2] el número total de comparaciones

que se pueden realizar. Bastaría con que k tomase un valor suficientemente grande para

que se pudiesen extraer falsas conclusiones, encontrándose excesivas parejas con

diferencias significativas. Ello se debe a que el error de Tipo I en los sucesivos


17

contrastes con el estadístico t, es el error de cada comparación en particular, pero no es

el error para el conjunto del experimento. Por ejemplo, si tuviéramos cinco tratamientos,

suponiendo que α=0,05, la probabilidad de rechazar la hipótesis nula en una

comparación específica, siendo falsa, sería (1-α)=0,95. Si suponemos que los tests son

independientes, tal probabilidad para el conjunto del experimento (10 comparaciones)

vendría dada por (0,95)10=0,60. El verdadero valor global de α, para todas las

comparaciones, sería de 0,4 y no el 0,05 requerido. Su autor recomienda, por tanto, que

sólo se aplique si se rechaza la hipótesis nula, de igualdad de medias, con el test F, para

un nivel α de significación (test de la MDS “protegido”). En estas circunstancias se ha

demostrado que es un test bastante efectivo.

Se han aportado procedimientos alternativos que intentan reducir el error de

Tipo I para el conjunto del experimento y generalizar la posibilidad de comparaciones

entre subconjuntos de medias. Los de Bonferroni, Scheffé y Tukey, quizás sean los más

conocidos y vienen incorporados en la mayoría de los paquetes estadísticos para

ordenador personal. Cada uno debería aplicarse en el caso para el que está más indicado,

careciendo de sentido la aplicación indiscriminada y simultánea de todos ellos. A

continuación, vamos a definir los tests propuestos por estos autores.

Aproximación de Bonferroni:

Se puede demostrar que si α es el nivel de significación propugnado para todo

el experimento y α* el correspondiente a cada contraste entre dos medias particulares, se

cumple que α≤α*[k(k-1)/2]. Con base en esta desigualdad, Bonferroni propone que para

cada una de las comparaciones se tome el nivel de significación dado por

α* = α /[k(k-1)/2]

Por tanto, para un nivel global de significación α, el intervalo de confianza para

la igualdad de dos medias se definiría como sigue:

ljknlj nn

stYY 11ˆ . )(2/,.. * +±−

− α

Si el número de comparaciones ([k(k-1)/2]) es relativamente grande, para un

valor de α dado, lo normal es que α* sea muy pequeño. Por lo tanto, rechazar la

igualdad de las dos medias se hace bastante más difícil que en las comparaciones


18

individuales del método anterior (MDS). Suele aconsejarse utilizar este test de

Bonferroni cuando el número de comparaciones no es muy elevado, dejando para estos

casos otros procedimientos como el de Scheffé, por ejemplo.

Aproximación de Scheffé:

Es el procedimiento más conservador para contrastar si las diferencias de medias

son significativas y persigue que el error de Tipo I para el experimento en su conjunto

sea α en todos los posibles contrastes que se puedan realizar entre las medias, no sólo

por parejas, sino, también, entre subconjuntos de medias. En este sentido es el más

flexible, aunque está más indicado para contrastes planificados (diseñados ex ante por el

investigador). El intervalo de confianza que propone para ello viene dado por la

siguiente expresión:

+−±− −−

ljknklj nn

FksYY 11.).1(.ˆ)( ;,1.. α

Obsérvese el parecido de esta expresión con la formulada para la MDS, cuando

se utiliza el estadístico F en los cálculos. En este caso, aparece con los grados de

libertad de SCTR, k-1, y viene multiplicada por este mismo valor.

Aproximación de Tukey:

Esta alternativa utiliza para las comparaciones entre medias la distribución de

rangos studentizada y, en principio, supone que el experimento es equilibrado, lo que es

una restricción para su aplicación generalizada6; es decir, que los tamaños de las k

muestras son iguales (m). El rango studentizado se define como la distribución muestral

del rango de la muestra dividido por la desviación éstándar estimada. Si CMEs =2ˆ y el

rango se basa en las medias de muestras de tamaño m, este estadístico se define como

sigue:

ms

YYq minmax

2ˆ

)( −=

6 Hay quien sostiene que, para tamaños muestrales no muy distintos, este test es muy robusto y es posible su utilización. En tal caso, hay que hacer m=n/k , siendo n el tamaño del experimento.


19

Si se toma un valor crítico de esta distribución para una comparación entre

parejas de medias, obtendríamos el nivel de significación apropiado para el peor de los

casos posibles de diferencias entre medias. Por tanto, parece razonable aceptar que tal

nivel sería el adecuado para todas las comparaciones posibles entre medias, es decir,

para el conjunto del experimento. La distribución de este estadístico depende del

número de medias (k), de los grados de libertad del error cuadrático medio (gl=n-k) y

del nivel de significación (α). Conocido el valor crítico, qα(k,gl), se puede calcular el

estadístico llamado W de Tukey o, también, “diferencia honestamente significativa”,

como sigue:

mCMEglkqW ),(α=

Tomando este valor como referencia, cualquier pareja de medias cuya diferencia

sea mayor al mismo se aceptará como significativamente diferentes.


20

4. Verificación de las hipótesis básicas.

Se ha visto como la comparación de las múltiples medias en el análisis de la

varianza concluye con un test, basado en la distribución F de Snedecor. La validez de

este test, sin embargo, depende del cumplimiento de las hipótesis básicas que se han

formulado sobre el modelo. Así, la violación de la hipótesis de normalidad y/o

independencia en la respuesta y en los errores echaría por tierra la distribución Chi-

cuadrado que se obtuvo para las sumas de cuadrados, y, por tanto, el test F realizado

finalmente. La existencia de heteroscedasticidad (varianzas distintas en los tratamientos)

puede hacer que el valor de las sumas de cuadrados no se deba exclusivamente a los

distintos niveles de factor. Si la asignación de las unidades experimentales no se hace al

azar, puede que los errores no se distribuyan en forma aleatoria, etc.

Hay un enfoque sencillo, gráfico, para estudiar el cumplimiento de estas

hipótesis, que es observar el comportamiento de los errores. De cualquier forma, es

posible aplicar cualquiera de los test de normalidad y aleatoriedad, ya estudiados en el

contexto de los contrastes no paramétricos. Veamos algunas propuestas simples,

incorporadas en la mayoría de los paquetes estadísticos.

a) Normalidad.

Como se acaba de comentar, una alternativa válida sería hacer el contraste de

Kolmogorov-Smirnov-Lilliefors. Otra vía de análisis es la utilización del análisis

exploratorio de datos, utilizando instrumentos tales como los diagramas de barras,

gráficos de tallos y hojas (stem and leaf), para observar la forma de una distribución, o

los de cajas (box-and-wisker), que suelen ser bastante útiles para detectar valores

extraños. Estos análisis es conveniente realizarlos mediante la distribución de los errores

o residuos (yij - .iY ), ya que, al ser yij=µ+τj+εij, los valores observados en la respuesta

tendrán las características de las distribución de (τj+εij) y sólo la distribución de los

residuos (estimación de los errores) nos podrá informar sobre el cumplimiento o no de

las hipótesis básicas del modelo formulado.


21

Se suelen utilizar, también, los llamados diagramas o gráficos Q-Q (cuantil-

cuantil), en los que, en general, los cuantiles de una muestra se representan en relación a

sus valores esperados en una distribución

normal. Este gráfico debería dar lugar a una

línea recta y estar comprendidos en el

intervalo (-3,+3), si los datos proceden de

una población distribuida normalmente. Los

residuos observados, previamente

estandarizados (εij / (CME)1/2), se colocan en

el eje de abscisas y los esperados, según la

distribución normal tipificada, se toman en el

eje de ordenadas. Una nube de puntos

próxima a una línea recta, hará plausible la

hipótesis de normalidad en los residuos y, por tanto, en la respuesta. Por el contrario,

cualquier desviación de esta pauta de comportamiento indicará una desviación de la

hipótesis de normalidad. Además, valores muy alejados del recorrido propio de una

normal tipificada, (-3,+3), pueden indicar la presencia de valores extremos en la muestra

(outliers), también detectables, como se ha dicho anteriormente, mediante los gráficos

de cajas (box-and-whisker plots). La figura 4.1 recoge dos casos de análisis de residuos.

En el primero de ellos, la hipótesis de normalidad es aceptable; en el segundo, además

del comportamiento no aleatorio de los residuos, su alejamiento de la recta, indicaría

una desviación de la normalidad.

El test F es muy robusto ante la violación de la hipótesis de normalidad. Los

efectos, por tanto, del incumplimiento de esta hipótesis no suelen ser, en general,

importantes. Tales efectos se manifiestan, especialmente, ante una desviación fuerte en

la asimetría de la distribución o la existencia de valores extremos. Claro que, en tales

casos, las medias no deberían de ser utilizadas como valores representativos de la

tendencia central en la población y carecería de interés hacer inferencias sobre ellas.

Por otro lado, si el tamaño muestral de los tratamientos es suficientemente

grande, siempre se puede aplicar el teorema central del límite a la distribución muestral

de la media, que, como se sabe, se distribuirá normalmente, aunque la población de

origen no sea normal. En cualquier caso, pueden intentarse transformaciones de los

RESIDUOS OBSERVADOS

RES

IDU

OS

ESPE

RAD

OS

-3.5

-2.5

-1.5

-0.5

0.5

1.5

2.5

3.5

-3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5

RESIDUOS OBSERVADOS

RE

SID

UO

S E

SP

ER

AD

OS

-3.5

-2.5

-1.5

-0.5

0.5

1.5

2.5

3.5

-3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5

Figura 4.1


22

datos que conduzcan a la normalidad o, finalmente, acudir al análisis de la varianza no

paramétrico, mediante el test de Kruskal-Wallis, basado en la comparación múltiple de

las medianas, que veremos más adelante.

b)Homoscedasticidad (igualdad de varianzas).

Si las varianzas de los grupos no son iguales, las sumas de cuadrados obtenidas

podrían tomar valores distintos sólo porque la variabilidad respecto a la media

(varianza) en cada grupo es diferente y no porque los niveles medios de factor difieran

de uno a otro grupo o tratamiento. En este caso, no todas las poblaciones tendrán la

misma varianza y no se debería usar la varianza del conjunto del experimento como una

estimación del correspondiente parámetro poblacional, que se supone igual pata todas

ellas. En consecuencia, el test F (cociente entre dos estimadores de varianzas que se

suponen iguales) deja de ser válido.

Hay que decir que aquí, también, el

test F se comporta en forma robusta,

especialmente si los tamaños de las

muestras son similares, siendo, como

máximo, la mayor el doble de la menor (la

distribución muestral de las varianzas,

especialmente para muestras pequeñas, es

muy dispersa, por lo que importantes

diferencias muestrales en las varianzas

pueden no ser estadísticamente

significativas). Los problemas graves se

producen cuando hay una relación entre

medias y varianzas.

Una forma sencilla de detectar

posibles problemas de este tipo es mediante el gráfico desviación típica-media (véase la

figura 4.2), que pone en evidencia la posible existencia de correlación entre las

varianzas y las medias de los tratamientos. Otros procedimientos aplicables son la

MEDIAS

DES

VIAC

ION

ES E

STAN

DAR

(r=0,96)

MEDIAS

DES

VIAC

ION

ES E

STAN

DAR

(r=0,05)

Figura 4.2


23

comparación de la dispersión de los residuos por tratamientos, mediante los

correspondientes gráficos de cajas o, si las muestras son muy pequeñas y lo anterior no

es significativo, la representación de la secuencia de los mismos que, en caso de

violación de esta hipótesis de homoscedasticidad, suele dar una distribución asimétrica.

De existir, puede afirmarse que es muy negativo para la fiabilidad del test F, puesto que

tiende a inflar el nivel de significación, rechazando la igualdad de medias. Por ejemplo,

puede ocurrir que la única media diferente a las demás, la mayor de todas, sea la

procedente de la muestra que, también, presenta mayor varianza. El test F podría dar

como significativa la diferencia de esta media, mientras que un test t en esa muestra

sobre el valor poblacional de la media, proponiendo como tal en la hipótesis nula alguna

de las observadas en los otros grupos, no arrojaría diferencias estadísticamente

significativas, dada la gran variabilidad que existe en el mismo y el consiguiente reflejo

que este hecho tendría en el tamaño del intervalo de confianza obtenido.

Este hecho suele ocurrir cuando hay valores extremos (outliers) en los datos.

Basta con que existan uno o dos valores de este tipo en una muestra con pocas

observaciones, para que se eleve fuertemente la media y, también, la varianza. Ello

conduciría a detectar, inadecuadamente, una media diferente a las demás y un valor

observado de la F superior a lo normal, provocado por la gran varianza (cuadrados

medios) de esta muestra o tratamiento. Sin embargo, eliminando los valores extraños, la

hipótesis nula de igualdad de medias sería, probablemente, aceptada.

En cualquier caso, si se piensa que se puede estar en presencia de varianzas

distintas, es recomendable realizar un test de hipótesis para verificarla. Hay diferentes

test para contrastar la hipótesis de igualdad de varianzas: Cochran, Bartlett-Box,

Hartley, entre otros. Todos ellos descansan en la hipótesis de normalidad. Uno de los

más utilizados es este último, llamado Fmax de Hartley, que será el que veremos a

continuación.

Se basa, el test de Hartley, en el cociente entre la mayor y la menor de la

varianzas muestrales. Bajo la hipótesis nula, de que las varianzas son iguales, este autor

obtuvo los valores críticos del test, en función del número de varianzas incluídas en el

test, k, y de 1−n , siendo n el tamaño muestral medio de los tratamientos o muestras (si

no es entero se tomará sólo la parte entera):


24

1,;ˆˆ

−→= nkmaxmin

max Fss

H

Cuanto mayor sea este cociente, mayor será la posibilidad de rechazar la

hipótesis de igualdad de varianzas. Los valores críticos del test están tabulados. Como

se acaba de decir, el cumplimiento de la hipótesis de normalidad es una exigencia para

la utilización del test. En caso de incumplimiento, debe aplicarse otro procedimiento.

El estadístico C de Cochran es muy similar al anterior y, también, está tabulado.

Su definición es la siguiente:

∑=

= k

jj

max

s

sC

1

2

2

ˆ

ˆ

Por último, el estadístico B de Bartlett, de complicada expresión que no

reproducimos, sigue una distribución 21−kχ . Una ulterior transformación posibilita una

aproximación (Bartlett-Box) a una distribución F.

Los tres contrastes suelen venir en los programas estadísticos más conocidos,

por lo que basta observar el nivel de significación (p-value) obtenido y, con esta

información, tomar la decisión de aceptar o rechazar la hipótesis nula, que en todos los

casos es la de igualdad de las varianzas.

Si las diferencias entre varianzas son producidas por la existencia de algún tipo

de relación entre la respuesta y alguna característica de las unidades experimentales (por

ejemplo, magnitudes económicas que varían en porcentajes, mayor variabilidad de la

longitud de una planta grande que de una pequeña, etc.), es muy posible la relación

entre la desviación estándar y la respuesta media. En este caso, puede ser útil recurrir a

transformar los valores de las observaciones, intentando que cumplan las hipótesis

básicas. En este sentido, se pueden realizar algunas transformaciones que tiendan a

equilibrar las varianzas. Por ejemplo, si la media es proporcional a σ, el modelo

logarítmico sobre las yij evitaría el problema. Si la proporción fuese respecto a σ2, se

debería tomar la raíz cuadrada de yij . En caso de datos expresados en proporciones o

porcentajes, se aconseja tomar arcsen( ijy ). Estas transformaciones suelen venir

incluidas en las opciones de algunos paquetes estadísticos.


25

c) Independencia.

Otra hipótesis básica que se debería contrastar, porque, como las anteriores,

puede afectar al test F utilizado en la

tabla ANOVA, es si las muestras

tomadas para cada grupo de

observaciones o tratamientos son

aleatorias. Si esta hipótesis no se cumple,

no es posible garantizar que las

respuestas, yij , sean independientes.

Cualquiera de los tests estudiados

en otras lecciones (test de rachas, por

ejemplo) para detectar la aleatoriedad,

sería de aplicación a este fin.

Generalmente, se utilizan los residuos

para llevarlos a cabo. El empleo de

gráficos de residuos, de nuevo, puede ser útil para detectar un posible comportamiento

no aleatorio de los mismos y, por tanto, de la respuesta: si se distribuyen de forma

aleatoria, sin sistemática alguna, a lo largo del eje de abscisas, y su media es

aproximadamente cero, podremos deducir que existe independencia. Sin embargo, un

comportamiento según cierto modelo, deducible de la visión del gráfico, debe hacernos

pensar en la posibilidad de un comportamiento no aleatorio en la respuesta (véase la

figura 4.3).

OBSERVACIÓN

RE

SID

UO

S

-0.25

-0.15

-0.05

0.05

0.15

0.25

0 1 2 3 4 5 6 7 8 9 10 11 12

OBSERVACIÓN

RE

SID

UO

S

-3.5

-2.5

-1.5

-0.5

0.5

1.5

2.5

3.5

0 1 2 3 4 5 6 7 8 9 10 11 12

Figura 4.3


26

5. Análisis de la varianza no paramétrico.

Cuando la hipótesis de normalidad no se cumple, pero se supone que los k≥2

tratamientos tienen la misma distribución, existe la posibilidad de verificar si hay una

respuesta diferenciada ante los tratamientos, utilizando un test no paramétrico de

localización para k muestras aleatorias independientes. Los niveles de respuesta se

miden, ahora, mediante las correspondientes medianas. Para el diseño de un factor

completamente aleatorizado suele utilizarse el test de Kruskal-Wallis, mientras que para

el modelo en bloques el test más generalizado es el de Friedman.

Test de Kruskal-Wallis

El test de Kruskal-Wallis es un test no paramétrico que se utiliza para comparar

tres o más muestras. La hipótesis a contrastar es que todas las poblaciones tienen la

misma función de distribución, frente a la alternativa de que al menos dos difieren en su

localización (mediana). Es un test análogo al utilizado en el análisis de la varianza

(ANOVA) para un diseño completamente aleatorizado, por lo que puede considerarse

un ANOVA no paramétrico, pero que no depende, como aquel, de la hipótesis de que

todas las poblaciones que se someten a comparación se distribuyen normalmente. Sólo

se supondrá que las poblaciones tienen la misma distribución. Se puede considerar

como una extensión lógica del test de Wilcoxon-Mann-Whitney al caso de más de dos

(k) poblaciones, pudiéndose obtener dicho test a partir de este de Kruskal-Wallis sin

más que particularizar para k=2.

Su finalidad, como acabamos de decir, es la verificación de la igualdad de las

medianas, M, de los k grupos o tratamientos. La hipótesis a contrastar es, por lo tanto,

H0 : M1= M2=...= Mk

H1 : no todas son iguales

El desarrollo del test es relativamente fácil y exige menos cálculos que los

necesarios para completar una tabla ANOVA. Los pasos a seguir para la aplicación del

test son los siguientes:


27

Test de Kruskal-Wallis

Muestras (Tratamientos)

1 2 .. k

y11(r11)

y21(r21)

..

)( 11 11 nn ry

y12(r12)

y22(r22)

..

)( 22 22 nn ry

..

..

..

..

y1k(r1k)

y2k(r2k)

..

)( knkn kkry

Suma rangos

Medias rangos

R.1

1.R

R.2

2.R

.. R.k

kR.

2)1(...21

1 11... +=+++=== ∑∑∑

= ==

nnnrRRjn

i

k

jij

k

jj

1.- De ser cierta la hipótesis nula, puede afirmarse que las distintas muestras provienen

todas de una misma población. Por tanto, podemos considerar las

∑=

=k

jjnn

1

observaciones del experimento como elementos de una muestra única que

ordenaremos de menor a mayor.

2.- Se asigna el correspondiente rango, rij , a cada una de las observaciones, yij. De

existir valores iguales, se sigue el mismo criterio que en el test no paramétrico de

Wilcoxon, visto en otra lección: asignarle a todos ellos la media de los valores de sus

respectivos rangos.

3.- Se calcula para cada muestra (tratamiento) la suma de los rangos, R.j .

4.- Se obtiene el valor del estadístico de Kruskal-Wallis, que se define como sigue7:

+−

−=

+−= ∑∑∑

= ==

jn

i

k

jij

k

j j

j nnrn

sconnnnR

sH

1

2

1

22

1

22.

2 4)1(

11 ,

4)1(1

7 El test aplica las fórmulas usuales del ANOVA a los rangos, que sustituyen a las observaciones en los cálculos. Esto hace que se simplifiquen algo las expresiones de los correspondientes cuadrados medios. Sin embargo, el test estadístico es diferente a la F usual, ya que se basa en el cociente entre SCTR y STC.


28

Si no se repite ningún valor en las muestras (mismo rango), esta expresión se

convierte en otra de más simple manejo8:

)1(3)1(

121

2. +−

+= ∑

=

nnR

nnH

k

j j

j

De este estadístico existen tablas que dan los valores críticos, para los tamaños

ordenados de las k muestras y para diferentes niveles de significación. Además, puede

demostrarse que para nj > 5, si la hipótesis nula es cierta, puede aproximarse una

distribución Chi-cuadrado con k-1 grados de libertad. La cola de la derecha puede ser

utilizada como región crítica del contraste.

Conceptualmente, el test parte del estadístico 2..

1. )( RRnV

k

jjj −= ∑

=

, que viene a

ser algo similar, formalmente, a la suma de cuadrados de los tratamientos, utilizando los

valores de los rangos en vez de las respuestas observadas, y, por tanto, ..y . RR j son,

respectivamente, la media de los rangos obtenidos por los elementos de la muestra j-

ésima y la media de los rangos del conjunto del experimento o muestra combinada. Si

H0 es cierta, estas diferencias cuadráticas tenderán a ser nulas y V estaría próximo a

cero. Por el contrario, si no fuese cierta, serían grandes y V tomaría un valor tanto más

alto cuanto mayores fuesen las diferencias entre las medias muestrales y la global de la

muestra conjunta (media del experimento en ANOVA). Tomaríamos, por tanto, la cola

derecha de la distribución χ 2

1−k.

No es demasiado complicado demostrar que multiplicando V por )1(

12+nn

, se

obtiene la expresión del estadístico H definido anteriormente. Recuérdese, para ello, que

la suma total de rangos en la muestra combinada será 2

)1( +nn y, por tanto, la media

global sería 2

)1( +n . Valores altos de H, por encima del punto crítico dado en las tablas,

serán indicadores de que existe, al menos, una mediana que es significativamente

diferente a las demás. 8 En este caso, ∑∑ 2

ijr se puede calcular mediante [n(n+1)(2n+1)]/6 . Si hay pocas repeticiones, la


29

La existencia de una diferencia en la localización de alguna de las poblaciones,

para un nivel α de significación, se pondrá en evidencia siempre que:

+

−−−

>− −lj

obskn

l

l

j

j

nnnHn

stnR

nR 11

112

;2/..

α

donde Hobs representa el valor muestral del estadístico H .

Test de Friedman

Para el caso de un diseño en bloques, se puede utilizar un test no paramétrico,

llamado test de Friedman, que es una adaptación del caso anterior a las peculiaridades

de este diseño de análisis de la varianza. Los pasos a dar son los siguientes:

1. Se ordenan las respuestas observadas para las distintas muestras o

tratamientos dentro de cada uno de los bloques y se les asigna un rango que,

lógicamente, irá de 1 a k (número de tratamientos, igual al número de

observaciones por bloque). Como en el caso anterior, le llamaremos rij a

estos rangos.

2. Se obtiene la suma de rangos para cada muestra o tratamiento. Como cada

tratamiento es asignado sólo a una unidad experimental de cada bloque, esta

suma constará de a sumandos (a=número de bloques). Llamaremos R.j a esta

suma.

3. En estas circunstancias, el test queda definido como sigue:

21

1

2. )1(3

)1(12

−=

→+−+

= ∑ k

k

jjF kaR

kakH χ

. Valores altos del estadístico conducirán a rechazar la hipótesis de que las

distribuciones de los tratamientos tienen igual localización (mediana).

Hay que decir, que existe una alternativa más reciente, propuesta por Iman y

Davenport, que está basada en un test F en vez de la aproximación con la χ2, cuya

expresión es la siguiente:

aproximación sigue siendo buena.


30

)1)(1(),1(

1

2.

1 1

2

2

1

2.

14

)1(1

)1( −−−

== =

=→

−

+−

−=

∑∑∑

∑kakk

jj

a

i

k

jij

k

jj

FR

ar

kakRa

aT

siempre que la hipótesis nula, de igualdad de localización de las poblaciones sea cierta

y se trabaje con muestras grandes. Si no hay observaciones repetidas,

6/)12)(1(2 ++=∑∑ kkakrij , por similitud con lo dicho en la nota a pié de página

del test anterior. Este test es superior al realizado mediante HF .

Es posible realizar comparaciones múltiples, basadas en las sumas de rangos de

los tratamientos. Para un nivel α de significación, se puede afirmar que las

distribuciones de dos tratamientos difieren en localización siempre que:

)1)(1(2

)1)(1(;2/.. −−>− −− ka

aDtRR obs

kali α

donde Dobs es el valor observado para el denominador del estadístico T .

notas de clase antonio morillas - webpersonal.uma.eswebpersonal.uma.es/~morillas/anova.pdf · la...

Documents