conceptos preliminares

50
Diseño de experimentos: Conceptos preliminares Tipos de estudios Existen dos tipos de estudios que generan datos, los estudios observacionales y los estudios experimentales. Llamamos estudio observacional cuando sobre un proceso existente se observan (registra información) una o más variables aleatorias. La finalidad de estos estudios es explorar, describir y confirmar hipótesis. ¿Qué es un experimento? “Prueba o serie de pruebas en las cuales se inducen cambios deliberados en las variables de entrada de un proceso o sistema de manera que sea posible observar e identificar las causas de los cambios en la respuesta de salida” (Montgomery 1991). “Es una reproducción restringida de la realidad con el fin de observar los efectos de su manipulación planificada” (Casanoves y Di Rienzo, 1999). La finalidad de estudios basados en experimentos es contrastar hipótesis, modelar y predecir. La diferencia principal entre estos dos tipos de estudio es que en los observacionales existe una realidad que se observa y en los experimentales se manipula la realidad para observar su respuesta. En la practica en muchas ocasiones se obtienen datos provenientes de combinaciones de ambos tipos de estudios. En estos casos el desafío es modelar correctamente los datos obtenidos. Unidad experimental Es la mínima porción del material experimental sobre el cual un tratamiento puede ser realizado. La unidad experimental (UE) puede ser una parcela de terreno, una maceta, un animal, el conjunto de alumnos de un curso, etc. Pueden ser unidades naturales como en el caso de una persona, un automóvil, una planta o unidades artificialmente delimitadas como en el caso de una parcela de terreno, una cantidad de agua, etc. Unidad Observacional Es la porción de la unidad experimental que se mide u observa. En muchos estudios, la unidad experimental coincide con la unidad observacional, pero en otros, una unidad experimental puede representar un conjunto de unidades observacionales. Cuando en un estudio se registran dos o mas variables, la unidad observacional puede ser distinta para cada una de ellas. Por ejemplo, si la unidad experimental es una parcela con plantas de trigo, se puede registrar la variable rendimiento sobre toda la parcela y la variable número de espigas por planta sobre algunas plantas de la parcela. Así, las unidades de observación son distintas para estas variables. Factores Son todas las fuentes de variación reconocidas a priori por el investigador (no incluye el error experimental). Cada uno de los valores que asume un factor se denomina nivel. Por ejemplo, la temperatura de cocción del pan es un factor y las diferentes temperaturas evaluadas son los niveles. Los factores pueden ser de interés del investigador (cuando se desea hacer inferencia sobre ellos) o simplemente pueden ser reconocidos como una fuente 1

Upload: karenfer

Post on 14-Jul-2015

417 views

Category:

Investor Relations


1 download

TRANSCRIPT

Diseño de experimentos: Conceptos preliminares

Tipos de estudiosExisten dos tipos de estudios que generan datos, los estudios observacionales y los estudios experimentales.

Llamamos estudio observacional cuando sobre un proceso existente se observan (registra información) una o más variables aleatorias. La finalidad de estos estudios es explorar, describir y confirmar hipótesis.¿Qué es un experimento? “Prueba o serie de pruebas en las cuales se inducen cambios deliberados en las variables de entrada de un proceso o sistema de manera que sea posible observar e identificar las causas de los cambios en la respuesta de salida” (Montgomery 1991).“Es una reproducción restringida de la realidad con el fin de observar los efectos de su manipulación planificada” (Casanoves y Di Rienzo, 1999).La finalidad de estudios basados en experimentos es contrastar hipótesis, modelar y predecir.La diferencia principal entre estos dos tipos de estudio es que en los observacionales existe una realidad que se observa y en los experimentales se manipula la realidad para observar su respuesta. En la practica en muchas ocasiones se obtienen datos provenientes de combinaciones de ambos tipos de estudios. En estos casos el desafío es modelar correctamente los datos obtenidos.

Unidad experimental

Es la mínima porción del material experimental sobre el cual un tratamiento puede ser realizado. La unidad experimental (UE) puede ser una parcela de terreno, una maceta, un animal, el conjunto de alumnos de un curso, etc. Pueden ser unidades naturales como en el caso de una persona, un automóvil, una planta o unidades artificialmente delimitadas como en el caso de una parcela de terreno, una cantidad de agua, etc.

Unidad ObservacionalEs la porción de la unidad experimental que se mide u observa. En muchos estudios, la unidad experimental coincide con la unidad observacional, pero en otros, una unidad experimental puede representar un conjunto de unidades observacionales. Cuando en un estudio se registran dos o mas variables, la unidad observacional puede ser distinta para cada una de ellas. Por ejemplo, si la unidad experimental es una parcela con plantas de trigo, se puede registrar la variable rendimiento sobre toda la parcela y la variable número de espigas por planta sobre algunas plantas de la parcela. Así, las unidades de observación son distintas para estas variables.

FactoresSon todas las fuentes de variación reconocidas a priori por el investigador (no incluye el error experimental). Cada uno de los valores que asume un factor se denomina nivel. Por ejemplo, la temperatura de cocción del pan es un factor y las diferentes temperaturas evaluadas son los niveles. Los factores pueden ser de interés del investigador (cuando se desea hacer inferencia sobre ellos) o simplemente pueden ser reconocidos como una fuente

1

de variación que de no contemplarse disminuyen la precisión de las comparaciones de interés (factores de bloqueo).En cualquiera de estos casos, los efectos de los factores pueden ser de naturaleza fija o aleatoria. Por ejemplo, las temperaturas de cocción del pan se pueden fijar en 100, 110 y 120 grados o elegirse al azar temperaturas entre 100 y 120 grados. Los factores de efectos fijos se utilizan cuando todos los niveles del factor que son de interés se incluyen en el estudio. La extrapolación de las conclusiones estadísticas mas allá de los niveles especificados hacia otros niveles no tiene sustento estadístico. Los modelos lineales basados en variables predictoras categóricas fijas (factores fijos) se denominan modelos de efectos fijos. Cuando en el modelo se incluyen efectos aleatorios, es decir, se incluye en el experimento una muestra aleatoria de posibles niveles del factor, se denomina modelo de efectos aleatorios. Las inferencias generalmente se orientan hacia todos los posibles grupos o niveles del o los factores de efectos aleatorios. A pesar que la distinción entre factores de efectos fijos o aleatorios no afecta el procedimiento de ajuste del modelo de ANAVA ni el contraste de hipótesis, en el modelo a una vía de clasificación, las hipótesis que se contrastan son fundamentalmente diferentes. En el caso de efectos fijos se contrastan hipótesis sobre igualdad de medias de tratamiento. En el caso de efectos aleatorios, se contrastan hipótesis sobre la varianza de los niveles del factor. Cuando se combinan efectos fijos y aleatorios se esta en presencia de un modelo mixto. Un a introducción a los modelos aleatorios y mixtos se vera mas adelante. Por ahora solo se hará referencia a los modelos de efectos fijos.Cuando se estudia un solo factor se dice que el experimento es unifactorial ya que los tratamientos consisten en aplicar distintos niveles de un mismo factor. Si en cambio un tratamiento consiste en la combinación de niveles de 2 o más factores, entonces se dice que el experimento es un experimento con estructura factorial de tratamientos.

Tipo de FactoresLos factores estudiados pueden ser de naturaleza cuantitativa o cualitativa. Un ejemplo del primer caso es cundo se estudian dosis de fertilizantes en un cultivo. Un ejemplo de factor cualitativo es el cultivar o variedad agrícola donde sus niveles son los distintos cultivares evaluados.

TratamientosSe denomina tratamientos al conjunto de poblaciones estudiadas y/o acciones realizadas sobre las unidades experimentales. Si el experimento es unifactorial, los tratamientos son los distintos niveles del factor. Si el experimento es multifactorial (más de un factor) los tratamientos surgen de la combinación de los niveles de los factores intervinientes. Por ejemplo, si se prueba el factor temperaturas con tres niveles, 100, 110 y 120 ºC, los tratamientos son las tres temperaturas. Si en esta experiencia además se evalúa el factor tipo de horno con tres niveles, eléctrico (E), a gas (G) y a leña (L), se tendrá un total de 9 tratamientos que surgen de la combinación de los niveles de los dos factores, temperatura y tipo de horno. Los tratamientos entonces serán: E-100, E-110, E-120, G-100, G-110, G-120, L-100, L-110 y L-120.

RepeticiónSe denomina repetición a cada una de las realizaciones independientes de un tratamiento.

2

Se denomina corrida a la realización de una repetición de todos los tratamientos. Otras veces se usa el termino replica para referirse a una repetición de todo el experimento.

Pseudo-repeticiónSe denomina Pseudo-repetición a cada una de las realizaciones no independientes de un tratamiento. En algunas áreas se denominan submuestras.

ConfundimientoSe dice que hay confundimiento cuando la comparación entre los niveles de un factor puede representar también la comparación entre los niveles de otro factor. Así será imposible conocer cuál es el factor que podría estar causando las diferencias observadas. Por ejemplo, si se desea probar el efecto de dos dietas A y B y se asigna la dieta A a un conjunto de varones tomados al azar y la dieta B a un conjunto de mujeres tomadas al azar. Si al cabo de un tiempo se observa la diferencia de peso respecto al peso inicial, no se podrá determinar si las diferencias se deben al efecto del factor dieta o al efecto del factor sexo. En tal caso se dice que los efectos de dieta y sexo están confundidos. El confundimiento se podría evitar con la simple aleatorización de las dietas en las unidades experimentales (individuos sin distinción de sexos) o la aleatorización de las dietas dentro de cada uno de los sexos (recomendable si se espera que el sexo tenga efecto sobre la diferencia de peso).

Cuando se realiza un ANAVA (o test T) con pseudo-repeticiones únicamente, los efectos de los tratamientos pueden estar confundidos con variaciones en las unidades experimentales que, al no estar repetidas, no pueden distinguirse. Por ejemplo, si se estudia la cantidad de especies vegetales de dos áreas contiguas, una que fue hace años arrasada por el fuego y otra que no, se pueden obtener pseudo-repeticiones de los tratamientos (fuego y no fuego). Si se hace una prueba con estos datos no se podrá saber si las diferencias se deben al efecto del fuego o a que las áreas contiguas tenían diferencias entre si mas allá del fuego.

Control y testigoUsualmente se denomina control al nivel del factor tratamiento que representa ausencia de “tratamiento”. Es común ver en experimentos UE a las que no se le aplican los tratamientos de interés. El objetivo es comparar los efectos de tratamientos descontando variaciones debidas a la manipulación experimental. Por ejemplo, en un estudio involucrando varias dosis de fertilizantes el rendimiento observado bajo los distintos tratamientos podría deberse a la dosis de fertilizante pero también a las condiciones experimentales que no son en las que habitualmente se observa el rendimiento (siembra a mano, riego con regadera, etc.). Luego si no se incorpora un control (sin fertilizar) será difícil discernir cuánto de lo observado se debe a la fertilización.Se denomina testigo al tratamiento tradicional que se desea comparar con nuevos tratamientos. Por ejemplo, para evaluar tres nuevas variedades de trigo en cuanto a su rendimiento, se podría incluir la variedad tradicional como testigo, de manera de poder comparar los rendimientos de las nuevas versus el testigo bajo las mismas condiciones experimentales.

3

AleatorizaciónEn diseño y análisis de experimentos hay dos etapas importantes de aleatorización. La primera se relaciona con la necesidad de contar con unidades experimentales que representen una muestra aleatoria de la población de UE. La segunda aleatorización es la que se realiza para asignar los distintos tratamientos en las UE o viceversa. Esta es una condición necesaria para que la estimación de los parámetros de interés sea insesgada.

Error experimentalEste error está compuesto por los errores de tratamiento, de muestreo y de medición y aunque en la práctica generalmente son indistinguibles, es importante reconocerlos para tratar de minimizarlos. En el ANAVA, el error experimental es un estimador de σ2 y por lo tanto mantener en niveles bajo los errores que lo componen harán más eficientes las comparaciones de interés.Error de Tratamiento: Es el error que se podría cometer al no poder aplicar el mismo tratamiento de manera exactamente igual en las unidades experimentales (UE) que le fueron asignadas.Error de Medición: Error relacionado a la obtención del dato. Podría ser introducido por parte del operario que obtiene el dato o por el instrumento de medición.Error de Muestreo: Está relacionado con la variación de las UE que es de esperar exista aún cuando toda otra fuente de variación se encuentre controlada. Su magnitud depende de la heterogeneidad de las UE.El error de tratamiento se controla con un buen protocolo de aplicación de los tratamientos, el error de medición, con la capacitación del personal y la elección de buenos aparatos de medida. El error de muestreo, se controla mediante un proceso de aleatorización que contemple la estructura de las unidades experimentales, es decir asegurarse que todos los tratamientos estén representados en todos los grupos o bloques de unidades experimentales.

Diseño de experimentos

El diseño de experimentos consiste en un conjunto de técnicas que tienen, entre otras, la finalidad de controlar las fuentes de variación no deseadas y disminuir el término de error experimental.Uno de los principales objetivos en la planificación de una experiencia, siguiendo un diseño experimental, es la reducción del error experimental, con el propósito de incrementar la eficiencia de la inferencia relacionada a la comparación de tratamientos.El diseño experimental puede entenderse como una estrategia de combinación de la estructura de tratamientos (factor/es de interés) con la estructura de unidades experimentales, de manera tal que la variabilidad de la variable respuesta, al menos en algún subgrupo de unidades experimentales, pueda ser atribuidas solamente a la acción de los tratamientos, excepto por errores aleatorios. Así, es posible contrastar (comparar) medias de tratamientos o combinaciones lineales de medias de tratamientos con el menor “ruido” posible. La estructura de tratamientos esta relacionada al número de factores involucrados en el experimento, sus niveles y la combinación de los mismos. La estructura de unidades experimentales surge del agrupamiento de las mismas en grupos o bloques que puedan considerarse formados por UE homogéneas. Es importante en toda situación donde se

4

diseña una experiencia distinguir entre la estructura de parcelas o estructura de las UE por un lado, y la estructura de tratamientos, por el otro.La estructura de parcelas es generalmente determinada a priori de la aplicación de los tratamientos a las UE, tratando que ésta contemple todos los factores que producen variación en la respuesta entre las distintas unidades experimentales. En la mayoría de las experiencias, es posible identificar patrones en las UE, los que se asocian a factores, que si bien no corresponden a los tratamientos de interés, podrían diferenciar las respuestas provenientes de las distintas UE. Una estrategia para controlar el efecto de dichos factores es la estratificación o bloqueo. La estructura de tratamientos esta asociada a las cuestiones sobre las que interesa inferir. La aleatorización es el proceso que permite combinar ambas estructuras. La estructura de tratamientos es aleatorizada en las unidades experimentales.Así, un diseño experimental involucra:a) la elección de la estructura de tratamientos.b) la detección de la estructura de parcelas (independientemente de la estructura de tratamientos).c) la elección del método de aleatorización acorde para la combinación de ambas estructuras.El diseño experimental determina el modelo a utilizar para un correcto análisis de la variabilidad en la respuesta.

Algunas estructuras de parcelas clásicas son aquellas que caracterizan los diseños: 1) completamente aleatorizados (DCA), donde las UE no tienen estructura; 2) en bloques completos aleatorizados (DBCA), donde las UE homogéneas se agrupan en un mismo bloque y los bloques son heterogéneos en relación a un factor de clasificación (o combinación de factores de clasificación); 3) cuadrado latino (DCL), donde las UE se agrupan en bloques heterogéneos en relación a dos factores de clasificación independientes (estructura de UE a dos vía de clasificación).No debe existir interacción entre los componentes de la estructura de parcelas y los componentes de la estructura de tratamientos, es decir, se asume que la relación existente entre tratamientos es consistente de bloque a bloque (excepto por la variación aleatoria).

Preguntas que pueden hacerse para realizar, identificar y analizar un experimento

comparativo

¿Cuántos tratamientos se desean comparar?

¿Cuántas repeticiones por tratamiento son suficientes para comparar con la precisión deseada?

¿Es necesario observar la evolución de la respuesta en el tiempo?

¿Cuáles son las unidades experimentales?

¿Cuáles son las unidades de observación?

¿Son las unidades experimentales homogéneas?

5

¿Son las unidades experimentales homogéneas suficientes para realizar todos los tratamientos?

¿Cómo se asignan los tratamientos a las unidades experimentales?

¿Los tratamientos tienen alguna estructura?

¿Puede el diseño

resultante ser analizado estadísticamente y las comparaciones deseadas llevadas a cabo?.

Análisis de la varianza (ANAVA)

Introducción

En experimentos con fines comparativos, usualmente se realiza la aplicación de varios tratamientos a un conjunto de unidades experimentales para valorar y comparar las respuestas obtenidas bajo cada tratamiento. La técnica del Análisis de Varianza (ANAVA) permite realizar las estimaciones de las respuestas promedio de tratamientos y las comparaciones entre ellas. El ANAVA es un procedimiento que descompone la variabilidad total en la muestra (suma de cuadrados total de las observaciones) en componentes (sumas de cuadrados) asociados cada uno a una fuente de variación reconocidas.

El ANAVA es una técnica general en la que participa y se analiza la variación en una variable respuesta continua. La variación es particionada en variación explicada y no explicada por uno o más predictores llamados factores. Las categorías de cada factor (niveles) generalmente conforman grupos o condiciones experimentales (tratamientos). El objetivo es la comparación de las medias de la variable respuesta en esos grupos. El ANAVA examina la contribución relativa de diferentes fuentes de variación respecto a la variación total en la variable respuesta y permite contrastar la H0 sobre igualdad de medias entre los grupos versus la H1 que establece que al menos 1 es diferente.

La variables involucradas en el ANAVA son la variable dependiente o respuesta, las variables de clasificación (predictoras asociadas a factores cualitativos o cuantitativos con un numero discreto de niveles) y las covariables (predictoras asociadas a fuentes de variación continuas entre UE) en caso de que existan.La variable dependiente es la variable sobre la cual se desea hacer comparaciones entre los tratamientos. Las variables de clasificación son las que representan factores o fuentes de variación que permiten separar o clasificar las observaciones en grupos. Normalmente existen factores que tienen que ver con la estructura de tratamientos del experimento y factores relacionados a la estructura de las unidades experimentales.Las covariables (o variables concomitantes) representan variables aleatorias continuas cuyo valor varía con cada unidad experimental y que posiblemente están relacionadas linealmente con la variable respuesta. Las covariables no deben interactuar con los factores que se evalúan en el experimento. En situaciones donde se registró una variable concomitante, se puede realizar el análisis de covarianza. En este análisis antes de estudiar

6

las diferencias entre tratamientos, se ajusta o remueve en la variable dependiente la variabilidad debida a la covariable. Más adelante se desarrollará el tema análisis de covarianza.

Modelo de ANAVA de efectos fijos a un criterio de clasificaciónLa técnica de análisis de la varianza presupone un modelo lineal para explicar la variación en la variable respuesta . Cuando se estudia un solo factor con a niveles (o a tratamientos) se dice que el análisis de varianza es a un criterio de clasificación y el modelo (modelo de efectos) queda definido de la siguiente forma:

Yij =µ + τi + εij , con i=1,...,a y j=1,..,ni

donde:

Yij es la j-ésima respuesta en el i-ésimo tratamiento

µ es la media poblacional de la variable respuesta

τi es el efecto del i-ésimo tratamiento

εij es un termino de error aleatorio. Bajo los supuestos del modelos de muestreo ideal, los términos de error asociados a cada una de las observaciones se suponen independientemente distribuidos, normales, con esperanza 0 y varianza σ2 ∀i,j (Varianza constante).

La media general (µ) pueda ser entendida como la media de todas las medias poblacionales asociadas a cada uno de los grupos en estudio. Se considera un parámetro fijo y su valor es constante a través de todas las observaciones, por lo que suele denominarse simplemente constante. Los efectos de tratamientos (τi) representan la diferencia o corrimiento entre la media poblacional del grupo considerado y la media general. En el modelo de ANAVA de efectos fijos los (τi) se consideran constantes (valores fijos) desconocidas. El efecto del tratamiento 1 (τ1) es la diferencia que hay entre la media del tratamiento 1 y la media general. La hipótesis nula del ANAVA postula la igualdad de medias de todos los tratamientos comparados. Si la hipótesis nula del ANAVA fuera verdadera las a poblaciones estarían centradas sobre la misma esperanza, es decir, en µ. El término de error asociado a la observación ij, representa la diferencia entre dicha observación y la media poblacional del grupo o tratamiento correspondiente. El modelo de ANAVA también puede plantearse en términos de la media de celda o media de grupo (modelo de celdas o modelo de medias) en lugar de hacerlo sobre la base de efectos de grupos. Es decir,

Yij =µi + εij , con i=1,...,a y j=1,..,ni

El número de parámetros de posición en esta parametrización es igual al número de medias de grupo. Para el caso de estudios involucrando un solo factor con igual tamaño de muestra para cada nivel no existen diferencias entre este modelo y el de efectos a la hora del contraste de hipótesis. El modelo de celdas puede ser ventajoso en algunas situaciones con diseños complejos o multifactoriales donde se ha perdido una celda. Si bien los τi del modelo de efectos no son estimables, los µi =µ + τi si se pueden estimar para cada grupo. Debido a la equivalencia entre el modelo de celdas y el modelo de efectos,

7

resulta indistinto plantear la hipótesis nula del ANAVA en términos de media de celda o efectos de tratamiento. Las hipótesis que se contrastan en el ANAVA de efectos fijos pueden expresarse como: H0: µ1 = µ2 = ...= µa versus H1: Al menos un par de medias difiereo alternativamente como:H0: τ1 = τ2 = ...= τa=0 versus H1: Al menos un τi ≠0

EstimaciónEn el marco del modelo de efectos, los parámetros a estimar serán, la media general, los efectos de tratamientos y la varianza de los términos de error, la cual se asumió constante a través de los niveles de los factores. La estimación de estos parámetros usualmente se realiza mediante los procedimientos de estimación de mínimos cuadrados (MC) o máxima verosimilitud (MV). El modelo de muestreo ideal (MMI) es aquel modelo que cumple con los supuestos de independencia, homocedasticidad y distribución normal para los términos de error. Bajo los supuestos del MMI las estimaciones de los parámetros de posición obtenidas por uno u otro procedimiento son las mismas, mientras que la estimación de la componente de varianza residual difiere. El estimador MV de σ2 es sesgado mientras que el estimador por MC es insesgado, pero la eficiencia del estimador MV puede ser mayor sobre todo si el tamaño de muestra es grande.En experimentos con pocas repeticiones por tratamiento y bajo el MMI, usualmente se utiliza el procedimiento de mínimos cuadrados ordinarios, el que provee de los siguientes estimadores para los parámetros del modelo de efectos:ˆ Yµ =ˆ ( )i iY Y Y Y Y= + − =

El error estándar para una media de tratamientos, que permite construir intervalos de confianza para las medias poblacionales bajo cada tratamiento y/o comparar medias de tratamiento es:

2ˆiY

i

CMR

nσ =

donde CMR es el cuadrado medio residual del ANAVA también conocido como cuadrado medio dentro (CMD), ya que es un estimador de la variabilidad entre las UE tratadas de la misma forma, es decir, dentro de un mismo tratamiento.Los términos de error son estimados por los residuos e ij como la diferencia entre el valor

observado y el valor predicho por el modelo ( ij iY Y= ):

ij ij ij ie Y Yε = = −

8

Tabla de análisis de varianza para un modelo a una vía de clasificaciónFuente de Variación

Suma de Cuadrados Grados de

Libertad

Cuadrado Medio

F

Entre Tratamientos

2

2

1 1 1 1

1 1 ( )

i in na a

ij iji j i ji

SCE Y Yn N= = = =

= −

∑ ∑ ∑∑

gle= a -1

SCECME

gle=

CME

CMD

Dentro (Error Experimental)

SCD=SCT-SCE gld= N - a SCD

CMDgld

=

Total 2

2

1 1 1

1

i in na a

ij iji j i j

SCT Y YN= = =

= −

∑∑ ∑∑

glt= N - 1

Una forma de calcular el cuadrado medio dentro es a partir de las varianzas muestrales obtenidas para cada tratamiento:

2 21 1

1

ˆ ˆ( -1) ... ( -1)

( -1) ... ( -1)a a

a

n nCMD

n n

σ σ+ +=+ +

El Cuadrado Medio Dentro es un estimador insesgado de σ2, es decir E(CMD) = σ2.

El cuadrado medio entre (CME) se asocia a la variabilidad entre las medias de tratamientos. En el caso de tamaños muestrales iguales para cada tratamiento se puede obtener de la siguiente forma:

2 ˆ YCME nσ= ⋅ .

A diferencia del CMD que es un estimador incondicional de σ2, el CME estima a σ2 sólo si las esperanzas de los tratamientos que se comparan son iguales (H0 verdadera) de lo

contrario estima a σ2 + c ii

a2

=∑ , con c una constante mayor que 0. Luego, CME es un

estimador insesgado de σ2 sólo si H0 es verdadera, de lo contrario estima a σ2 más una cantidad que representa una medida de la magnitud de los efectos de tratamiento.

Si H0 es verdadera, todo τi=0 y por lo tanto la componente añadida por los efectos de tratamiento se anula y la esperanza del CME es σ2. Luego el CMD y el CME son ambos estimadores independientes de σ2 bajo H0.

Sean 2Eσ y 2

Dσ las varianzas estimadas por el CME y el CMD respectivamente, luego

bajo la hipótesis de igualdad de medias de tratamiento, 2Eσ = 2

Dσ de lo contrario 2Eσ > 2

Dσ . El ANAVA se basa en dos estimadores independientes de la varianza de las observaciones: uno basado en la variabilidad dentro de los tratamientos y otro basado en la variabilidad entre los tratamientos. Si no hay diferencias entre las medias de los tratamientos, estos dos estimadores estiman al mismo parámetro, de lo contrario el segundo tiende a ser mayor cuanto mayor es la diferencia entre los tratamientos. Luego, a pesar de que la hipótesis de interés del ANAVA se refiera a la igualdad de las esperanzas de dos o más distribuciones, la técnica del ANAVA se basa en la comparación de varianzas para inferir acerca de la

9

igualdad de las esperanzas. Por lo tanto otra forma de plantear la hipótesis en ANAVA es la siguiente:

H0 : 2Eσ = 2

Dσ vs. H1 : 2Eσ > 2

El contraste de hipótesis consiste en calcular el estadístico F utilizando los estimadores de 2Eσ y 2

Dσ , de la siguiente forma:

CMEF

CMD=

Este estadístico tiene, bajo H0, una distribución F(a-1),(N-a)) con N =1

a

ii

n=∑ . Luego, para un nivel

de significación α, si el valor observado de F es mayor que el cuantil (1-α) de la distribución F(a-1),(N-a) se rechaza H0, implicando que H1 es verdadera. El rechazo de H0

implica que 2

1

a

ii

τ=∑ es distinto de 0 y por lo tanto, que algún τi ≠ 0; luego se concluye que no

todas las medias de tratamiento son iguales o que al menos un tratamiento tiene efecto distinto de 0.

En este diseño se supone que las unidades experimentales son homogéneas, es decir no se identifica estructura alguna. Los tratamientos (que pueden o no tener estructura) se asignan completamente al azar a las unidades experimentales. El número de repeticiones puede variar de un tratamiento a otro. Aquellos con igual número de repeticiones se denominan balanceados; para algunas técnicas de estimación asociadas, el balance es una característica deseada.

Ejemplo: Diseño completamente aleatorizado a una vía de clasificación

Una panadería desea probar 4 temperaturas de horneado de pan (100, 130, 160 y 190 ºC) con el fin de verificar si existen diferencias en el volumen del pan obtenido. Para hacer la prueba se amasó el pan y se formaron 16 bollos. Cada uno de los bollos fue asignado al azar a una de las temperaturas. Luego se aleatorizó el orden de las temperaturas del horno y después del horneado se midió el volumen del pan obtenido (cm3). Los datos están en el archivo pan.idb. Se realizó un ANAVA a una vía de clasificación y se obtuvo la siguiente tabla:

Análisis de la varianza

Variable N R² R²Aj CV

vol 16 0.59 0.48 2.52

Cuadro de Análisis de la Varianza (SC Tipo III)

F.V. SC gl CM F Valor p

Modelo 9220.50 3 3073.50 5.66 0.0119

Temperatura 9220.50 3 3073.50 5.66 0.0119

Error 6515.50 12 542.96

Total 15736.00 15

10

El valor p=0.0119 para el efecto de tratamientos (temperaturas) sugiere el rechazo de la hipótesis nula de igualdad de medias de tratamientos.

Análisis de los supuestos del MMI

Para el análisis de los supuestos del modelo de muestreo ideal, se utilizan las mismas técnicas gráficas y de pruebas de hipótesis que se desarrollaron en regresión lineal.

A continuación se muestra el diagrama de dispersión de residuos versus predichos, el gráfico qq-plot para de residuos, la prueba de homogeneidad de varianzas de Levene y la prueba de Shapiro-Wilks para el supuesto distribucional para los datos del archivo pan.idb.

Análisis de la varianza Prueba de Levene

Variable N R² R²Aj CV RABS_vol 16 0.05 0.00 72.28

Cuadro de Análisis de la Varianza (SC Tipo III) F.V. SC gl CM F Valor p Modelo 103.30 3 34.43 0.23 0.8745 Temperatura 103.30 3 34.43 0.23 0.8745 Error 1805.19 12 150.43 Total 1908.48 15

Shapiro-Wilks (modificado)Variable n Media D.E. W* p (una cola) RDUO_vol 16 0.00 20.84 0.91 0.2452

11

-36.87 -17.15 2.57 22.28 42.00

Cuantiles de una Normal(0,434.37)

-36.87

-17.15

2.57

22.28

42.00

Cu

an

tile

s o

bs

erv

ad

os

(RD

UO

_vo

l)

n= 16 r= 0.969 (RDUO_vol)

887.11 902.99 918.88 934.76 950.64

PRED_vol

-32.55

-13.02

6.50

26.02

45.55

RD

UO

_vo

l

No hay evidencias para rechazar el supuesto de homogeneidad de varianzas (Prueba de Levene, p=0.8745) ni el de distribución normal de los errores (Prueba de Shapiro-Wilks, p=0.2425).Como los supuestos del MMI pueden ser sostenidos, y se rechazó la hipótesis nula de igualdad de medias de tratamientos, por lo que se concluye que al menos una temperatura de horneado produce un volumen promedio diferente. Para identificar cuál o cuales tratamientos se asocian a valores medios diferentes se puede recurrir a técnicas de comparaciones múltiples (donde se contrastan todos los pares de medias) o a la estimación de contrastes entre medias específicamente determinados por el usuario en función del conocimiento del problema y el objetivo de la investigación.

Comparaciones múltiples

Usualmente, cuando la hipótesis nula del ANAVA es rechazada se implementa una prueba para comparar las medias.

Para analizar las diferencias de “a pares”, entre las medias de las distribuciones que se comparan, existe una gran variedad de pruebas a posteriori o comparaciones múltiples entre las que se pueden mencionar procedimientos tradicionales y procedimientos jerárquicos (basados en algoritmos de agrupamiento jerárquico). Con un número alto de medias de tratamiento, los procedimientos tradicionales pueden producir resultados de difícil interpretación ya que una misma media puede pertenecer a más de uno de los grupo de medias que resultan en la comparación (falta de transitividad). Por el contrario, los métodos jerárquicos producen agrupamientos mutuamente excluyentes (partición del conjunto de medias de tratamientos).

Entre los procedimientos tradicionales se encuentran, entre otras, las siguientes pruebas: LSD de Fisher, Bonferroni, Tukey, Duncan y Student-Newman-Keuls (S.N.K).

Entre los procedimientos jerárquicos se pueden mencionar: Di Rienzo, Guzmán y Casanoves (D.G.C.), (Di Rienzo, et al., 2002); Jollife (Jollife, 1975), Scott y Knott (Scott y Knott (1974)) y la prueba BSS (Bautista et al. (1997)), entre otras.

La elección del método de comparaciones múltiples depende del objetivo de la investigación y de que tasa de error (Tipo I o Tipo II) se desee controlar. Las pruebas de hipótesis tienen riesgos asociados al rechazo y al no rechazo de la hipótesis (contraste) de interés. El error tipo I considera el riesgo de rechazar una hipótesis nula verdadera y su probabilidad α esta determinada por el investigador. El error tipo II es el riesgo de no rechazar una hipótesis falsa, es decir, en el contexto de las comparaciones múltiples de a pares, declarar iguales dos medias que en realidad no lo son. La tasa de error tipo II, para un nivel de significación α dado, esta determinada por el tamaño muestral, la varianza y la magnitud de las diferencias entre las medias poblacionales involucradas. Los riesgos de cometer error de tipo I y de tipo II tienen una relación inversa; manteniendo constante las características mencionadas arriba en relación al error de tipo II, si disminuye α, aumenta el error de tipo II.

La importancia relativa de uno u otro error depende del contexto en el cual se realiza el contraste de hipótesis. Por ejemplo, si un laboratorio esta en las primeras etapas de investigación de diversas drogas para el control de una enfermedad, el riesgo mayor podría

12

ser descartar una droga que en realidad produce el efecto deseado. En cambio, si se esta por recomendar una droga para un paciente, el riesgo mayor es recomendar una que no sea efectiva. En el primer caso se debe elegir una prueba que controle el error de tipo I mientras que para el segundo una que controle el error tipo II.

Para los datos del ejemplo de la panadería, se realizó la prueba de Tukey para comparar las medias de las temperaturas estudiadas obteniéndose los siguientes resultados:

Test : Tukey Alfa: 0.05 DMS: 48.92143Error: 542.9583 gl: 12Temperatura Medias n 100 890.00 4 A 190 910.25 4 A B 160 944.00 4 B 130 947.75 4 B Letras distintas indican diferencias significativas(p<=0.05)

Los mayores volúmenes de pan se obtienen con las temperaturas de 190, 160 y 130 ºC. Estas temperaturas no difirieren entre si, por lo que se recomienda la temperatura de 130 ºC ya que es la más económica de lograr. Se puede ver claramente la falta de transitividad del método de Tukey, ya que la temperatura 100 no difiere de 190, la temperatura 190 no difiere de 160, pero la temperatura 100 difiere de 160. Usando un método LSD se obtienen los siguientes resultados:

Test : LSD Fisher Alfa: 0.05 DMS: 35.89948Error: 542.9583 gl: 12Temperatura Medias n 100 890.00 4 A 190 910.25 4 A B 160 944.00 4 B C 130 947.75 4 C Letras distintas indican diferencias significativas(p<=0.05)

Esta prueba indica que el mayor volumen de pan se logra con las temperaturas 160 o 130. No obstante se sigue recomendando la temperatura 130 por cuestiones económicas. Se puede observar que la prueba LSD encuentra más diferencias que la prueba de Tukey.

13

Además de la clasificación por su carácter transitivo o no, los métodos de comparaciones múltiples pueden clasificarse por su objetivo, por el tipo de tasa de error que contro lan, y por si la mínima diferencia significativa que se obtiene con ellos es constante o variable entre otros criterios.

Respecto a la clasificación por el objetivo de la comparación pueden separarse en: 1) todas las comparaciones posibles de a pares (Ej.: Tukey, Duncan, LSD, DGC, Jollife), 2) todas las comparaciones contra un testigo (Ej.: Dunnett), 3) todas contra la media mayor o todas contra la media menor (Ej.: HSU).

Respecto al tipo de tasa de error que controlan ésta puede ser por experimento o por comparación. La tasa de error por experimento se calcula como el número de experimentos en que se comete un error sobre el número total de experimentos (se suponen repeticiones independientes del mismo experimento). La tasa de error por comparación se calcula como el número de comparaciones donde se comete un error sobre el número total de comparaciones de un experimento. En general las tasas de error por experimento son mayores que las tasas de error por comparación.

Algunos procedimientos de comparaciones múltiples como son Bonferroni y Scheffé, permiten realizar contrastes generales e intervalos de confianza simultáneos. Esta generalidad trae como consecuencia una pérdida de potencia.

La prueba de Tukey requiere medias no correlacionadas y si bien fue pensada para igual número de repeticiones por tratamiento puede usarse una corrección en caso de desbalance (Tukey-Kramer). Controla el error tipo I por experimentación, razón por la cual es una prueba conservadora (poco potente).

La prueba de rango múltiple de Duncan y la de SNK también requieren de medias no correlacionadas e igual número de repeticiones por tratamiento. Son más potentes que Tukey pero menos que LSD.

La prueba LSD no requiere igual número de repeticiones, está entre las más potentes y controla la tasa de error tipo I por comparación.

Dentro de los procedimientos que tienen diferencia mínima significativa constante se encuentran el método de Tukey, el LSD, el DGC y dentro de los que poseen diferencia mínima significativa variable están el SNK, Duncan y el REGW, entre otros.

ContrastesSi bien el uso de las comparaciones múltiples realizadas en el ejemplo del volumen de pan es apropiado, numerosos autores recomiendan en caso como este, donde se cuenta con niveles equidistantes de un factor cuantitativo, realizar contrastes polinómicos ortogonales para identificar si existe alguna tendencia particular en las medias de la variable respuesta respecto a los niveles del factor. Con a niveles del factor tratamiento a analizar, es posible postular a-1 polinomios ortogonales de orden 1,...,a-1. Coeficientes para polinomios ortogonales para varios números de tratamientos pueden ser encontrados en cualquier texto de diseño de experimentos. Un contraste es definido como una combinación lineal de los parámetros del modelo. En el análisis de varianza los contrastes generalmente toman la

14

forma c1M1+ c2M2+...+ caMa (donde Mi es la i-ésima media poblacional y los coeficientes ci

son constantes conocidas, al menos dos distintos de cero, y su suma es cero). Si se desea plantear más de un contraste, para que las comparaciones sean independientes unas de otras, los contrastes deberán ser ortogonales. Dos contrastes son ortogonales si la suma de los productos de los coeficientes de ambos contrastes es cero. O sea, para C1 = c1M1 + c2M2+...+ caMa y C2 = b1M1 + b2M2+...+ baMa, C1 y C2 son ortogonales si c1b1+ c2b2+...+ caba = 0. Tres o más contrastes son ortogonales si todos los pares de contrastes definidos entre ellos son ortogonales. El número máximo de contrastes ortogonales a realizar es igual al número de tratamientos menos 1 (a-1). La sumas de cuadrados asociadas a un conjunto de contrastes ortogonales representan una partición de la suma de cuadrados de tratamientos. Si se realizan a-1 contrastes ortogonales y se cuenta con igual número de repeticiones por tratamiento, la suma de cuadrados de cada uno de los contrastes suma la suma de cuadrados de tratamientos.En el ejemplo de la panadería, al tener 4 temperaturas, se pueden realizar 3 contrastes polinómicos ortogonales cuyos coeficientes podrían ser:Tendencia lineal: -3 –1 1 3Tendencia cuadrática: 1 –1 –1 1Tendencia cúbica: -1 3 –3 1

Con estos contrastes se obtienen los siguientes resultados:ContrastesTemperatura SC gl CM F Valor p Contraste1 649.80 1 649.80 1.20 0.2954 Contraste2 8372.25 1 8372.25 15.42 0.0020 Contraste3 198.45 1 198.45 0.37 0.5567 Total 9220.50 3 3073.50 5.66 0.0119

Coeficientes de los contrastesTemperatura Cont. 1 Cont. 2 Cont. 3 100 -3.00 1.00 -1.00130 -1.00 -1.00 3.00160 1.00 -1.00 -3.00190 3.00 1.00 1.00

La tendencia lineal (contraste 1) es no significativa (p=0.2954) al igual que la tendencia cúbica (contraste 3, p=0.5567). La tendencia cuadrática resultó significativa (p=0.0020).

Estos hallazgos pueden visualizarse en el siguiente gráfico:

1596 120 145 170 195

Temperatura

865

897

929

960

992

vol_

su

avi

zad

a

Como cada tratamiento tenia el mismo número de repeticiones, la suma de la suma de cuadrados de los contrastes es igual a la suma de cuadrados de tratamiento (partición ortogonal).Además de usarse para verificar tendencia (contrastes polinómicos), los contrastes permiten también hacer otro tipo de comparaciones entre medias, planificadas en función de la estructura de los tratamientos y/o los objetivos del estudio. Estos contrastes podrían realizarse aún antes de obtener los datos ya que no dependen de los resultados particularmente obtenidos en la realización del experimento; por ello muchos autores los denominan contrastes a priori. Por ejemplo, si de tres tratamientos que se están ensayando el tratamiento 1 corresponde a un testigo y los y los otros dos tratamientos representan 2 nuevas acciones que se están experimentando, podría ser de interés postular a priori el siguiente par de contrastes sobre las tres medias M1, M2 y M3: el contraste 0 1 –1 comparará la M2 con la M3 (las dos acciones experimentales entre si) y el contraste 2 -1 -1 es equivalente a comparar M1 con la media de M2 y M3 (el promedio de las acciones experimentales versus el testigo). Por último, si bien los contraste ortogonales proveen información independiente, en algunos casos resultan de interés contrastes o comparaciones que no son ortogonales. Este el caso, por ejemplo, cuando se tiene un tratamiento testigo que se desea comparar con el resto de los tratamientos experimentales. Si se tiene un testigo (T) y dos tratamientos nuevos (N1 y N2) y se desea comparar cada uno de los nuevos tratamientos versus el testigo, los contrastes serian: 1 –1 0 (para comparar T versus N1) y 1 0 –1 (para comparar T versus N2). Estos contrastes no son ortogonales ya que su producto interno es distinto de cero (1 en este caso).En síntesis el tipo de contraste a realizar dependerá de la hipótesis de investigación y de la estructura de los tratamientos.

Introducción a los experimentos factorialesIntroducción a los experimentos factorialesEl uso de experimentos factoriales implica un reconocimiento de la estructura de tratamientos que hace al análisis más eficiente en cuanto a las comparaciones de interés entre los tratamientos. Es posible evaluar la respuesta en relación a los niveles de cada uno de los factores (efectos principales) y la interacción entre factores o cambios en las comparaciones de los niveles de un factor entre los distintos niveles de otro/s factor/es.

Cuando se combinan niveles de varios factores para conformar un tratamiento, el experimentador se pregunta si es posible identificar los efectos de cada uno de los factores y eventualmente probar hipótesis sobre ellos. Los experimento con arreglo factorial de tratamiento permiten responder a esa pregunta. A pesar de que otras estrategias podrían ser usadas, ¿por qué son preferibles los arreglos factoriales?. La respuesta está relacionada con el concepto de eficiencia, que en términos prácticos, se relaciona con la cantidad de repeticiones que son necesarias en un experimento para tener una precisión deseada para

16

los contrastes de interés. Por ejemplo, si para evaluar los efectos de los factores A y B con tres niveles cada uno se dispone de tres repeticiones para cada nivel, se tendrán , si se realizan dos ensayos unifactoriales por separado, 9 unidades experimentales para el ensayo del factor A y otras 9 para el ensayo del factor B, haciendo un total de 18 unidades experimentales. Si en vez de utilizar dos experimentos separados se planifica un experimento con 9 tratamientos (3 niveles de A x 3 niveles de B) y solo se repite una vez cada tratamiento, solamente se necesitarán 9 unidades experimentales para el experimento manteniendo las tres repeticiones para cada uno de los niveles. Es decir, que aunque no se cuentan con repeticiones para las combinaciones de niveles de cada factor, sí las hay (tres) para cada uno de los niveles de los factores individuales. En consecuencia, con la mitad de las unidades experimentales necesarias para acomodar los experimentos separados, se puede montar un único experimento que provee la misma precisión para la evaluación de cada factor individual (efectos principales de A y B). Si aún se pudieran utilizar las 18 unidades experimentales de los dos experimentos originales, se podría hacer una repetición completa de todo el experimento factorial y se tendría el doble de unidades experimentales para cada nivel de cada uno de los factores. En este sentido, los experimentos factoriales son más eficientes para evaluar los efectos de los factores individuales. Además los experimentos factoriales, cuando están repetidos, permiten evaluar si las variaciones en la respuesta debidas a los efectos de un factor son independientes de los niveles del otro factor, fenómeno que se conoce como interacción. Dado que la interacción es común en los sistemas involucrando varios factores, los experimentos que son capaces de detectarla son siempre preferibles.

Modelos aditivosLos modelos factoriales aditivos son aquellos en los que los términos que modelan la interacción están ausentes. Para ejemplificar este caso se presenta un experimento factorial en el que es de interés estudiar los factores riego con tres niveles (100, 150 y 200mm.) y el factor insecticida con dos niveles (con y sin insecticida) en la producción de tomate. Los 3x2=6 tratamientos resultantes se asignan a las UE (parcelas) según un diseño completamente aleatorizado. Se conoce por experiencias previas (o se supone) que no hay interacción entre los efectos de riego e insecticida. Los factores se han designado como R (riego) e I (insecticida) y sus niveles como R1,R2,R3 e I1,I2. Los 6 tratamientos de interés surgen del cruzamiento de ambos factores, es decir cada nivel de un factor se asocia con cada uno de los niveles del otro factor para definir un tratamiento. Así el arreglo factorial se representa como R1I1, R2 I1, R3I1, R1I2, R2 I2, R3I2. Cada uno de los tratamientos se evaluó una sola vez, es decir los tratamientos no están repetidos. No obstante esto, si existen repeticiones para cada nivel de un factor dentro de cada uno de los niveles del otro factor. La variable observada es el rendimiento. Los datos están en el archivo Tomate.idb. Se presenta a continuación los resultados obtenidos mediante el ANAVA.

Análisis de la varianza Variable N R² R²Aj CV Rendimiento 6 0.98 0.96 3.53

Cuadro de Análisis de la Varianza (SC Tipo III) F.V. SC gl CM F Valor p Modelo 143.99 3 48.00 40.10 0.0244

17

Riego 102.30 2 51.15 42.73 0.0229 Insecticida 41.70 1 41.70 34.84 0.0275 Error 2.39 2 1.20 Total 146.39 5

Se concluye que hay efecto de riego (p=0.0229) y que hay efecto de insecticida (p=0.0275). En el caso del factor insecticida, al tener 2 niveles no hace falta más información que las medias para concluir sobre la conveniencia del uso o no de insecticida.. Para el factor riego, por tener tres niveles se necesita indagar más sobre la comparación de medias. Por ser un factor cuantitativo de niveles equidistantes, se realizaron contrastes polinómicos ortogonales para evaluar si existían tendencias lineales y/o cuadráticas de los rendimientos promedio en relación a los niveles de riego. También se podrían haber realizado comparaciones múltiples, en tal caso hubiera habido tres contrastes involucrados (R1vs R2, R1vsR3 y R2vsR3). Con la estrategia seleccionada (contrastes polinómicos) las mismas comparaciones se realizan a través de dos contrastes; un menor número de contrastes para obtener las mismas conclusiones siempre es preferible debido a las consecuencias de la inferencia simultanea sobre las tasas de error.Los pruebas de hipótesis asociadas a los contrastes polinómicos planteados para el factor riego se presentan a continuación:

Contrastes Riego SC gl CM F Valor p Contraste1 102.26 1 102.26 85.43 0.0115 Contraste2 0.04 1 0.04 0.03 0.8716 Total 102.30 2 51.15 42.73 0.0229

Coeficientes de los contrastesRiego Cont. 1 Cont. 2 100.00 -1.00 1.00150.00 0.00 -2.00200.00 1.00 1.00

Se concluye que existe una tendencia lineal para el factor riego (p=0.0115) y que la tendencia cuadrática no es significativa (p=0.8716). Dado que el rendimiento promedio para el tercer nivel del factor fue mayor que para el primero, se concluye que existe una relación lineal positiva y por tanto dentro de los niveles ensayados (intervalo 100,200), a mayor cantidad de riego se espera mayor rendimiento. En el siguiente gráfico se visualiza esta tendencia, como así también la ausencia de interacción entre los efectos de riego y insecticida.

18

Con insecticida Sin insecticida

100 125 150 175 200

Riego

24

26

28

30

32

Re

nd

imie

nto

Con insecticida Sin insecticida

ModeloEl modelo para un experimento con estructura factorial de tratamientos (dos factores o bifactorial), sin estructura de parcelas, diseño completamente aleatorizado y suponiendo falta de interacción (modelo aditivo) es el siguiente:

Yij=µ+αi+βj+εij con i=1,...,a; j=1,...,bDonde Yij representa la respuesta al i-ésimo nivel del factor A y j-ésimo nivel de factor B, µ representa una media general, αi el efecto que produce el i-ésimo nivel del factor A (con a niveles), βj corresponde al efecto del j-ésimo nivel del factor B (con b niveles) y εij es el término de error aleatorio asociado a la observación ij-ésima que como siempre se supone es una variable aleatoria normal, con esperanza cero y varianza σ2.Si el supuesto de aditividad (no interacción) no se cumple entonces el experimento está deficientemente diseñado ya que harían falta repeticiones de los tratamientos (combinación de los niveles de ambos factores) para inferir sobre efectos principales e interacciones. Existen algunas pruebas estadísticas para verificar este supuesto como la prueba de aditividad de Tukey (1949), Mandel (1967) y pruebas gráficas.

Cuadro de Análisis de la Varianza para el modelo bifactorial aditivo con DCA. Fuente de Variación

Suma de Cuadrados Grados de Libertad

Cuadrado Medio

F

Factor A ( ) ( )2 2

. ..

1

a

i

i

Y YSCA

b ab== −∑ gla=a-1

gla

SCACMA =

CMA

CMD

Factor B ( ) ( )2 2

. ..

1

b

j

j

Y YSCB

a ab=

= −∑glb=b-1

glb

SCBCMB =

CMB

CMD

Error Experimental

SCD=SCT-SCA-SCB gld=(a-1)(b-1) gld

SCDCMD =

Total ( ) 2

..2

1 1

a b

iji j

YSCT Y

ab= =

= −∑∑glt=a.b-1

Modelos para arreglos factoriales incluyendo interacciónSi el experimentador supone o sospecha que la respuesta a dos o más factores además de involucrar la suma de los efectos individuales de esos factores depende de la combinación específica de los niveles de esos factores, entonces el modelo para el experimento factorial deberá incluir términos de interacción que den cuenta de este hecho. La inclusión de términos de interacción en el modelo conlleva la necesidad de tener repeticiones para cada

19

tratamiento porque de otra forma no es posible estimar los parámetros adicionales. Cuando el experimento tiene dos factores, existen solo interacciones de primer orden, cuando tiene tres factores, existen interacciones de primer y de segundo orden y así sucesivamente para arreglos factoriales de mayor orden.El modelo lineal para un experimento bifactorial con interacciones es una ampliación del modelo para el experimento bifactorial de efectos aditivos, que incluye un conjunto adicional de parámetros, conocidos como de interacción y bajo un DCA puede expresarse como:

Yijk=µ+αi+βj+δij+εijk con i=1,...,a; j=1,...,b; k=1,..,nij

En este modelo Yijk representa la respuesta en la k-ésima repetición del i-ésimo nivel del factor A y j-ésimo nivel de factor B, µ representa la media general, αi el efecto que produce el i-ésimo nivel del factor A, βj corresponde al efecto del j-ésimo nivel del factor B

y los términos δij representan los efectos adicionales (interacciones) de las combinaciones de los niveles de los factores. Los términos de error εijk asociados a cada observación se suponen (usualmente) normal e independientemente distribuidos con esperanza cero y varianza común σ2. Debe notarse que el subíndice k se mueve entre 1 y nij, que representa el número de repeticiones para el tratamiento ij. Los números de repeticiones dentro de cada tratamiento pueden ser distintos.

Cuadro de Análisis de la Varianza para el modelo bifactorial con interacción para un DCA.

Fuente de Variación

Suma de Cuadrados Grados de Libertad

Cuadrado Medio

F

Factor A ( ) ( )2 2

.. ...

1 . ..

a

i

i i

Y YSCA

n n=

= −∑ gla=a-1 gla

SCACMA =

CMA

CMD

Factor B ( ) ( )2 2

. . ...

1 . ..

b

j

j j

Y YSCB

n n=

= −∑ glb=b-1 glb

SCBCMB =

CMB

CMD

Interacción AB

( ) ( )2 2

. ...

1 1 ..

a b

ij

i j ij

Y YSCAB

n n= =

= −∑∑ glab(a-1)(b-1)

glab

SCABCMAB =

CMAB

CMD

Error SCD=SCT-SCA-SCB-SCAB

gld=glt-gla-glb-glab

gld

SCDCMD =

Total ( ) 2

...2

1 1 1 ..

ijna b

ijki j k

YSCT Y

n= = =

= −∑∑∑ glt= N-1

EjemploEn las grandes ciudades, los lodos que surgen del tratado de los efluentes son generalmente vertido en suelos de regiones periféricas a la ciudades. En un estudio medioambiental sobre

20

contaminación con zinc (Zn) debida a esta práctica, se realizó un ensayo para comparar los efectos de efluentes procedentes de tres ciudades sobre los niveles de Zn en hortalizas producidas en regiones periféricas. Se tomaron 36 macetones con plantas de tomate y en un diseño completamente aleatorizado se asignaron los tratamientos que surgieron de un arreglo factorial del factor cualitativo procedencia del lodo adicio nado a la maceta, al que denominaremos “ciudad” con tres niveles (A, B y C) y el factor cuantitativo cantidad de lodo adicionado, denominado “lodo”, con tres niveles (0.5, 1 y 1.5 Kg por unidad). Luego se cosecharon los tomates producidos y se les midió el contenido en partes por millón (ppm) de Zn, obteniendo los promedios por maceta como variable respuesta. Los datos se encuentran en el archivo Ciudad.idb. El ANAVA arrojó los siguientes resultados.

Análisis de la varianzaVariable N R² R²Aj CV Zn 36 0.95 0.93 12.96 Cuadro de Análisis de la Varianza (SC Tipo III) F.V. SC gl CM F Valor p Modelo 9475.52 8 1184.44 61.75 <0.0001 lodo 1945.45 2 972.72 50.71 <0.0001 ciudad 5720.67 2 2860.34 149.13 <0.0001 lodo*ciudad 1809.40 4 452.35 23.58 <0.0001 Error 517.86 27 19.18 Total 9993.38 35

La interacción entre lodo y ciudad resultó significativa (p<0.0001) razón por la cual no tiene sentido estudiar a los efectos principales de los factores a través de las medias de todos los datos. Es necesario estudiar o “abrir” la interacción, esto es estudiar los efectos de un factor dentro de cada uno de los niveles del otro. En este ejemplo hay dos factores de distinta naturaleza, uno cuantitativo y el otro cualitativo. Dado que uno de los intereses de la investigación es determinar si la cantidad de lodo agregado se relaciona con la cantidad de Zn encontrado en las plantas, se decide hacer contrastes para verificar tendencias lineal y cuadrática para contenido de Zn dentro de cada uno de los niveles del factor ciudad.

Construcción de los contrastesTenemos 4 grados de libertad para la interacción, que se usarán para realizar dos contrastes de tendencia lineal y dos de cuadrática. El interés se centrará en el estudio de estas tendencias en las distintas ciudades. Los contrastes deben reflejar entonces no sólo las tendencias lineales y cuadráticas de la respuesta en relación a los niveles de lodo sino también las diferencias de dichas tendencias entre ciudades.Para construir los contrastes se pueden seguir los siguientes pasos:

1) Listar los tratamientos que surgen de la combinación de los factores de manera conveniente (ordenado por un factor cuantitativo):

A,0.5 B,0.5 C,0.5 A,1 B,1 C,1 A,1.5 B,1.5 C,1.5

21

2) Plantear un conjunto de contrastes ortogonales para indagar sobre la o las tendencias de las respuestas promedio en relación a los niveles del factor cuantitativo:-1 -1 -1 0 0 0 1 1 1 (lodo lineal)-1 -1 -1 2 2 2 -1 -1 -1 (lodo cuadrático)

3) Plantear un conjunto de contrastes ortogonales para comparar medias de los niveles del factor cualitativo (ciudad). Como el factor ciudades tiene tres niveles habrá 2 grados de libertad para ser particionados en contrastes ortogonales. Un conjunto de contrastes que responde a estos requerimiento podría ser el siguiente:-2 1 1 -2 1 1 -2 1 1 (A vs.(B+C)/2) 0 -1 1 0 -1 1 0 -1 1 (B vs.C)4) Obtener los contrastes de interés (interacción) multiplicando los contrastes definidos en el paso 2 por aquellos definidos en el paso 3:

2 -1 -1 0 0 0 -2 1 1 lineal × (A vs.(B+C)/2)0 1 -1 0 0 0 0 -1 1 lineal ×(B vs.C)2 -1 -1 -4 2 2 2 -1 -1 cuadr. × (A vs.(B+C)/2)0 1 -1 0 -2 2 0 1 -1 cuadr. ×(B vs.C)Calculando las sumas de cuadrados asociadas a los dos primeros contraste se obtienen los siguientes resultados: Contrasteslodo*ciudad SC gl CM F Valor p Contraste1 121.92 1 121.92 6.36 0.0179 Contraste2 1638.23 1 1638.23 85.41 <0.0001 Total 1760.15 2 880.07 45.88 <0.0001

Coeficientes de los contrasteslodo*ciudad Cont. 1 Cont. 2 0.50:A -2.00 0.000.50:B 1.00 -1.000.50:C 1.00 1.001.00:A 0.00 0.001.00:B 0.00 0.001.00:C 0.00 0.001.50:A 2.00 0.001.50:B -1.00 1.001.50:C -1.00 -1.00

Se concluye que hay variabilidad entre ciudades para los coeficientes de regresión lineal de la respuesta en función de los niveles de lodo (p<0.0001).Calculando las sumas de cuadrados asociadas a los dos últimos contraste se obtienen los siguientes resultados:

Contrasteslodo*ciudad SC gl CM F Valor p Contraste1 1.05 1 1.05 0.05 0.8167 Contraste2 48.20 1 48.20 2.51 0.1246 Total 49.25 2 24.63 1.28 0.2933

Coeficientes de los contrastes

22

lodo*ciudad Cont. 1 Cont. 2 0.50:A 2.00 0.000.50:B -1.00 1.000.50:C -1.00 -1.001.00:A -4.00 0.001.00:B 2.00 -2.001.00:C 2.00 2.001.50:A 2.00 0.001.50:B -1.00 1.001.50:C -1.00 -1.00

Aquí se concluye que no hay diferencias en las tendenciascuadráticas de las respuestas promedio en función de los niveles de lodo para las distintas ciudades (p=0.2933).En el gráfico que se presenta a la derecha se puedenvisualizar estos hallazgos:

Aunque en los ejemplos anteriores se han presentado experimentos con estructura factorial de tratamientos, sólo en diseños completos al azar, la combinación de estructuras factoriales y estructuras de parcela da lugar a una amplia variedad de arreglos experimentales. Por diversas razones, quizás no puedan asegurarse las mismas condiciones experimentales de repetición a repetición y por lo tanto se tiene una fuente potencial de variación sistemática reconocida a priori sobre las UE que si bien no es de interés por si misma debe incorporarse al modelo de análisis para disminuir el error experimental. De este modo, cada repetición podría considerarse un bloque y el experimento completo sería un experimento con estructura bifactorial de tratamiento y estructura de parcelas en bloques completos al azar. Existen numerosas combinaciones de estructuras de parcela y estructuras de tratamiento, dependiendo de la jerarquía en la estructura de parcelas y las restricciones a la aleatorización. Los diseños emergentes se conocen como multifactoriales con restricciones a la aleatorización.

Estimación de los parámetros de un modelo bifactorial con Estimación de los parámetros de un modelo bifactorial con interacción para un DCAinteracción para un DCALos parámetros del modelo se pueden estimar por el método de mínimos cuadrados. El número de parámetros a estimar es 1+ a + b + ab, siendo a los niveles del factor A y b los niveles correspondientes al factor B. Cuando se plantean las ecuaciones normales para obtener las estimaciones, se encuentran a + b + 1 dependencias lineales por lo cual no existe una solución única para el sistema de ecuaciones. Para poder obtener una solución, se deben imponer algunas restricciones. Restricciones comúnmente usadas son:

1

ˆ 0a

ii

α=

=∑

23

Zn-A Zn-B Zn-C

0.50 1.00 1.50

lodo

18.00

33.00

48.00

63.00

78.00

Zn

(p

pm

)

Zn-A Zn-B Zn-C

1

ˆ 0b

jj

β=

=∑

1

( ) 0 1,...,a

i ji

j bαβ=

= =∑

1

( ) 0 1,...,b

i jj

i aαβ=

= =∑Al imponer estas restricciones, se obtienen las siguientes soluciones:

...

.. ...

. . ...

. .. . . ...

ˆ

ˆ 1,...,

ˆ 1,...,

1,...,( )

1,...,

í i

j j

i j ij i j

y

y y i a

y y j b

i ay y y y

j b

µα

β

αβ

== − =

= − =

== − − + =

podemos usar estas estimaciones de los parámetros, para estimar el valor esperado de cualquier observación y obtener así el valor ajustado de yijk.

Luego,

... .. ... . . ... . .. . . ...

.

ˆˆ ˆ ˆ ( )

ˆ ( )+( )+( )

ˆ

ijk í j i j

ijk i j ij i j

ijk ij

y

y y y y y y y y y y

y y

µ α β αβ= + + +

= + − − − − +

=El disponer de los valores ajustados permite calcular los residuos para el modelo. Estos residuos se usarán para evaluar el cumplimiento de los supuestos que sustentan el análisis de la varianza clásico (MMI).

Verificación de supuestos Verificación de supuestos Los supuestos del análisis de la varianza se refieren a las propiedades estadísticas de los errores que se suponen normales con esperanza cero, varianza común e independientes. Existen distintas técnicas de validación de supuestos, pero las mas usuales se basan en los predictores de los errores, es decir los residuos.

Una vez calculados los residuos se puede verificar el cumplimiento de los supuestos de normalidad, independencia y homogeneidad de varianzas de los εijk, mediante pruebas de hipótesis e interpretaciones gráficas como se ha explicado anteriormente. Estas pruebas usualmente se construyen reparametrizando el modelo factorial como un modelo de celdas, donde cada celta corresponde a un tratamiento que surge de la combinación de los niveles de los factores.

Diseños en bloques

24

Introducción

Cuando la UE que se disponen para realizar un experimento no son homogéneas, se debe reconocer el o los factores que pueden afectar a la respuesta de las distintas UE más allá de los tratamientos. Estas fuentes de variación deben ser contempladas en el diseño para disminuir el error experimental. Esto implica reconocer la estructura que tienen las UE. Esta estructura puede deberse a una variación local, espacial o temporal del material experimental. Cuando las UE no son homogéneas, pueden no reaccionar o responder a los tratamientos de la misma manera o con la misma capacidad debido a sus diferencias intrínsecas, hecho que puede ocurrir aún cuando las UE tengan el mismo aspecto. La forma tradicional de controlar la variación del material experimental en experiencias planificadas es formando grupos de UE homogéneas. Estos grupos o estratos, comúnmente llamados bloques, son de una naturaleza tal que las unidades experimentales dentro de un bloque, varían menos entre sí que entre los bloques. Reconocidos los grupos de UE homogéneas, los tratamientos, de ser posible, debieran compararse dentro de cada grupo. Así se elimina del error experimental la variabilidad debida a los bloques, aumentando en consecuencia la precisión de las comparaciones de las medias de tratamientos. Los criterios de bloqueo pueden deberse no sólo a las características relacionadas con las unidades experimentales sino también, en algunas circunstancias, a aquellas ligadas con la toma de información o la realización de los tratamientos. A las características relacionadas con las UE se las denomina naturales mientras que al resto se las llama inducidas. Por ejemplo, si tenemos un conjunto de UE homogéneas pero algunos subgrupos de este conjunto son manejados por distintos operarios, estos pueden introducir una fuente de variación en la respuesta (inducida). En este caso sería apropiado que cada operario trabaje con todos los tratamientos a comparar.Los bloques, a su vez, pueden ser fijos o aleatorios. En los dos casos, las hipótesis acerca de los tratamientos son las mismas, pero el espacio de inferencia es distinto. Distingamos la situación en que hay uno o más factores que particionan el conjunto de las unidades experimentales en subconjuntos, tal que la unidades experimentales de un mismo subconjunto o bloque sean homogéneas (más allá de los tratamientos) en relación a la respuesta observada.

EjemplosEn esta figura se observa que hay un efecto 'sombra' sobre el terreno, que determina que los bloques queden así delimitados.

25

Las unidades experimentales que conforman un bloque no necesariamente deben ser adyacentes, como se muestra a continuación:

Bloque 1

Bloque 1 Bloque 3Bloque 2

26

Estas curvas son llamadas de isofertilidad y se construyen uniendo puntos de igual rendimiento.Si los tratamientos son asignados respetando este tipo de estructura de parcelas de manera tal que cada tratamiento aparezca una vez en cada bloque, todos los tratamientos estén en todos los bloques y la aleatorización se los tratamientos a las UE se realice dentro de cada bloque, el diseño experimental se denomina diseño en bloques completos al azar (la aleatorización de los tratamientos se realiza en un bloque, y luego se repite el proceso en forma independiente en cada uno de los otros bloques).A modo de ejemplo, un arreglo posible en tres bloques para comparar 4 tratamientos denotados por A, B, C y D es el siguiente:

Bloque 1 B A D C

Bloque 2 C D A B

Bloque 3 C A D B

ModeloEl modelo para analizar un diseño en bloques completamente aleatorizados (DBCA) sin estructura factorial de tratamientos es:

yij = µ + τi + βj + εij

donde: yij es la respuesta del i-ésimo tratamiento en el j-ésimo bloque

B1

B1

B2

B3

20

23 2021

27

µ es la media general

τi es el efecto del i-ésimo tratamiento i = 1, ...,a

βj es el efecto del j-ésimo bloque j = 1, ...,b

εij es el término de error aleatorio.

Si se puede suponer que existe aditividad bloque-tratamiento y que los εij son

independientes e idénticamente distribuidos N (0, σ2) puede obtenerse una prueba exacta para la hipótesis de igualdad de medias de tratamientos.Las hipótesis que se somete a prueba en este tipo de diseños es, como en el diseño completamente aleatorizado a una vía de clasificación, establecida sobre la medias de las

poblaciones relacionadas a cada tratamiento (µi = µ + τi con i = 1, ... ,a):

H0 : µ1= µ2= , ... , =µa

H1 : Al menos un par de medias difiere

Observemos que a pesar de haber cambiado, respecto al diseño completamente aleatorizado, el diseño a nivel de la estructura de UE, las hipótesis que se contrastan en relación al efecto de tratamientos sigue siendo la misma. Algebraicamente, en el contexto del ANAVA, existe una forma conveniente de expresar la magnitud de la variabilidad debida a los bloques en el contexto de las otras fuentes de variación intervinientes:SCTotal = SCtratamiento + SCbloque + SCerrorEs decir que la suma de los desvíos cuadrados de cada observación con respecto a la media general puede ser particionada en tres sumas de cuadrados, una indicadora de las diferencias entre tratamientos: Suma de Cuadrados de Tratamientos (SCtratamiento), otra de la diferencia entre bloques: Suma de Cuadrados de Bloques (SCbloque) y otra que expresa la variación aleatoria de unidades experimentales que recibieron el mismo tratamiento después de descontar las variaciones debidas a las diferencias entre bloques, es decir el error experimental: Suma de Cuadrados del Error (SCerror).Si las diferencias entre unidades experimentales debidas al factor de bloqueo no es considerada, la Suma de Cuadrados de Bloques se adiciona a la Suma de Cuadrados del Error. Esto implica que el error experimental aumenta, que no es un indicador de la varianza innata de la respuesta, y como consecuencia se pierde eficiencia en la prueba de la hipótesis de interés.Si los tratamientos son considerados fijos, el valor esperado para el cuadrado medio de tratamientos es:

E [CMTrat.] = σ2 + b ∑ τi2

/ (a-1)

El valor esperado para el cuadrado medio del error (CMR) es σ2 y por tanto podemos construir un estadístico F a partir del cociente entre estos dos cuadrados medios que se utiliza para contrastar las hipótesis de interés.

28

Cuadro de Análisis de Varianza para el modelo correspondiente a un DBCA con un factor tratamiento

Fuente de Variación

Suma de Cuadrados Grados de Libertad

Cuadrado Medio

F

Tratamiento ( ) ( )2 2

. ..

1

a

i

i

Y YSCTrat

b ab== −∑ gltr=a-1

gltr

SCTratCMTrat =

CMTrat

CMD

Bloque ( ) ( )2 2

. ..

1

b

j

j

Y YSCBloque

a ab=

= −∑glbl=b-1

glbl

SCBloqCMBloq =

CMBloq

CMD

Error SCD=SCT-SCTrat-SCBloque gld=(a-1)(b-1) gld

SCDCMD =

Total ( ) 2

..2

1 1

a b

iji j

YSCT Y

ab= =

= −∑∑glt=a.b-1

Es importante resaltar que el supuesto de no-interacción entre bloques y tratamientos (conocido también como supuesto de aditividad es necesario para que el valor observado para el estadístico F en el experimento particular pueda ser evaluado usando la distribución F de Snedecor. Existen pruebas desarrolladas por Tukey y Mandel, conocidas como pruebas de no-aditividad, que permiten controlar formalmente el supuesto de aditividad.La comparación entre las medias de bloques, en general no es de interés: 1) porque por construcción se espera que sean diferentes; 2) porque en general no se asocian con cuestiones de interés, sólo responden a una estrategia para evaluar los tratamientos en forma más precisa. Debe recordarse también que la aleatorización fue realizada solo dentro de los bloques, se dice por ello que el bloqueo representa una restricción a la aleatorización.Algunos autores, como Anderson y McLean (1974) y Box, Hunter y Hunter (1978), argumentan que esa restricción de aleatorización impide que el estadístico pueda ser útil para inferir sobre diferencias entre medias de bloques. Lo que si suele usarse en los diseños en bloques es el cociente entre CMBloque y CMError como un indicador de la magnitud de las diferencias entre bloques, que puede ser usado para realizar sugerencias sobre la necesidad de bloqueo en experiencias futuras similares a la realizada.

Estimación de los parámetros de un modelo en bloques completos aleatorizadosEstimación de los parámetros de un modelo en bloques completos aleatorizadosLos parámetros del modelo se pueden estimar por el método de mínimos cuadrados. Para poder obtener una solución, se deben imponer algunas restricciones. Restricciones comúnmente usadas son:

1

ˆ 0a

ii

τ=

=∑

1

ˆ 0b

jj

β=

=∑Al imponer estas restricciones, se obtienen las siguientes soluciones:

29

..

. ..

. ..

ˆ

ˆ 1,...,

ˆ 1,...,

í i

j j

y

y y i a

y y j b

µτ

β

== − =

= − =podemos usar estas estimaciones de los parámetros, para estimar el valor esperado de cualquier observación y obtener así el valor ajustado de yij.

Luego,

.. . .. . ..

. . ..

ˆˆ ˆ ˆ

ˆ ( )+( )

ˆ

ij í j

ij i j

ij i j

y

y y y y y y

y y y y

µ α β= + +

= + − −

= + −El disponer de los valores ajustados (predichos) permite calcular los residuos para el modelo. Estos residuos se usarán para evaluar el cumplimiento de los supuestos que sustentan el análisis de la varianza clásico (MMI).

Verificación de supuestos Verificación de supuestos El análisis de los supuestos del MMI se realiza utilizando las técnicas descriptas anteriormente. En el caso del DBCA se agrega el supuesto de aditividad bloque-tratamiento.

Aditividad bloque-tratamiento:Como ya se mencionó con anterioridad la estructura de parcelas no debe interactuar con la estructura de tratamientos, es decir el efecto en este caso de los bloques debe ser aditivo. De no ser así, seria imposible hacer recomendaciones acerca de los tratamientos en forma independiente a los bloques. Existen pruebas formales para determinar la presencia de interacción bloque-tratamiento, entre ellas las propuestas por Mandel y por Tukey. Estas pruebas no siempre están disponibles en los Software Estadísticos, por lo que se puede recurrir a métodos gráficos de detección como se ve a continuación:

bloque 1 bloque 2 bloque 3

Con interacción bloque-tratamiento

bloque 1 bloque 2 bloque 3

1 2 3

tratamiento

9.50

13.50

17.50

21.50

25.50

res

pu

es

ta

bloque 1 bloque 2 bloque 3

Sin interacción bloque-tratamiento

bloque 1 bloque 2 bloque 3

1 2 3

tratamiento

9.50

16.00

22.50

29.00

35.50

res

pu

es

ta

30

Existe un diseño en bloques llamado DBCA generalizado en el cual los tratamientos se encuentran repetidos dentro de cada bloque. La existencia de repeticiones permite el agregado del término de interacción bloque-tratamiento en el modelo de manera tal de poder realizar la prueba de hipótesis de no interacción en forma directa.

Ejemplo de DBCA con estructura factorial de tratamientos más un testigo

En una fabrica que embala productos perecederos es de particular importancia la resistencia de los embalajes. El material de embalaje es plástico termocontraible y los productos envasados deben pasar por un horno a cierta temperatura para lograr que el envoltorio plástico se contraiga. La empresa ha estado embalando los productos con un método tradicional que no le ha dado los resultados esperados.

Decide entonces evaluar nuevos materiales de embalaje. En el mercado le ofrecen 2 nuevos materiales (N1 y N2) que, a diferencia del tradicional, requieren circulación de aire al entrar al horno. La velocidad de circulación del aire depende del tamaño de los productos a embalar, por lo que se decide probar 3 velocidades distintas para el ventilador (1000, 2000 y 3000 rpm). De la combinación de los factores: material, con 2 niveles, y velocidad del ventilador, con 3 niveles, surge una estructura factorial con 6 tratamientos. Para poder comparar objetivamente a los 6 tratamientos con el tratamiento tradicional, se coloca un testigo usando el plástico tradicional sin ventilador, razón por la cual resultan un total de 7 tratamientos.

Se decide hacer 3 repeticiones para la experiencia, pero como no se puede realizar todo el ensayo en un solo turno de trabajo, se hace una corrida del experimento en cada uno de los tres turnos, mañana, tarde y noche (M, T y N respectivamente). Si bien no interesa evaluar el factor turno, este se modela para descontar las posibles diferencias en la respuesta para cada uno de ellos, es decir se lo usa como factor de bloqueo.

La variable que se mide para evaluar los tratamientos es la resistencia del embalaje. Los datos están en el archivo embalaje.idb.

A continuación se presenta un ANAVA para un DBCA con estructura factorial de tratamientos, bajo el siguiente modelo:

Yijk=µ+Materiali+Velocidad+Material*Velocidadij+Turnok+εijk

Variable N R² R²Aj CV Resistencia 21 0.82 0.70 21.42

Modelo desbalanceado en celdas. Se presentan las sumas de cuadrado secuenciales (Tipo I).Para otra descomposición de la SC del modelo especifique los contrastes apropiados.

Cuadro de Análisis de la Varianza (SC Tipo I)

31

F.V. SC gl CM F Valor p Modelo 650.91 8 81.36 6.70 0.0019 Turno 127.32 2 63.66 5.25 0.0231 velocidad 89.20 3 29.73 2.45 0.1138 Material 206.89 1 206.89 17.05 0.0014 Velocidad*Material 227.49 2 113.75 9.37 0.0035 Error 145.63 12 12.14 Total 796.53 20

En el cuadro de ANAVA anterior se puede observar la leyenda modelo desbalanceado en celdas. Esto es debido a que además de la estructura factorial de tratamientos esta el agregado del testigo y el modelo resultante tiene celdas faltantes. Puede observarse en la definición de los tratamientos que las velocidades están en todos los materiales, pero no todos los materiales están en todas las velocidades.

Cuando existe este tipo de problemas, hay que definir los tratamientos y posteriormente realizar las comparaciones de interés mediante contrastes.

Puede verse además, que la interacción entre velocidad y material es significativa (p=0.0035), razón por la cual deberían realizarse contrastes para analizar la interacción.

Los 7 tratamientos del ejemplo pueden definirse como:

Testigo, N1V1, N1V1, N1V3, N2V1, N2V2 y N3V3.

El modelo reparametrizado es:

Yij=µ+Tratamientoi+Turnoj+εij

A partir de este modelo se obtiene el siguiente cuadro de ANAVA:

Análisis de la varianza

Variable N R² R²Aj CV resistencia1 21 0.82 0.70 21.42

Cuadro de Análisis de la Varianza (SC Tipo III) F.V. SC gl CM F Valor p Modelo 650.91 8 81.36 6.70 0.0019 tratamiento 523.58 6 87.26 7.19 0.0020 Turno 127.32 2 63.66 5.25 0.0231 Error 145.63 12 12.14 Total 796.53 20

Se concluye que hay efecto de tratamientos (p=0.0020). Si bien la hipótesis sobre efecto turno no es de interés y por las restricciones a la aleatorización que implica el hecho de que los tratamientos se asignaron al azar dentro de cada turno la prueba F para turno no es valida, no obstante, a partir del valor p=0.0231 se puede inferir que la inclusión de este factor de bloqueo fue pertinente.

32

A continuación se presentan los contraste ortogonales de interés. El primero contrasta el testigo versus el promedio del resto de los tratamientos, y como no resultó significativo (p=0.2886) no hay evidencias para rechazar esta hipótesis.

El segundo contraste compara el promedio del material N1 con el promedio del material N2 y resulto significativo (p=0.0014).

Los contrastes 3 y 4 prueban la hipótesis sobre tendencia lineal y cuadrática de resistencia en función de velocidad del aire respectivamente. Existe tendencia lineal (p=0.0357) pero no cuadrática (p=0.4834).

Los contrastes 5 y 6 son los contraste que descomponen la suma de cuadrados de la interacción velocidad*material (con solo los materiales nuevos). El contraste 5 es para probar la igualdad de tendencia lineal entre los materiales y se concluye que las tendencias lineales son diferentes en los materiales nuevos (p=0.0186). El contraste 6 hace lo propio para la tendencia cuadrática entre los materiales y se concluye que las tendencias cuadráticas son diferentes en los materiales nuevos (p=0.0186).

Contrastestratamiento SC gl CM F Valor p Contraste1 14.96 1 14.96 1.23 0.2886 Contraste2 206.89 1 206.89 17.05 0.0014 Contraste3 67.89 1 67.89 5.59 0.0357 Contraste4 6.35 1 6.35 0.52 0.4834 Contraste5 89.83 1 89.83 7.40 0.0186 Contraste6 137.66 1 137.66 11.34 0.0056 Total 523.58 6 87.26 7.19 0.0020

Coeficientes de los contrastestratamiento Cont. 1 Cont. 2 Cont. 3 Cont. 4 Cont. 5 Cont. 6 testigo -6.00 0.00 0.00 0.00 0.00 0.00V1N1 1.00 1.00 -1.00 1.00 -1.00 1.00V1N2 1.00 -1.00 -1.00 1.00 1.00 -1.00V2N1 1.00 1.00 0.00 -2.00 0.00 -2.00V2N2 1.00 -1.00 0.00 -2.00 0.00 2.00V3N1 1.00 1.00 1.00 1.00 1.00 1.00V3N2 1.00 -1.00 1.00 1.00 -1.00 -1.00

El siguiente gráfico sirve para visualizar los hallazgos:

33E N1 N2

0 1000 2000 3000

Velocidad

5

10

15

20

25

Re

sis

ten

cia

E N1 N2

Se recomienda el uso del material N1 con la velocidad 2000.

Más allá de los resultados y conclusiones para este ejemplo, es importante visualizar que a partir de la partición en contrastes ortogonales realizada en el último análisis, se puede reconstruir la tabla de análisis de varianza presentada en primer término (modelo de efectos e interacciones) como se muestra a continuación:

Cuadro de Análisis de la Varianza F.V. SC gl CM F Valor p Modelo 650.91 8 81.36 6.70 0.0019Turno 127.32 2 63.66 5.25 0.0231 tratamiento 523.58 6 87.26 7.19 0.0020

c1(testigo Vs.Resto) 14.96 1 14.96 1.23 0.2886Material (c2) 206.89 1 206.89 17.05 0.0014velocidad 74.24 2 37.12 3.06 0.0844

Lineal (c3) 67.89 1 67.89 5.59 0.0357Cuad. (c4) 6.35 1 6.35 0.52 0.4834

Velocidad*Material 227.49 2 113.75 9.37 0.0035Lin*mat (c5) 89.83 1 89.83 7.40 0.0186Cuad*mat (c6) 137.66 1 137.66 11.34 0.0056

Error 145.63 12 12.14 Total 796.53 20

Verificación de los supuestos

Al tener los tratamientos una estructura factorial, para el análisis de los supuestos es conveniente obtener los residuos y predichos desde el modelo reparametrizado con efectos de tratamiento y bloque:

Yij=µ+Tratamientoi+Turnoj+εij

Con los residuos y predichos de este modelo se obtuvieron los siguientes resultados:

345.18 10.90 16.62 22.34 28.07

PRED_resistencia

-7.93

-4.43

-0.93

2.57

6.07

RD

UO

_re

sis

ten

cia

-7.29 -4.11 -0.93 2.25 5.43

Cuantiles de una Normal(1.6521E-17,7.2813)

-7.29

-4.11

-0.93

2.25

5.43

Cu

an

tile

s o

bs

erv

ad

os

(RD

UO

_re

sis

ten

cia

)

n= 21 r= 0.963 (RDUO_resistencia)

Shapiro-Wilks (modificado)

Variable n Media D.E. W* p (una cola) RDUO_resistencia 21 0.00 2.70 0.96 0.7850

Análisis de la varianza (Prueba de Levene)

Variable N R² R²Aj CV RABS_resistencia 21 0.77 0.62 63.88

Cuadro de Análisis de la Varianza (SC Tipo III) F.V. SC gl CM F Valor p Modelo 56.69 8 7.09 5.06 0.0063 Turno 3.74 2 1.87 1.33 0.2997 tratamiento 52.95 6 8.83 6.30 0.0035 Error 16.81 12 1.40 Total 73.51 20

No hay evidencias para rechazar el supuesto distribucional (Shapiro-Wilks, p=0.7850).

La prueba de Levene indica que las varianzas no son homogéneas (p=0.0035). En este caso quedan dos opciones: si los resultados dejan conforme al investigador, en el sentido que puede confirmar las hipótesis que se planteó a priori, puede informarse como esta; si por el contrario el investigador esperaba encontrar resultados diferentes a los encontrados, se debería probar con una transformación o usar mínimos cuadrados ponderados.

Por último, se muestra un gráfico para evaluar aditividad bloque-tratamiento, en el que no se evidencia un comportamiento para sospechar de la falta de aditividad.

35

resistencia-M resistencia-N resistencia-T

testigo V1N1 V2N1 V3N1 V1N2 V2N2 V3N2

tratamiento

5.47

12.04

18.62

25.19

31.76

res

iste

nci

a

resistencia-M resistencia-N resistencia-T

Experimentos Multifactoriales con restricciones a la aleatorización

Cuando se tiene una estructura factorial de tratamientos y los tratamientos que la conforman no pueden ser asignados al azar en las UE, surgen los experimentos con restricciones a la aleatorización. Estas restricciones deben imponerse ya sea por cuestiones operativas o por la naturaleza de los factores. En función del momento y la forma de imponer las restricciones a la aleatorización, y de la forma en que se relacionan los factores en estudio, surgen los diseños conocidos como en parcelas Divididas, donde los factores están totalmente cruzados, y los diseños Encajados (también conocidos como jerárquicos o anidados) donde los niveles de un factor están dentro de los niveles del otro factor.

Ejemplo

Se desea evaluar el efecto que tiene la fecha de siembra en distintas variedades de Soja sobre el rendimiento del cultivo. El factor fecha de siembra tiene 3 niveles (F1, F2 y F3) mientras que el efecto variedad tiene 5 niveles (V1, …, V5).

Supongamos que el terreno disponible para el ensayo es totalmente homogéneo en cuanto a aquellos factores que afectan al rendimiento. En este caso, se podría hacer un diseño completamente aleatorizado con estructura factorial de tratamientos y si se realizan tres repeticiones por tratamiento, un arreglo posible sería el siguiente:

F1V4 F3V1 F2V4 F3V5 F1V2

F1V3 F2V2 F1V4 F1V1 F3V1

F3V4 F2V5 F3V2 F2V3 F3V2

F2V5 F1V1 F1V3 F3V4 F2V2

F1V5 F2V1 F3V5 F3V5 F1V5

F3V1 F3V4 F1V2 F3V3 F2V4

F1V2 F3V2 F3V3 F2V4 F2V5

F3V3 F2V3 F2V3 F1V3 F2V2

F2V1 F1V5 F2V1 F1V1 F1V4

El problema con este experimento completamente aleatorizado es que al sembrar en distintas fechas se hace muy difícil de manejar. La maquina sembradora es poco maniobrable y se debe entrar con ella en el ensayo en tres momentos diferentes. En la figura anterior se han señalado las parcelas con fecha de siembra 1 (F1Vj, j=1,…,5) y se puede observar el intrincado camino a realizar para realizar la siembra.

Si el terreno no fuera homogéneo y podemos distinguir por ejemplo tres bloques de unidades experimentales homogéneas, podría haberse utilizado un diseño en bloque completamente aleatorizados con estructura factorial de tratamientos, y una disposición podría ser:

36

F2V1 F3V1 F2V4 F3V5 F1V4

F1V3 F2V2 F1V5 F1V2 F3V3 Bloque 1

F1V1 F2V5 F3V2 F2V3 F3V4

F2V5 F1V1 F1V3 F3V1 F2V2

F1V4 F2V1 F3V2 F3V5 F1V5 Bloque 2

F2V3 F3V4 F1V2 F3V3 F2V4

F1V2 F3V2 F3V4 F2V4 F3V5

F3V3 F2V3 F2V5 F1V3 F2V2 Bloque 3

F2V1 F1V5 F3V1 F1V1 F1V4

En cualquiera de estos diseños, el DCA y el DBCA, se tiene el problema de que dentro de una determinada fecha de siembra, las UE a sembrar que están “desordenadas” en el espacio.

Una solución para este problema es imponer restricciones a la aleatorización de manera tal que todas las UE de una misma fecha de siembra queden agrupadas. Este tipo de restricciones a la aleatorización conduce a los diseños en parcelas divididas o a los diseños anidados dependiendo de cómo se realiza la restricción.

Diseño en parcelas divididas en bloques completos aleatorizados

Supongamos para el ejemplo de las fechas de siembra y variedades que se cuenta con un terreno como el mostrado en la segunda figura (DBCA).

El diseño bifactorial en parcelas divididas con estructura de parcelas en bloques completos aleatorizados consiste en imponer las siguientes restricciones:

1) La primer restricción es impuesta por el bloqueo de las UE, es decir, los tratamientos están en todos los bloques

2) La segunda restricción consiste en dividir cada bloque en lo que se denomina parcelas principales (PP). En nuestro ejemplo, como el problema eran las distintas fechas de siembra, se divide el bloque en tres PP, y en cada una de ellas se aleatoriza una fecha de siembra.

Cada PP tiene tantas UE de menor tamaños como niveles tiene el segundo factor, en este caso la variedad, con 5 niveles. Estas UE son comúnmente denominadas subparcela (SP). Por último, dentro de cada PP se aleatorizan las variedades en las SP, es decir no hay restricciones a este nivel.

Para el ejemplo, un esquema experimental posible sería:

37

F2V1 F2V4 F2V5 F2V3 F2V2 PP1

F1V3 F1V2 F1V5 F1V1 F1V4 PP2

Bloque 1

F3V1 F3V5 F3V2 F3V3 F3V4 PP3

F1V5 F1V1 F1V3 F1V2 F1V4 PP1

F3V4 F3V1 F3V2 F3V5 F3V3 PP2

Bloque 2

F2V3 F2V4 F2V2 F2V5 F2V1 PP3

F1V2 F1V3 F1V4 F1V1 F1V5 PP1

F3V3 F3V1 F3V5 F3V4 F3V2 PP2

Bloque 3

F2V1 F2V5 F2V3 F2V2 F2V4 PP3

Se puede observar que cada uno de los bloques contiene las tres fechas de siembra en las PP y en cada PP están aleatorizadas las variedades. Las PP tienen un tamaño mayor que las subparcelas, motivo por el cual a estos tipos de diseño se los conoce también como diseños con UE de distintos tamaños.

Al imponer restricciones a la aleatorización, el modelo de análisis cambia y debido a que las esperanzas de los cuadrados medios se ven afectadas por esta restricción, para cada factor en el modelo se debe construir la prueba F con el término de error adecuado.

El modelo para un diseño en parcelas divididas en bloque completos aleatorizados con estructura bifactorial de tratamientos es, para el ejemplo, el siguiente:

Yijk=µ+Fechai+Bloquek+ Fechai*Bloquek + Variedadj + Variedadj*Bloquek + Fechai*Variedadj + εijk

Para evaluar el efecto Fecha se usa como término de error la interacción Fecha*Bloque que es conocida como error A.

Para evaluar los efectos Variedad, Variedad*Bloque y Fecha*Variedad, se usa el término de error corriente (error experimental), en este contexto llamado error B.

El efecto de la interacción Variedad*Bloque debe ser nulo, ya que la estructura de parcelas no debe interactuar con la de tratamientos (supuesto de aditividad). Este término puede entonces colocarse para contrastar esta hipótesis. Algunos autores sugieren que luego de verificar el supuesto de aditividad, este término puede eliminarse del modelo, aumentando

38

de esa forma los grados de libertad para el contraste de las hipótesis sobre Variedades y Variedad*Fecha.

En los diseños en Parcelas Divididas, el factor que se asigna en las PP, en este caso Fecha, se contrasta con menor precisión que el asignado a las SP, en este caso variedad.Este tipo de diseño se puede generalizar a más de dos factores, agregando las restricciones correspondientes. Si se utilizan 2 restricciones a la aleatorizacion, además de la correspondiente a Bloque si lo hubiere, se dice que el diseño es en parcelas subdivididas.

En este caso, aparece un nuevo término de error, por lo cual los términos de error son tres. Comúnmente se los denomina A, B y C, siendo este último el error experimental.

Los datos para el ensayo de fechas y variedades en un diseño en parcelas divididas en bloques completos aleatorizados están en el archivo variedadesPDB.idb.

Los resultados del análisis de varianza se presentan a continuación:

Análisis de la varianza

Variable N R² R² Aj CV Rendimiento 45 0.97 0.92 6.27

Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F valor p (Error) Modelo 1970.77 28 70.38 19.64 <0.0001 Fecha 364.88 2 182.44 50.27 0.0015 (Bloque*Fecha)Bloque 1369.56 2 684.78 191.04 <0.0001 Bloque*Fecha 14.52 4 3.63 1.01 0.4302 Variedad 140.41 4 35.10 9.79 0.0003 Bloque*Variedad 49.59 8 6.20 1.73 0.1671 Fecha*Variedad 31.83 8 3.98 1.11 0.4066 Error 57.35 16 3.58 Total 2028.13 44

Test:Duncan Alfa:=0.05Error: 3.6290 gl: 4Fecha Medias n 1.00 27.12 15 A 3.00 29.54 15 B 2.00 33.99 15 C Letras distintas indican diferencias significativas(p<= 0.05)

Test:Duncan Alfa:=0.05Error: 3.5844 gl: 16Variedad Medias n 1.00 28.05 9 A 2.00 28.06 9 A 4.00 31.60 9 B 5.00 31.66 9 B 3.00 31.71 9 B Letras distintas indican diferencias significativas(p<= 0.05)

39

En primer lugar se examina la interacción Fecha*Variedad. Al ser no significativa (p=0.4066) se pueden evaluar los efectos de Fecha y Variedad por separado. Hay efecto de Variedad y (p=0.0003) y de Fecha (p=0.0015).

De acuerdo a la prueba de comparaciones múltiples de medias de Duncan se recomienda la fecha 2 y las variedades 3, 4 o 5 indistintamente.

Diseño en parcelas divididas completamente aleatorizado

Este mismo ensayo del ejemplo se puede realizar sobre un conjunto de UE homogéneas. Se prepara un conjunto de PP (en este caso 9, tres fechas con tres repeticiones por fe fecha) y sobre ellas se aleatorizan las fechas. Posteriormente se aleatorizan las variedades en las SP dentro de cada PP. Un esquema posible para el ejemplo con este tipo de experimento es:

F3V4 F3V1 F3V2 F3V5 F3V3

F1V3 F1V2 F1V4 F1V1 F1V5

F3V4 F3V5 F3V2 F3V3 F3V1

F2V5 F2V1 F2V3 F2V4 F2V2

F1V5 F1V1 F1V4 F1V3 F1V2

F3V1 F3V4 F3V2 F3V3 F3V5

F2V2 F2V1 F2V3 F2V4 F2V5

F1V3 F1V5 F1V2 F1V4 F1V1

F2V1 F2V5 F2V3 F2V2 F2V4

Se puede observar que ahora las fechas y sus repeticiones están completamente aleatorizadas en las PP.

El modelo para un diseño en parcelas divididas completamente aleatorizado con estructura bifactorial de tratamientos es, para el ejemplo, el siguiente:

Yijk=µ+Fechai+Repetición(Fecha)k(i) + Variedadj + Fechai*Variedadj + εijk

Las Repeticiones deben declararse para poder obtener el efecto de Repeticiones dentro de fechas (repeticiones(fechas)). El cuadrado medio de este efecto es usado como término de error para evaluar el efecto de Fecha (error A). El resto de los efectos de interés, Variedad y Variedad*Fecha, se contrastan con el error experimental (error B).

Para los datos del ejemplo, que se encuentran en el archivo variedadesDPDCA.idb, se obtiene los siguientes resultados:

Variable N R² R² Aj CV Rendimiento 45 0.82 0.66 8.33

Cuadro de Análisis de la Varianza (SC tipo III)

40

F.V. SC gl CM F valor p (Error) Modelo 636.66 20 31.83 5.30 0.0001 Fecha 346.24 2 173.12 30.50 0.0007 (Fecha>Repeticiones)Fecha>Repeticiones 34.05 6 5.68 0.94 0.4821 Variedad 161.01 4 40.25 6.70 0.0009 Variedad*Fecha 95.36 8 11.92 1.98 0.0929 Error 144.17 24 6.01 Total 780.83 44

Test:Duncan Alfa:=0.05Error: 5.6757 gl: 6Fecha Medias n 1 26.63 15 A 3 28.46 15 A 2 33.21 15 B Letras distintas indican diferencias significativas(p<= 0.05)

Test:Duncan Alfa:=0.05Error: 6.0070 gl: 24Variedad Medias n 1 27.03 9 A 2 27.68 9 A B 4 29.63 9 B C 3 30.67 9 C D 5 32.17 9 D Letras distintas indican diferencias significativas(p<= 0.05)

En primer lugar se examina la interacción Fecha*Variedad. Al ser no significativa (p=0.0929) se pueden evaluar los efectos de Fecha y Variedad por separado. Hay efecto de Variedad y (p=0.0009) y de Fecha (p=0.0007).

De acuerdo a la prueba de comparaciones múltiples de medias de Duncan se recomienda la fecha 2 y las variedades 3 o 5 indistintamente.

Diseño encajado o anidado

Siguiendo con el ejemplo, supongamos que las 5 variedades que están en una fecha no son las mismas que están en las otras. Esto es razonable ya que en soja hay variedades de ciclo corto, variedades de ciclo intermedio y de ciclo largo. Esto implica que a las variedades, en vez de indicarlas como V1,…,V5, las podríamos haber llamado V1,…,V15. Toda vez que se pueda indicar como en el segundo caso, decimos que estamos en presencia de un arreglo encajado. En este tipo de diseños no es de interés estudiar la interacción ya que los niveles del factor encajado son distintos dentro de cada uno de los factores donde se encajan. En nuestro ejemplo, si hay distintas variedades en cada fecha de siembra, se tiene un diseño encajado con los factores Fecha y Variedad dentro de Fecha.El modelo para el ejemplo es:

Yijk=µ+Fechai +Variedad(Fecha)j(i) + εijk

41

Considerando la fecha y las variedades como fijas, los efectos de Fecha y Variedad(fecha) se contrastan usando el cuadrado medio del error experimental.Haciendo el análisis de varianza para los datos del archivo se obtienen los siguientes resultados:

Análisis de la varianza

Variable N R² R² Aj CV Rendimiento 45 0.77 0.67 8.28

Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F valor p Modelo 602.61 14 43.04 7.25 <0.0001 Fecha 346.24 2 173.12 29.14 <0.0001 Fecha>Variedad 256.36 12 21.36 3.60 0.0022 Error 178.22 30 5.94 Total 780.83 44

Test:Duncan Alfa:=0.05Error: 5.9408 gl: 30Fecha Medias n 1 26.63 15 A 3 28.46 15 B 2 33.21 15 C Letras distintas indican diferencias significativas(p<= 0.05)

Test:Duncan Alfa:=0.05Error: 5.9408 gl: 30Fecha Variedad Medias n 1 2 23.56 3 A 3 1 25.53 3 A B 1 4 26.57 3 A B 1 1 26.90 3 A B 1 3 27.23 3 A B 3 4 28.58 3 B 2 1 28.66 3 B 3 3 28.87 3 B 1 5 28.89 3 B 3 2 29.44 3 B C 3 5 29.88 3 B C 2 2 30.03 3 B C 2 4 33.74 3 C D 2 3 35.90 3 D 2 5 37.73 3 D Letras distintas indican diferencias significativas(p<= 0.05)

Se observa que hay efecto de fecha (p<0.0001) y efecto de variedad dentro de fecha (p=0.0022). Se recomienda a partir de la prueba de Duncan, la fecha 2, y dentro de esta, las variedades 3, 4, o 5.

42

Si se hubiera considerado la Fecha de siembra como aleatoria, el modelo de análisis es el mismo, pero cambian las esperanzas de los cuadrados medios y por ende la construcción de las pruebas F. En este caso, si la fecha es aleatoria, su variabilidad debe evaluarse usando el cuadrado medio de Variedad(fecha) como término de error. Los resultados para un análisis con fecha como aleatoria y variedad como fija se muestran a continuación:

Análisis de la varianza

Variable N R² R² Aj CV Rendimiento 45 0.77 0.67 8.28 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F valor p (Error) Modelo 602.61 14 43.04 7.25 <0.0001 Fecha 346.24 2 173.12 8.10 0.0059 (Fecha>Variedad)Fecha>Variedad 256.36 12 21.36 3.60 0.0022 Error 178.22 30 5.94 Total 780.83 44

Test:Duncan Alfa:=0.05Error: 5.9408 gl: 30Fecha Variedad Medias n 1 2 23.56 3 A 3 1 25.53 3 A B 1 4 26.57 3 A B 1 1 26.90 3 A B 1 3 27.23 3 A B 3 4 28.58 3 B 2 1 28.66 3 B 3 3 28.87 3 B 1 5 28.89 3 B 3 2 29.44 3 B C 3 5 29.88 3 B C 2 2 30.03 3 B C 2 4 33.74 3 C D 2 3 35.90 3 D 2 5 37.73 3 D Letras distintas indican diferencias significativas(p<= 0.05)

Como la fecha se consideró aleatoria, las hipótesis que se prueban sobre ella son:

H0: La varianza de las fechas es igual a ceroH1: La varianza de las fechas es distinta de cero

La hipótesis de varianza de fechas igual a cero se rechaza (p=0.0059). Se siguen recomendando las variedades 3, 4, o 5 en la fecha 2.

43

Introducción al análisis de la covarianza

El análisis de la covarianza combina las técnicas del ANAVA con regresión y se usa como una practica de control local para reducir el error experimental y aumentar la precisión de la estimación de las medias de tratamiento y las pruebas de hipótesis.

La técnica del análisis de covarianza (ANCOVA) consiste en realizar un análisis de varianza con la inclusión de una o mas variables regresoras.Las variables regresoras son conocidas en este contexto como variables concomitantes o covariables. Las covariables son variables medidas sobre cada una de las unidades experimentales. Si bien la medida mas generalizada para el control local o control de la variabilidad de las UE es el uso de bloques, salvo raras excepciones estos deben definirse antes de comenzar el ensayo, en cambio las covariables pueden medirse en cualquier momento durante el experimento. Por otra parte puede ocurrir a veces que el número de UE disponibles para cada nivel del factor de bloqueo sea insuficiente para realizar todos los tratamientos. En estos casos, se puede recurrir a bloques incompletos o al control del factor de bloqueo por una covariable.Otro caso donde las covariables toman relevancia es cuando hay varios factores de bloqueo y la estructura de las UE es compleja, determinando un modelo de análisis con muchas restricciones que se puede tornar ineficiente. La inclusión de una covariable para controlar un factor solo lleva 1 grado de libertad por factor. En cambio, los factores de bloqueo requieren de b-1 grados de libertad cada uno, con b igual al número de bloques.

ModeloEl modelo para una análisis de covarianza con una covariable en un DCA tiene la siguiente expresión:

Yij =µ + τi + β(Xij- X ) + εij , con i=1,...,a y j=1,..,ni

donde:

Yij es la j-ésima respuesta observada en el i-ésimo tratamiento

µ es la media poblacional de la variable respuesta

τi es el efecto del i-ésimo tratamiento

44

β es el coeficiente de regresión promedio de las regresiones de Y sobre X en cada uno de los a tratamientos

Xij es el valor de la covariable en el i-ésimo tratamiento y la j-ésima repetición

X es el valor promedio de la covariable en todo el ensayo.

εij es un termino de error aleatorio. Bajo los supuestos del modelos de muestreo ideal, los términos de error asociados a cada una de las observaciones se suponen independientemente distribuidos, normales, con esperanza 0 y varianza σ2 ∀i,j (Varianza constante).

Las estimaciones de β son correctas bajo la suposición de que las pendientes de las regresiones para cada tratamiento son iguales. Otra suposición importante en análisis de covarianza es que la/s covariable/s no interactuen con los tratamientos y que exista una relación lineal entre la respuesta y la covariable.Al ser la covariable independiente de los tratamientos, para obtener soluciones solo es necesario imponer la restricción usual:

0iτ =∑Para realizar comparaciones de medias de tratamiento estas deben ser previamente ajustadas por la covariable:

( )( )ˆ

i ajustada i iY Y X Xβ= − −

donde( ) ( )

( )1 1

2

1 1

ˆ

a n

ij i ij ii j

a n

ij ii j

X X Y Y

X Xβ = =

= =

− −=

∑∑

∑∑

y su error estándar es:

( ) 2

( )

( )i

i

Y ajustadoi

X XCMR

n SCresidual Xσ

− = +

Luego, las hipótesis que se contrastan en el ANCOVA de efectos fijos se realizan sobre las medias ajustadas y pueden expresarse como: H0: µ1(aj) = µ2(aj) = ...= µa(aj) versus H1: Al menos un par de medias ajustadas difiereO alternativamente como:H0: τ1(aj) = τ2(aj) = ...= τa(aj)=0 versus H1: Al menos un τi(aj) ≠0

45

EjemploRecordando el ejemplo de una panadería que desea probar 4 temperaturas de horneado de pan (100, 130, 160 y 190 ºC) con el fin de verificar si existen diferencias en el volumen del pan obtenido. Para hacer la prueba se amasó el pan y se formaron 16 bollos. Cada uno de los bollos fue asignado al azar a una de las temperaturas. Luego se aleatorizó el orden de las temperaturas del horno y después del horneado se midió el volumen del pan obtenido (cm3). Los datos están en el archivo pan.idb. En este ejemplo, la unidad experimental es el bollo de pan. Estos se realizan a mano y en forma artesanal, razón por la cual es de pensar que no todos los bollos tengan el mismo pero al entrar al horno. Si las UE son variables y no se tiene en cuenta esta variación, esto se traduce en un aumento de los residuos. Se realizó un ANAVA a una vía de clasificación (DCA) usando el peso del bollo como covariable y se obtuvo la siguiente tabla:

Análisis de la varianzaVariable N R² R²Aj CV vol 16 0.97 0.96 0.70

Cuadro de Análisis de la Varianza (SC Tipo III) F.V. SC gl CM F Valor p Coef Modelo 15283.06 4 3820.76 92.79 <0.0001 Temperatura 7110.00 3 2370.00 57.56 <0.0001 peso 6062.56 1 6062.56 147.23 <0.0001 2.07Error 452.94 11 41.18 Total 15736.00 15

A partir de los resultados se concluye que hay efecto de temperatura (p<0.0001) y de la covariable peso (p<0.0001). El cuadrado medio residual, que ahora es de 41.18, tenia un valor de 542.96 en el ANAVA sin la covariable peso (es decir, el estimador de varianza se ha visto reducido a menos del 10% de su valor original!!).También se pueden observar cambios en las pruebas de comparaciones de medias. Antes del ajuste por la covariable, la prueba de Tukey arrojaba los siguientes resultados:

Test : Tukey Alfa: 0.05 DMS: 48.92143Error: 542.9583 gl: 12Temperatura Medias n 100 890.00 4 A 190 910.25 4 A B 160 944.00 4 B 130 947.75 4 B

Luego del ajuste por la covariable con la prueba de Tukey se obtiene:

Test : Tukey Alfa: 0.05 DMS: 15.25938Error: 41.1765 gl: 11Temperatura Medias n 100 896.74 4 A 190 907.66 4 A 160 940.89 4 B 130 946.71 4 B

Por un lado, la DMS paso de 48.9 a 15.2, y por el otro, las medias de tratamiento han cambiado, debido a que en el segundo análisis son medias de tratamiento ajustadas por la covariable.

46

Validación del modelo:Además de los supuestos del MMI, para que el análisis de covarianza sea valido se debe verificar :Los tratamientos no afectan a la covariable (no interacción).

Si los tratamientos afectan a la covariable X al igual que a la variable respuesta Y, la respuesta resultante es multivariada y no puede realizarse un ANCOVA ya que el ajuste de las medias de tratamiento no es adecuado. En estos casos se debe realizar un análisis multivariado para la respuesta bivariada (X,Y).El ajuste por covariables es adecuado si esta se mide antes de aplicar el tratamiento, de manera tal que estos no tengan la posibilidad de afectar su valor. Si en cambio la covariable se mide junto con la respuesta o en cualquier momento luego de aplicados los tratamientos, se deberá suponer la no interacción para que el ajuste de las medias de tratamiento por la covariable sea adecuado. En el ejemplo de la panadería, el peso del bollo fue medido antes de aplicar los tratamientos de temperaturas, por lo cual este no pudo afectarlos. Pero si en ves de medir el peso del bollo se hubiera medido el peso del pan obtenido luego del horneado, es posible que esta covariable haya sido afectada por los tratamientos, ya que es de suponer que a mayor temperatura mayor deshidratación y por consecuencia menor peso del pan. En este caso, el tratamiento afectó a la covariable y esta no debe ser usada como tal. 1) Existe una relación lineal entre la variable respuesta y la covariable.

Para verificar este supuesto se puede hacer un gráfico o un análisis de regresión. Con los datos del ejemplo de la panadería se obtienen los siguiente resultados:

185.50 193.75 202.00 210.25 218.50

peso

865

897

929

960

992

PRED_vol

Análisis de regresión linealVariable N R² R²Aj vol 16 0.52 0.49

Coef. Est. E.E. LI(95%) LS(95%) T Valor p CpMallows const 451.84 121.27 191.74 711.94 3.73 0.0023

47

peso 2.36 0.61 1.06 3.66 3.89 0.0016 15.19

Tabla de análisis de la varianza SC Tipo III FV SC gl CM F Valor p Modelo 8173.06 1 8173.06 15.13 0.0016peso 8173.06 1 8173.06 15.13 0.0016Error 7562.94 14 540.21 Total 15736.00 15

Se puede observar que hay una regresión lineal significativa (p=0.0016) entre volumen del pan y peso del bollo.

Es importante notar que en el análisis anterior no se removió el efecto de los tratamientos, que como ya se vio en el primer análisis es significativo. La no remoción de este efecto puede llevar a no rechazar la hipótesis de coeficiente de regresión igual a cero cuando esta es falsa. Si se tiene alguna duda al respecto, se puede realizar un ANAVA con efectos de tratamiento únicamente y sobre los residuos de ese modelo (que ya tienen removido el efecto de tratamiento) realizar la prueba del supuesto de linealidad. A continuación se muestra este análisis para los datos de la panadería.

185.50 193.75 202.00 210.25 218.50

peso

-32.55

-13.02

6.50

26.02

45.55

PRED_RDUO_vol1

Análisis de regresión linealVariable N R² R²Aj RDUO_vol 16 0.89 0.89

Coeficientes de regresión y estadísticos asociadosCoef. Est. E.E. LI(95%) LS(95%) T Valor p CpMallows const -397.63 36.75 -476.44 -318.82 -10.82 <0.0001 peso 1.99 0 .18 1.60 2.38 10.83 <0.0001 110.61

Tabla de análisis de la varianza SC Tipo III FV SC gl CM F Valor p Modelo 5821.13 1 5821.13 117.37 <0.0001peso 5821.13 1 5821.13 117.37 <0.0001Error 694.37 14 49.60 Total 6515.50 15

48

Puede verse como ha mejorado el ajuste haciendo la regresión de los residuos de volumen versus peso. Ahora el valor de R2 paso de 0.52 a 0.89 y el valor p para la pendiente de 0.0016 a <0.0001.

El coeficiente de regresión β es el mismo para todos los grupos de tratamiento.

Las comparaciones entre las medias de tratamiento ajustadas son independientes de la covariable si las líneas de regresión para cada uno de los tratamientos son paralelas. Si esto no ocurre, se debe ajustar de manera diferencial a las medias de cada tratamiento. En este caso el modelo de análisis es:

Yij =µ + τi + βi(Xij- X ) + εij , con i=1,...,a y j=1,..,ni

donde:

βi es el coeficiente de regresión de Y sobre X en el i-ésimo tratamiento

( )( )ˆ

i ajustada i i ij iY Y X Xβ= − −

donde ( ) ( )

( )1

2

1

ˆ

n

ij i ij ij

i n

ij ij

X X Y Y

X Xβ =

=

− −=

( ) 2

( )

( )i

i

Y ajustadoi

X XCMR

n SCresidual Xσ

− = +

Este supuesto se puede verificar en forma gráfica o mediante pruebas formales. Para los datos del archivo pan.idb se obtiene el siguiente gráfico:

vol-100 vol-130

vol-160 vol-190

186 194 202 210 219

peso

869

899

929

959

990

Vol

vol-100 vol-130

vol-160 vol-190

En el gráfico se puede ver que no hay una falta de paralelismo muy marcada, por lo tanto se puede pensar en una única pendiente de regresión para ajustar las medias de los tratamientos.

49

Los supuestos del MMI se prueban sobre los residuos, que en el caso del análisis de covarianza para un DCA tienen la siguiente forma:

( )ˆij ij i ij ie Y Y X Xβ= − − −

En general, los supuestos del MMI en ANCOVA son evaluados con las mismas técnicas gráficas y/o probabilísticas usadas en ANAVA. Por ultimo, la técnica de análisis de covarianza puede extenderse a todos los diseños y arreglos factoriales mas comunes sin mayores complicaciones. Por ejemplo, en el caso de un diseño en BCA con una covariable, el modelo resultante es:

Yij =µ + τi + ρj + β(Xij- X ) + εij , con i=1,...,a y j=1,..,b

Donde ρj es el efecto del j-ésimo bloque

50