resumen y, - uhu.es
TRANSCRIPT
Anaacutelisis y Modificacioacuten de Conducta 2006 Vol 32 Nfl 141
AMENAZAS A LA VALIDEZ ANALiacuteTICA DE LAS TEacuteCNICAS USADAS HABITUALMENTE EN LA EVALUACiOacuteN DE
PROGRAMAS
Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
Universidad de Oviedo
RESUMEN
Teacutecnicas basadas en el modelo lineal general son frecuenshytemente recomendadas para el anaacutelisis de datos obtenidos desde disentildeos cuya particularidad maacutes relevante es la asignashycioacuten de grupos intactos a las condiciones investigacioacuten A pesar del apoyo que tradicionalmente tan recibido estos procedimienshytos con en el presente trabajo se pretende por un lado alertar a los investigadores aplicados de los errores de inferencia que pueden cometer cuando en el proceso de evaluacioacuten cientiacutefica utilizan los modelos estadiacutesticos convencionales para estableshycer la efectividad de un tratamiento administrado a grupos de sujetos maacutes que sujetos individuales Y por otro lado sugeshyrirles procedimientos analiacuteticos vaacutelidos y faacuteciles de implementar mediante alguno de los diferentes programas geneacutericos exisshytentes (pe mediante el moacutedulo PROC MIXED del programa SAse)
Los autores agradecen los comentarios realizados por Dr Manuel Ato acerca del trabajo Sus sugerencias nos han permitido mejorar sustancialmente la exposicioacuten y la calidad del mismo Este trabajo ha sido financiado mediante el proyecto de investigacioacuten concedido por el MEC (Ref SEJ200S-D1883) Correspondencia Guillermo vallejo Seco Universidad de Oviedo Departamento de Psicologiacutea Plaza de Benito Feij60 sn 33003 Ovledo (Espaila E-mail gvallejouniovies
86 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Palabras clave EVALUACiOacuteN DE PROGRAMAS UNIDAD DE ANAacuteLISIS MODELO MIXTO LINEAL GENERAL SESGO DE AGREGACiOacuteN DATOS ANIDADOS
SUMMARY
Techniques based on the general linear model are frequenty recommended for the analysis of data obtained from designs whose more notable particularity is that intact groups are assigned to specific treatment conditions Despite the advocacy received by these procedures with this paper is sought on one hand to alert the applied investigators of the inferential errors that can make when in the process of scientific evaluation the usual statistical models use to found the effectiacuteveness of an intervention administered to groups of subjects rather than to individual subjects And on the other hand to suggest them va lid and easy analytic procedures of implementing by means of some of the different existent generic programs (eg trough the MIXED procedure of SA~ program)
Key words EVALUATlON OF PROGRAMS UNIT OF ANALYSIS GENERAL LINEAR MIXED MODEL AGGREGATlON BIAS NESTED DATA
INTRODUCCiOacuteN
En las ciencias del comportamiento resulta bastante habitual que los datos obtenidos en contextos cliacutenicos educativos y organizacionales presenten una estructura jeraacuterquica que permite distinguir diferentes niveles de agregacioacuten Por ejemplo los empleados de una empresa estaacuten agrupados en departamentos los pacientes de un hospital en plantas y los estudiantes de una escuela en clases En la uacuteltima situacioacuten los estudiantes constituyen el nivel de agregacioacuten inferior las clases el nivel intermedio y las escuelas el nivel superior Tanto en psicologiacutea como en otras disciplinas (pe epidemiologiacutea produccioacuten animal salud puacuteblica o sociologiacutea) los investigadores cada diacutea estaacuten maacutes interesados en evaluar los cambios acaecidos en
middot Amenazas a la validez analiacutetica de las teacutecnicas 87
sistemas donde unidades de observacioacuten de un determinado nivel de agregacioacuten se hallan anidadas dentro de un nivel de agregacioacuten superior
Hasta bien entrada la deacutecada de los ochenta los investigadores aplicados apenas prestaron atencioacuten a las agrupaciones naturales presentes en los datos La mayor parte de los mismos fueron reshygistrados en el nivel maacutes bajo de la jerarquiacutea y analizados mediante teacutecnicas basadas en el modelo lineal general Este modelo constituye el pilar fundamental en el que se apoya el anaacutelisis estadrstico en la investigacioacuten social e integra procedimientos tan familiares como el anaacutelisis de la regresioacuten el anaacutelisis de la varianza o el anaacutelisis de la covarianza (ANCOVA) y por extensioacuten la mayor parte de los proceshydimientos multivariados utilizados actualmente (Ato 2002) Por ejemshyplo una teacutecnica que se emplea con mucha reiteracioacuten para evaluar la efectividad de los programas de prevencioacuten e intervencioacuten social es el ANCOVA Si se ignora el problema de la unidad de anaacutelisis al que nos referiremos posteriormente y sus posibles efectos sobre la precisioacuten de las estimaciones y la amplitud de las inferencias el ANCOVA constituye una buen meacutetodo para determinar siacute la variable independiente afecta a la dependiente Con todo conviene tener presente que si el programa resulta efectivo la teacutecnica en cuestioacuten no indica ni doacutende ni cuaacutendo tiene su efecto oacuteptimo Mientras que si el programa no surte los efectos deseados la teacutecnica tampoco permite explorar queacute otras influencias estaacuten actuando sobre la respuesta ni establecer si la relacioacuten entre el programa y la respuesta estaacute afecshytada por la accioacuten moderadora de otras variables presentes en el estudio ni tan siquiera conocer si el comportamiento de estas vashyriables es similar de registrase en maacutes de un nivel de la jerarquiacutea Si bien las amenazas a la validez de los anaacutelisis realizados con el ANCOVA u otros enfoques similares son diversas a nuestro juicio las dos maacutes importantes son las que se derivan de la falta de indeshypendencia de las unidades y de la agregacioacuten de las mismas
Mediante el presente trabajo nos proponemos por un lado alertar a los investigadores aplicados de los errores inferenciales que pueden cometer cuando en el proceso de evaluacioacuten cientiacutefica utilizan los modelos estadiacutesticos convencionales para establecer la efectividad de un tratamiento administrado a grupos de sujetos por lo general
88 Guillenno Vallejo J Ramoacuten Femaacutendez Roberto Secades
intactos V por otro lado sugerirles procedimientos analiacuteticos vaacutelidos y tambieacuten faacuteciles de implementar mediante alguno de los programas informaacuteticos globales o generales disponibles en la actualidad (pe SAS S-PLUS o SPSS) Para alcanzar los objetivos propuestos en las secciones 2 y 3 se revisan detalladamente los problemas que surgen cuando se emplean teacutecnicas basadas en el modelo lineal general o en el modelo lineal generalizado para analizar datos provenientes de unidades que no son independientes entre siacute asiacute como la forma de abordarlos mediante modelos estadiacutesticos que tanto la investigacioacuten teoacuterica como la experimentacioacuten realizada mediante simulacioacuten Monte Cario consideran maacutes apropiados En la seccioacuten 4 se presentan conclusiones de caraacutecter general
EL PROBLEMA DE LA UNIDAD DE ANAacuteLISIS
En muchos disentildeos de investigacioacuten desarrollados para evaluar programas de prevencioacuten e intervencioacuten social unidades de anaacutelisis colectivas maacutes que unidades de anaacutelisis individuales constituyen el referente observacional al que va dirigido el programa o tratamiento Cuando un investigador utiliza unidades de investigacioacuten colectivas por necesidades logiacutesticas de viabilidad poliacutetica de validez ecoloacutegica o por cualquier otra razoacuten lo que hace usualmente es asignar agrupaciones existentes de manera natural tales como aulas escolares departamentos empresariales o plantas hospitalarias a las condiciones de estudio Antes de continuar queremos dejar bien sentado que con independencia de la regla de asignacioacuten empleada (aleatoria o intencional) desde el punto de vista analiacutetico no es lo mismo que las unidades de asignacioacuten utilizadas para configurar las condiciones de tratamiento y control sean colectivas en lugar de individuales Tal confusioacuten no soacutelo limita la habilidad del investigador para comprender el disentildeo de investigacioacuten utilizado sino que tambieacuten puede invalidar las inferencias obtenidas tras la aplicacioacuten de teacutecnicas de anaacutelisis basadas en el modelo lineal general o en el modelo lineal generalizado
Para aclarar lo dicho sin refugiarnos en el paraguas de la terminologiacutea utilizaremos una serie de ejemplos concatenados Supongamos en primer lugar que un investigador estaacute interesado en
Amenazas a la validez analftica de las teacutecnicas 89
estudiar coacutemo afectan determinadas variables explicativas de componente social psicoloacutegico y fisioloacutegico al nuacutemero de cigarrillos que diariamente consumen los sujetos de una muestra de fumadores seleccionada al azar a partir de una lista censal expuesta en un colegio electoral de la ciudad de Oviedo En esta situacioacuten una parte de la variacioacuten observada en la conducta de fumar de los sujetos seraacute adecuadamente explicada por la accioacuten de las variables independientes resentildeadas mientras que otra parte quedaraacute sin explicar y estaraacute alojada en la uacutenica fuente de variacioacuten aleatoria existente Asiacute pues los datos empiacutericos que se desean explicar son funcioacuten de un componente sistemaacutetico representado por una combinacioacuten de variables explicativas y sus respectivos coeficientes (vector del predictor lineal) y un componente aleatorio que recoge la discrepancia o error entre las respuestas observadas y las pronosticadas por el modelo Por consiguiente en este caso el modelo lineal general resulta apropiado pues al ser la respuesta de naturaleza meacutetrica se asume que los errores asociados con las unidades de observacioacuten se distribuyen normalmente y que el vector de valores esperados de la respuesta es una funcioacuten lineal de un vector de coeficientes o paraacutemetros desconocidos
Sigamos con nuestro ejemplo ficticio referido a la conducta de fumar pero admitamos ahora que el investigador estuviese interesado en estudiar coacutemo afectan las variables explicativas de componente social psicoloacutegico y fisioloacutegico al grado de adiccioacuten a la nicotina Para alcanzar dicho objetivo los sujetos que fumen 20 cigarrillos o maacutes al diacutea seraacuten clasificados como altamente dependientes los qUe fumen entre 10 Y 20 cigarrillos como moderadamente dependientes y los que fumen menos de 10 como levemente dependientes En esta nueva situacioacuten las variables explicativas son las mismas que en el ejemplo anterior sin embargo la variable dependiente es categoacuterica Salvo que el teorema central del liacutemite diga otra cosa cuando la variable de respuesta carece de naturaleza meacutetrica no parece apropiado asumir que los errores sigan una distribucioacuten normal o que el valor esperado de la respuesta sea una funcioacuten lineal de un vector de paraacutemetros desconocidos La solucioacuten natural para analizar datos que presenten esta caracteriacutestica la ofrece el modelo lineal generalizado En concreto este modelo resuelve los problemas resentildeados transformando el vector
90 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
de valores esperados a la misma escala de medida que se utilice en el proceso de estimacioacuten de la funcioacuten de regresioacuten Obviamente la transformacioacuten operada en las observaciones seraacute una u otra dependiendo de la distribucioacuten de probabilidad que se seleccione para la variable de respuesta Por ejemplo si la distribucioacuten de probabilidad que se eUge para la variable de respuesta es la distribucioacuten gamma la funcioacuten que sirve para relacionar el vector de valores esperados y el vector del predictor lineal seraacute la reciacuteproca de la media si se selecciona la distribucioacuten binomial la funcioacuten de enlace seraacute la transformacioacuten logit si se selecciona la distribucioacuten de poisson la funcioacuten de enlace seraacute la logariacutetmica si se selecciona la inversa gaussiana la funcioacuten de enlace seraacute la reciacuteproca de la media al cuadrado mientras que si se selecciona la distribucioacuten multinomialla funcioacuten de enlace seraacute ellogit generalizado
El modelo lineal generalizado al incluir cualquier miembro de la familia exponencial de distribuciones para describir la probabilidad del teacutermino de error constituye una versioacuten generalizada del modelo lineal claacutesico sin embargo nos seguimos encontrando con un modelo que para explicar el comportamiento observado en la respuesta incluye un uacutenico teacutermino aleatorio distribuido independientemente con arreglo a la distribucioacuten de error seleccionada para los datos
Para comprender mejor las limitaciones inherentes a ambos modelos imagine el lector por uacuteltimo que a nuestro investigador conductual no soacutelo le hubiese interesado estudiar queacute variables sociales psicoloacutegicas y fisioloacutegicas teniacutean mayor relevancia en la conducta de fumar sino que tambieacuten hubiese tenido curiosidad por verificar la eficacia de un programa de autoayuda para dejar de fumar basado esencialmente en informacioacuten suministrada por correo y en llamadas telefoacutenicas Para alcanzar dicho objetivo el investigador estimoacute conveniente utilizar un proceso de muestreo en dos etapas En la primera eligioacute una muestra aleatoria de los colegios electorales de la ciudad resentildeada con anterioridad mientras que en la segunda seleccionoacute una muestra aleatoria de sujetos dentro de cada colegio Posteriormente la mitad de los grupos resultantes del proceso de muestreo fueron asignados al azar a la condicioacuten de tratamiento y la otra mitad a la condicioacuten de comparacioacuten o control En una situacioacuten como la descrita resultariacutea inapropiado utilizar un modelo que incluyera
Amenazas a la validez analftica de las teacutecnicas 91
una uacutenica fuente de variacioacuten aleatoria De hecho si un investigador procediese de este modo ignorariacutea tanto la variabilidad existente entre los diferentes grupos (habitualmente los grupos no estaacuten formados al azar y por ende cabe esperar que difieran en muacuteltiples y variados aspectos) como la variabilidad existente dentro de los grupos y con ello la variabilidad individual Sea como fuere mal en cualquier caso
Como sentildeala Murray (1998) cuando la variable de respuesta tiene una estructura meacutetrica pero existe maacutes de una fuente de variacioacuten aleatoria ninguno de los procedimientos anteriores resulta apropiado En este caso la solucioacuten natural la proporciona el modelo mixto lineal generala alternativamente el modelo mixto lineal generalizado si la naturaleza de la variable de respuesta origina datos categoacutericos Ademaacutes ambos modelos se pueden aplicar cuando existe desgaste de muestra (observaciones perdidas) y los datos se desviacutean de los supuestos de homogeneidad e independencia Por lo tanto para aplicar correctamente el modelo claacutesico o el modelo generalizado a este tipo de datos se requiere satisfacer ciertos supuestos en especial el que alude a la ausencia de relacioacuten entre las observaciones Sin embargo la independencia estocaacutestica queda puesta en entredicho cuando lo que se asigna al azar a las condiciones de control y tratamiento son unidades de anaacutelisis colectivas en lugar de unidades de anaacutelisis individuales Cuando los grupos constituyen la unidad de anaacutelisis lo sensato es pensar que las caracteriacutesticas especiacuteficas de los grupos queden reflejadas en los datos pues las observaciones que estaacuten proacuteximas en el tiempo en el espacio o en ambas dimensiones a la vez tienden a ser maacutes homogeacuteneas que las observaciones que se encuentran alejadas Es muy probable que los datos que se extraen desde agrupaciones naturales tales como municipios comunidades sanitarias o escuelas mantengan un cierto grado de parecido entre siacute dado que se hallan expuestas a influencias comunes Por ejemplo los estudiantes de una clase conversan unos con otros rutinariamente comparten el mismo tipo de experiencias y estaacuten expuestos a las mismas contingencias educativas Por consiguiente como sentildealan Shadish Cook y Campbell (2002) las observaciones registradas desde cada unidad reflejaraacuten tanto los efectos que la propia individualidad tiene sobre la conducta como los efectos que las variables colectivas ejercen sobre los individuos Los primeros efectos variaraacuten dentro de
92 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
las unidades colectivas y a traveacutes de las mismas mientras que los segundos tan soacutelo variaraacuten entre las distintas unidades colectivas
Debido a que el agrupamiento induce correlacioacuten (la homogeneidad dentro del grupo implica que los errores entre los miembros del mismo esteacuten relacionados por lo general positivamente) los modelos estadiacutesticos que no contemplen la dependencia entre las unidades produciraacuten errores estaacutendar de los paraacutemetros de intereacutes negativamente sesgados contrastes estadiacutesticos positivamente sesgados y tasas de error infladas (Carvajal Baumler Harrist y Parcel 2001 Kish 1965 Krull y MacKinnon 2001) En la praacutectica esto supone que cuando los datos esteacuten positivamente correlacionados tanto las pruebas basadas en el modelo lineal claacutesico como las basadas en el modelo lineal generalizado incrementaraacuten sustancialmente la probabilidad de rechazar la hipoacutetesis nula y por consiguiente induciraacuten al investigador a concluir que su tratamiento es efectivo cuando lo cierto es que puede haber resultado completamente ineficaz En consecuencia la liberalidad de estas pruebas facilita que se capitalice sobre el azar con mayor frecuencia de la debida por obtener estimaciones ineficientes
El precio a pagar cuando se utilizan pruebas estadiacutesticas que ignoran el agrupamiento de los datos puede ser mostrado analiacuteticamente con relativa facilidad efectuando dos pequentildeas operaciones Por un lado elaborando alguacuten iacutendice que nos informe de la relacioacuten existente entre las respuestas de los sujetos que forman parte del mismo grupo Como es bien sabido la correlacioacuten dentro del grupo y debida entre otras posibles causas al proceso de seleccioacuten exposicioacuten interaccioacuten mutua o alguna combinacioacuten de eacutestas queda convenientemente reflejada mediante la razoacuten de componentes de varianzas o coeficiente de correlacioacuten dentro del grupo (r) Y por otro lado descubriendo la varianza correspondiente al efecto de la intervencioacuten Para los datos del ejemplo anterior la varianza correspondiente a la diferencia entre las dos condiciones de medias asumiendo grupos (q) de igual tamantildeo (n) resultoacute ser (ver Anexo 1)
2 [o + nO~(A)] nq
(1)
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
86 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Palabras clave EVALUACiOacuteN DE PROGRAMAS UNIDAD DE ANAacuteLISIS MODELO MIXTO LINEAL GENERAL SESGO DE AGREGACiOacuteN DATOS ANIDADOS
SUMMARY
Techniques based on the general linear model are frequenty recommended for the analysis of data obtained from designs whose more notable particularity is that intact groups are assigned to specific treatment conditions Despite the advocacy received by these procedures with this paper is sought on one hand to alert the applied investigators of the inferential errors that can make when in the process of scientific evaluation the usual statistical models use to found the effectiacuteveness of an intervention administered to groups of subjects rather than to individual subjects And on the other hand to suggest them va lid and easy analytic procedures of implementing by means of some of the different existent generic programs (eg trough the MIXED procedure of SA~ program)
Key words EVALUATlON OF PROGRAMS UNIT OF ANALYSIS GENERAL LINEAR MIXED MODEL AGGREGATlON BIAS NESTED DATA
INTRODUCCiOacuteN
En las ciencias del comportamiento resulta bastante habitual que los datos obtenidos en contextos cliacutenicos educativos y organizacionales presenten una estructura jeraacuterquica que permite distinguir diferentes niveles de agregacioacuten Por ejemplo los empleados de una empresa estaacuten agrupados en departamentos los pacientes de un hospital en plantas y los estudiantes de una escuela en clases En la uacuteltima situacioacuten los estudiantes constituyen el nivel de agregacioacuten inferior las clases el nivel intermedio y las escuelas el nivel superior Tanto en psicologiacutea como en otras disciplinas (pe epidemiologiacutea produccioacuten animal salud puacuteblica o sociologiacutea) los investigadores cada diacutea estaacuten maacutes interesados en evaluar los cambios acaecidos en
middot Amenazas a la validez analiacutetica de las teacutecnicas 87
sistemas donde unidades de observacioacuten de un determinado nivel de agregacioacuten se hallan anidadas dentro de un nivel de agregacioacuten superior
Hasta bien entrada la deacutecada de los ochenta los investigadores aplicados apenas prestaron atencioacuten a las agrupaciones naturales presentes en los datos La mayor parte de los mismos fueron reshygistrados en el nivel maacutes bajo de la jerarquiacutea y analizados mediante teacutecnicas basadas en el modelo lineal general Este modelo constituye el pilar fundamental en el que se apoya el anaacutelisis estadrstico en la investigacioacuten social e integra procedimientos tan familiares como el anaacutelisis de la regresioacuten el anaacutelisis de la varianza o el anaacutelisis de la covarianza (ANCOVA) y por extensioacuten la mayor parte de los proceshydimientos multivariados utilizados actualmente (Ato 2002) Por ejemshyplo una teacutecnica que se emplea con mucha reiteracioacuten para evaluar la efectividad de los programas de prevencioacuten e intervencioacuten social es el ANCOVA Si se ignora el problema de la unidad de anaacutelisis al que nos referiremos posteriormente y sus posibles efectos sobre la precisioacuten de las estimaciones y la amplitud de las inferencias el ANCOVA constituye una buen meacutetodo para determinar siacute la variable independiente afecta a la dependiente Con todo conviene tener presente que si el programa resulta efectivo la teacutecnica en cuestioacuten no indica ni doacutende ni cuaacutendo tiene su efecto oacuteptimo Mientras que si el programa no surte los efectos deseados la teacutecnica tampoco permite explorar queacute otras influencias estaacuten actuando sobre la respuesta ni establecer si la relacioacuten entre el programa y la respuesta estaacute afecshytada por la accioacuten moderadora de otras variables presentes en el estudio ni tan siquiera conocer si el comportamiento de estas vashyriables es similar de registrase en maacutes de un nivel de la jerarquiacutea Si bien las amenazas a la validez de los anaacutelisis realizados con el ANCOVA u otros enfoques similares son diversas a nuestro juicio las dos maacutes importantes son las que se derivan de la falta de indeshypendencia de las unidades y de la agregacioacuten de las mismas
Mediante el presente trabajo nos proponemos por un lado alertar a los investigadores aplicados de los errores inferenciales que pueden cometer cuando en el proceso de evaluacioacuten cientiacutefica utilizan los modelos estadiacutesticos convencionales para establecer la efectividad de un tratamiento administrado a grupos de sujetos por lo general
88 Guillenno Vallejo J Ramoacuten Femaacutendez Roberto Secades
intactos V por otro lado sugerirles procedimientos analiacuteticos vaacutelidos y tambieacuten faacuteciles de implementar mediante alguno de los programas informaacuteticos globales o generales disponibles en la actualidad (pe SAS S-PLUS o SPSS) Para alcanzar los objetivos propuestos en las secciones 2 y 3 se revisan detalladamente los problemas que surgen cuando se emplean teacutecnicas basadas en el modelo lineal general o en el modelo lineal generalizado para analizar datos provenientes de unidades que no son independientes entre siacute asiacute como la forma de abordarlos mediante modelos estadiacutesticos que tanto la investigacioacuten teoacuterica como la experimentacioacuten realizada mediante simulacioacuten Monte Cario consideran maacutes apropiados En la seccioacuten 4 se presentan conclusiones de caraacutecter general
EL PROBLEMA DE LA UNIDAD DE ANAacuteLISIS
En muchos disentildeos de investigacioacuten desarrollados para evaluar programas de prevencioacuten e intervencioacuten social unidades de anaacutelisis colectivas maacutes que unidades de anaacutelisis individuales constituyen el referente observacional al que va dirigido el programa o tratamiento Cuando un investigador utiliza unidades de investigacioacuten colectivas por necesidades logiacutesticas de viabilidad poliacutetica de validez ecoloacutegica o por cualquier otra razoacuten lo que hace usualmente es asignar agrupaciones existentes de manera natural tales como aulas escolares departamentos empresariales o plantas hospitalarias a las condiciones de estudio Antes de continuar queremos dejar bien sentado que con independencia de la regla de asignacioacuten empleada (aleatoria o intencional) desde el punto de vista analiacutetico no es lo mismo que las unidades de asignacioacuten utilizadas para configurar las condiciones de tratamiento y control sean colectivas en lugar de individuales Tal confusioacuten no soacutelo limita la habilidad del investigador para comprender el disentildeo de investigacioacuten utilizado sino que tambieacuten puede invalidar las inferencias obtenidas tras la aplicacioacuten de teacutecnicas de anaacutelisis basadas en el modelo lineal general o en el modelo lineal generalizado
Para aclarar lo dicho sin refugiarnos en el paraguas de la terminologiacutea utilizaremos una serie de ejemplos concatenados Supongamos en primer lugar que un investigador estaacute interesado en
Amenazas a la validez analftica de las teacutecnicas 89
estudiar coacutemo afectan determinadas variables explicativas de componente social psicoloacutegico y fisioloacutegico al nuacutemero de cigarrillos que diariamente consumen los sujetos de una muestra de fumadores seleccionada al azar a partir de una lista censal expuesta en un colegio electoral de la ciudad de Oviedo En esta situacioacuten una parte de la variacioacuten observada en la conducta de fumar de los sujetos seraacute adecuadamente explicada por la accioacuten de las variables independientes resentildeadas mientras que otra parte quedaraacute sin explicar y estaraacute alojada en la uacutenica fuente de variacioacuten aleatoria existente Asiacute pues los datos empiacutericos que se desean explicar son funcioacuten de un componente sistemaacutetico representado por una combinacioacuten de variables explicativas y sus respectivos coeficientes (vector del predictor lineal) y un componente aleatorio que recoge la discrepancia o error entre las respuestas observadas y las pronosticadas por el modelo Por consiguiente en este caso el modelo lineal general resulta apropiado pues al ser la respuesta de naturaleza meacutetrica se asume que los errores asociados con las unidades de observacioacuten se distribuyen normalmente y que el vector de valores esperados de la respuesta es una funcioacuten lineal de un vector de coeficientes o paraacutemetros desconocidos
Sigamos con nuestro ejemplo ficticio referido a la conducta de fumar pero admitamos ahora que el investigador estuviese interesado en estudiar coacutemo afectan las variables explicativas de componente social psicoloacutegico y fisioloacutegico al grado de adiccioacuten a la nicotina Para alcanzar dicho objetivo los sujetos que fumen 20 cigarrillos o maacutes al diacutea seraacuten clasificados como altamente dependientes los qUe fumen entre 10 Y 20 cigarrillos como moderadamente dependientes y los que fumen menos de 10 como levemente dependientes En esta nueva situacioacuten las variables explicativas son las mismas que en el ejemplo anterior sin embargo la variable dependiente es categoacuterica Salvo que el teorema central del liacutemite diga otra cosa cuando la variable de respuesta carece de naturaleza meacutetrica no parece apropiado asumir que los errores sigan una distribucioacuten normal o que el valor esperado de la respuesta sea una funcioacuten lineal de un vector de paraacutemetros desconocidos La solucioacuten natural para analizar datos que presenten esta caracteriacutestica la ofrece el modelo lineal generalizado En concreto este modelo resuelve los problemas resentildeados transformando el vector
90 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
de valores esperados a la misma escala de medida que se utilice en el proceso de estimacioacuten de la funcioacuten de regresioacuten Obviamente la transformacioacuten operada en las observaciones seraacute una u otra dependiendo de la distribucioacuten de probabilidad que se seleccione para la variable de respuesta Por ejemplo si la distribucioacuten de probabilidad que se eUge para la variable de respuesta es la distribucioacuten gamma la funcioacuten que sirve para relacionar el vector de valores esperados y el vector del predictor lineal seraacute la reciacuteproca de la media si se selecciona la distribucioacuten binomial la funcioacuten de enlace seraacute la transformacioacuten logit si se selecciona la distribucioacuten de poisson la funcioacuten de enlace seraacute la logariacutetmica si se selecciona la inversa gaussiana la funcioacuten de enlace seraacute la reciacuteproca de la media al cuadrado mientras que si se selecciona la distribucioacuten multinomialla funcioacuten de enlace seraacute ellogit generalizado
El modelo lineal generalizado al incluir cualquier miembro de la familia exponencial de distribuciones para describir la probabilidad del teacutermino de error constituye una versioacuten generalizada del modelo lineal claacutesico sin embargo nos seguimos encontrando con un modelo que para explicar el comportamiento observado en la respuesta incluye un uacutenico teacutermino aleatorio distribuido independientemente con arreglo a la distribucioacuten de error seleccionada para los datos
Para comprender mejor las limitaciones inherentes a ambos modelos imagine el lector por uacuteltimo que a nuestro investigador conductual no soacutelo le hubiese interesado estudiar queacute variables sociales psicoloacutegicas y fisioloacutegicas teniacutean mayor relevancia en la conducta de fumar sino que tambieacuten hubiese tenido curiosidad por verificar la eficacia de un programa de autoayuda para dejar de fumar basado esencialmente en informacioacuten suministrada por correo y en llamadas telefoacutenicas Para alcanzar dicho objetivo el investigador estimoacute conveniente utilizar un proceso de muestreo en dos etapas En la primera eligioacute una muestra aleatoria de los colegios electorales de la ciudad resentildeada con anterioridad mientras que en la segunda seleccionoacute una muestra aleatoria de sujetos dentro de cada colegio Posteriormente la mitad de los grupos resultantes del proceso de muestreo fueron asignados al azar a la condicioacuten de tratamiento y la otra mitad a la condicioacuten de comparacioacuten o control En una situacioacuten como la descrita resultariacutea inapropiado utilizar un modelo que incluyera
Amenazas a la validez analftica de las teacutecnicas 91
una uacutenica fuente de variacioacuten aleatoria De hecho si un investigador procediese de este modo ignorariacutea tanto la variabilidad existente entre los diferentes grupos (habitualmente los grupos no estaacuten formados al azar y por ende cabe esperar que difieran en muacuteltiples y variados aspectos) como la variabilidad existente dentro de los grupos y con ello la variabilidad individual Sea como fuere mal en cualquier caso
Como sentildeala Murray (1998) cuando la variable de respuesta tiene una estructura meacutetrica pero existe maacutes de una fuente de variacioacuten aleatoria ninguno de los procedimientos anteriores resulta apropiado En este caso la solucioacuten natural la proporciona el modelo mixto lineal generala alternativamente el modelo mixto lineal generalizado si la naturaleza de la variable de respuesta origina datos categoacutericos Ademaacutes ambos modelos se pueden aplicar cuando existe desgaste de muestra (observaciones perdidas) y los datos se desviacutean de los supuestos de homogeneidad e independencia Por lo tanto para aplicar correctamente el modelo claacutesico o el modelo generalizado a este tipo de datos se requiere satisfacer ciertos supuestos en especial el que alude a la ausencia de relacioacuten entre las observaciones Sin embargo la independencia estocaacutestica queda puesta en entredicho cuando lo que se asigna al azar a las condiciones de control y tratamiento son unidades de anaacutelisis colectivas en lugar de unidades de anaacutelisis individuales Cuando los grupos constituyen la unidad de anaacutelisis lo sensato es pensar que las caracteriacutesticas especiacuteficas de los grupos queden reflejadas en los datos pues las observaciones que estaacuten proacuteximas en el tiempo en el espacio o en ambas dimensiones a la vez tienden a ser maacutes homogeacuteneas que las observaciones que se encuentran alejadas Es muy probable que los datos que se extraen desde agrupaciones naturales tales como municipios comunidades sanitarias o escuelas mantengan un cierto grado de parecido entre siacute dado que se hallan expuestas a influencias comunes Por ejemplo los estudiantes de una clase conversan unos con otros rutinariamente comparten el mismo tipo de experiencias y estaacuten expuestos a las mismas contingencias educativas Por consiguiente como sentildealan Shadish Cook y Campbell (2002) las observaciones registradas desde cada unidad reflejaraacuten tanto los efectos que la propia individualidad tiene sobre la conducta como los efectos que las variables colectivas ejercen sobre los individuos Los primeros efectos variaraacuten dentro de
92 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
las unidades colectivas y a traveacutes de las mismas mientras que los segundos tan soacutelo variaraacuten entre las distintas unidades colectivas
Debido a que el agrupamiento induce correlacioacuten (la homogeneidad dentro del grupo implica que los errores entre los miembros del mismo esteacuten relacionados por lo general positivamente) los modelos estadiacutesticos que no contemplen la dependencia entre las unidades produciraacuten errores estaacutendar de los paraacutemetros de intereacutes negativamente sesgados contrastes estadiacutesticos positivamente sesgados y tasas de error infladas (Carvajal Baumler Harrist y Parcel 2001 Kish 1965 Krull y MacKinnon 2001) En la praacutectica esto supone que cuando los datos esteacuten positivamente correlacionados tanto las pruebas basadas en el modelo lineal claacutesico como las basadas en el modelo lineal generalizado incrementaraacuten sustancialmente la probabilidad de rechazar la hipoacutetesis nula y por consiguiente induciraacuten al investigador a concluir que su tratamiento es efectivo cuando lo cierto es que puede haber resultado completamente ineficaz En consecuencia la liberalidad de estas pruebas facilita que se capitalice sobre el azar con mayor frecuencia de la debida por obtener estimaciones ineficientes
El precio a pagar cuando se utilizan pruebas estadiacutesticas que ignoran el agrupamiento de los datos puede ser mostrado analiacuteticamente con relativa facilidad efectuando dos pequentildeas operaciones Por un lado elaborando alguacuten iacutendice que nos informe de la relacioacuten existente entre las respuestas de los sujetos que forman parte del mismo grupo Como es bien sabido la correlacioacuten dentro del grupo y debida entre otras posibles causas al proceso de seleccioacuten exposicioacuten interaccioacuten mutua o alguna combinacioacuten de eacutestas queda convenientemente reflejada mediante la razoacuten de componentes de varianzas o coeficiente de correlacioacuten dentro del grupo (r) Y por otro lado descubriendo la varianza correspondiente al efecto de la intervencioacuten Para los datos del ejemplo anterior la varianza correspondiente a la diferencia entre las dos condiciones de medias asumiendo grupos (q) de igual tamantildeo (n) resultoacute ser (ver Anexo 1)
2 [o + nO~(A)] nq
(1)
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
middot Amenazas a la validez analiacutetica de las teacutecnicas 87
sistemas donde unidades de observacioacuten de un determinado nivel de agregacioacuten se hallan anidadas dentro de un nivel de agregacioacuten superior
Hasta bien entrada la deacutecada de los ochenta los investigadores aplicados apenas prestaron atencioacuten a las agrupaciones naturales presentes en los datos La mayor parte de los mismos fueron reshygistrados en el nivel maacutes bajo de la jerarquiacutea y analizados mediante teacutecnicas basadas en el modelo lineal general Este modelo constituye el pilar fundamental en el que se apoya el anaacutelisis estadrstico en la investigacioacuten social e integra procedimientos tan familiares como el anaacutelisis de la regresioacuten el anaacutelisis de la varianza o el anaacutelisis de la covarianza (ANCOVA) y por extensioacuten la mayor parte de los proceshydimientos multivariados utilizados actualmente (Ato 2002) Por ejemshyplo una teacutecnica que se emplea con mucha reiteracioacuten para evaluar la efectividad de los programas de prevencioacuten e intervencioacuten social es el ANCOVA Si se ignora el problema de la unidad de anaacutelisis al que nos referiremos posteriormente y sus posibles efectos sobre la precisioacuten de las estimaciones y la amplitud de las inferencias el ANCOVA constituye una buen meacutetodo para determinar siacute la variable independiente afecta a la dependiente Con todo conviene tener presente que si el programa resulta efectivo la teacutecnica en cuestioacuten no indica ni doacutende ni cuaacutendo tiene su efecto oacuteptimo Mientras que si el programa no surte los efectos deseados la teacutecnica tampoco permite explorar queacute otras influencias estaacuten actuando sobre la respuesta ni establecer si la relacioacuten entre el programa y la respuesta estaacute afecshytada por la accioacuten moderadora de otras variables presentes en el estudio ni tan siquiera conocer si el comportamiento de estas vashyriables es similar de registrase en maacutes de un nivel de la jerarquiacutea Si bien las amenazas a la validez de los anaacutelisis realizados con el ANCOVA u otros enfoques similares son diversas a nuestro juicio las dos maacutes importantes son las que se derivan de la falta de indeshypendencia de las unidades y de la agregacioacuten de las mismas
Mediante el presente trabajo nos proponemos por un lado alertar a los investigadores aplicados de los errores inferenciales que pueden cometer cuando en el proceso de evaluacioacuten cientiacutefica utilizan los modelos estadiacutesticos convencionales para establecer la efectividad de un tratamiento administrado a grupos de sujetos por lo general
88 Guillenno Vallejo J Ramoacuten Femaacutendez Roberto Secades
intactos V por otro lado sugerirles procedimientos analiacuteticos vaacutelidos y tambieacuten faacuteciles de implementar mediante alguno de los programas informaacuteticos globales o generales disponibles en la actualidad (pe SAS S-PLUS o SPSS) Para alcanzar los objetivos propuestos en las secciones 2 y 3 se revisan detalladamente los problemas que surgen cuando se emplean teacutecnicas basadas en el modelo lineal general o en el modelo lineal generalizado para analizar datos provenientes de unidades que no son independientes entre siacute asiacute como la forma de abordarlos mediante modelos estadiacutesticos que tanto la investigacioacuten teoacuterica como la experimentacioacuten realizada mediante simulacioacuten Monte Cario consideran maacutes apropiados En la seccioacuten 4 se presentan conclusiones de caraacutecter general
EL PROBLEMA DE LA UNIDAD DE ANAacuteLISIS
En muchos disentildeos de investigacioacuten desarrollados para evaluar programas de prevencioacuten e intervencioacuten social unidades de anaacutelisis colectivas maacutes que unidades de anaacutelisis individuales constituyen el referente observacional al que va dirigido el programa o tratamiento Cuando un investigador utiliza unidades de investigacioacuten colectivas por necesidades logiacutesticas de viabilidad poliacutetica de validez ecoloacutegica o por cualquier otra razoacuten lo que hace usualmente es asignar agrupaciones existentes de manera natural tales como aulas escolares departamentos empresariales o plantas hospitalarias a las condiciones de estudio Antes de continuar queremos dejar bien sentado que con independencia de la regla de asignacioacuten empleada (aleatoria o intencional) desde el punto de vista analiacutetico no es lo mismo que las unidades de asignacioacuten utilizadas para configurar las condiciones de tratamiento y control sean colectivas en lugar de individuales Tal confusioacuten no soacutelo limita la habilidad del investigador para comprender el disentildeo de investigacioacuten utilizado sino que tambieacuten puede invalidar las inferencias obtenidas tras la aplicacioacuten de teacutecnicas de anaacutelisis basadas en el modelo lineal general o en el modelo lineal generalizado
Para aclarar lo dicho sin refugiarnos en el paraguas de la terminologiacutea utilizaremos una serie de ejemplos concatenados Supongamos en primer lugar que un investigador estaacute interesado en
Amenazas a la validez analftica de las teacutecnicas 89
estudiar coacutemo afectan determinadas variables explicativas de componente social psicoloacutegico y fisioloacutegico al nuacutemero de cigarrillos que diariamente consumen los sujetos de una muestra de fumadores seleccionada al azar a partir de una lista censal expuesta en un colegio electoral de la ciudad de Oviedo En esta situacioacuten una parte de la variacioacuten observada en la conducta de fumar de los sujetos seraacute adecuadamente explicada por la accioacuten de las variables independientes resentildeadas mientras que otra parte quedaraacute sin explicar y estaraacute alojada en la uacutenica fuente de variacioacuten aleatoria existente Asiacute pues los datos empiacutericos que se desean explicar son funcioacuten de un componente sistemaacutetico representado por una combinacioacuten de variables explicativas y sus respectivos coeficientes (vector del predictor lineal) y un componente aleatorio que recoge la discrepancia o error entre las respuestas observadas y las pronosticadas por el modelo Por consiguiente en este caso el modelo lineal general resulta apropiado pues al ser la respuesta de naturaleza meacutetrica se asume que los errores asociados con las unidades de observacioacuten se distribuyen normalmente y que el vector de valores esperados de la respuesta es una funcioacuten lineal de un vector de coeficientes o paraacutemetros desconocidos
Sigamos con nuestro ejemplo ficticio referido a la conducta de fumar pero admitamos ahora que el investigador estuviese interesado en estudiar coacutemo afectan las variables explicativas de componente social psicoloacutegico y fisioloacutegico al grado de adiccioacuten a la nicotina Para alcanzar dicho objetivo los sujetos que fumen 20 cigarrillos o maacutes al diacutea seraacuten clasificados como altamente dependientes los qUe fumen entre 10 Y 20 cigarrillos como moderadamente dependientes y los que fumen menos de 10 como levemente dependientes En esta nueva situacioacuten las variables explicativas son las mismas que en el ejemplo anterior sin embargo la variable dependiente es categoacuterica Salvo que el teorema central del liacutemite diga otra cosa cuando la variable de respuesta carece de naturaleza meacutetrica no parece apropiado asumir que los errores sigan una distribucioacuten normal o que el valor esperado de la respuesta sea una funcioacuten lineal de un vector de paraacutemetros desconocidos La solucioacuten natural para analizar datos que presenten esta caracteriacutestica la ofrece el modelo lineal generalizado En concreto este modelo resuelve los problemas resentildeados transformando el vector
90 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
de valores esperados a la misma escala de medida que se utilice en el proceso de estimacioacuten de la funcioacuten de regresioacuten Obviamente la transformacioacuten operada en las observaciones seraacute una u otra dependiendo de la distribucioacuten de probabilidad que se seleccione para la variable de respuesta Por ejemplo si la distribucioacuten de probabilidad que se eUge para la variable de respuesta es la distribucioacuten gamma la funcioacuten que sirve para relacionar el vector de valores esperados y el vector del predictor lineal seraacute la reciacuteproca de la media si se selecciona la distribucioacuten binomial la funcioacuten de enlace seraacute la transformacioacuten logit si se selecciona la distribucioacuten de poisson la funcioacuten de enlace seraacute la logariacutetmica si se selecciona la inversa gaussiana la funcioacuten de enlace seraacute la reciacuteproca de la media al cuadrado mientras que si se selecciona la distribucioacuten multinomialla funcioacuten de enlace seraacute ellogit generalizado
El modelo lineal generalizado al incluir cualquier miembro de la familia exponencial de distribuciones para describir la probabilidad del teacutermino de error constituye una versioacuten generalizada del modelo lineal claacutesico sin embargo nos seguimos encontrando con un modelo que para explicar el comportamiento observado en la respuesta incluye un uacutenico teacutermino aleatorio distribuido independientemente con arreglo a la distribucioacuten de error seleccionada para los datos
Para comprender mejor las limitaciones inherentes a ambos modelos imagine el lector por uacuteltimo que a nuestro investigador conductual no soacutelo le hubiese interesado estudiar queacute variables sociales psicoloacutegicas y fisioloacutegicas teniacutean mayor relevancia en la conducta de fumar sino que tambieacuten hubiese tenido curiosidad por verificar la eficacia de un programa de autoayuda para dejar de fumar basado esencialmente en informacioacuten suministrada por correo y en llamadas telefoacutenicas Para alcanzar dicho objetivo el investigador estimoacute conveniente utilizar un proceso de muestreo en dos etapas En la primera eligioacute una muestra aleatoria de los colegios electorales de la ciudad resentildeada con anterioridad mientras que en la segunda seleccionoacute una muestra aleatoria de sujetos dentro de cada colegio Posteriormente la mitad de los grupos resultantes del proceso de muestreo fueron asignados al azar a la condicioacuten de tratamiento y la otra mitad a la condicioacuten de comparacioacuten o control En una situacioacuten como la descrita resultariacutea inapropiado utilizar un modelo que incluyera
Amenazas a la validez analftica de las teacutecnicas 91
una uacutenica fuente de variacioacuten aleatoria De hecho si un investigador procediese de este modo ignorariacutea tanto la variabilidad existente entre los diferentes grupos (habitualmente los grupos no estaacuten formados al azar y por ende cabe esperar que difieran en muacuteltiples y variados aspectos) como la variabilidad existente dentro de los grupos y con ello la variabilidad individual Sea como fuere mal en cualquier caso
Como sentildeala Murray (1998) cuando la variable de respuesta tiene una estructura meacutetrica pero existe maacutes de una fuente de variacioacuten aleatoria ninguno de los procedimientos anteriores resulta apropiado En este caso la solucioacuten natural la proporciona el modelo mixto lineal generala alternativamente el modelo mixto lineal generalizado si la naturaleza de la variable de respuesta origina datos categoacutericos Ademaacutes ambos modelos se pueden aplicar cuando existe desgaste de muestra (observaciones perdidas) y los datos se desviacutean de los supuestos de homogeneidad e independencia Por lo tanto para aplicar correctamente el modelo claacutesico o el modelo generalizado a este tipo de datos se requiere satisfacer ciertos supuestos en especial el que alude a la ausencia de relacioacuten entre las observaciones Sin embargo la independencia estocaacutestica queda puesta en entredicho cuando lo que se asigna al azar a las condiciones de control y tratamiento son unidades de anaacutelisis colectivas en lugar de unidades de anaacutelisis individuales Cuando los grupos constituyen la unidad de anaacutelisis lo sensato es pensar que las caracteriacutesticas especiacuteficas de los grupos queden reflejadas en los datos pues las observaciones que estaacuten proacuteximas en el tiempo en el espacio o en ambas dimensiones a la vez tienden a ser maacutes homogeacuteneas que las observaciones que se encuentran alejadas Es muy probable que los datos que se extraen desde agrupaciones naturales tales como municipios comunidades sanitarias o escuelas mantengan un cierto grado de parecido entre siacute dado que se hallan expuestas a influencias comunes Por ejemplo los estudiantes de una clase conversan unos con otros rutinariamente comparten el mismo tipo de experiencias y estaacuten expuestos a las mismas contingencias educativas Por consiguiente como sentildealan Shadish Cook y Campbell (2002) las observaciones registradas desde cada unidad reflejaraacuten tanto los efectos que la propia individualidad tiene sobre la conducta como los efectos que las variables colectivas ejercen sobre los individuos Los primeros efectos variaraacuten dentro de
92 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
las unidades colectivas y a traveacutes de las mismas mientras que los segundos tan soacutelo variaraacuten entre las distintas unidades colectivas
Debido a que el agrupamiento induce correlacioacuten (la homogeneidad dentro del grupo implica que los errores entre los miembros del mismo esteacuten relacionados por lo general positivamente) los modelos estadiacutesticos que no contemplen la dependencia entre las unidades produciraacuten errores estaacutendar de los paraacutemetros de intereacutes negativamente sesgados contrastes estadiacutesticos positivamente sesgados y tasas de error infladas (Carvajal Baumler Harrist y Parcel 2001 Kish 1965 Krull y MacKinnon 2001) En la praacutectica esto supone que cuando los datos esteacuten positivamente correlacionados tanto las pruebas basadas en el modelo lineal claacutesico como las basadas en el modelo lineal generalizado incrementaraacuten sustancialmente la probabilidad de rechazar la hipoacutetesis nula y por consiguiente induciraacuten al investigador a concluir que su tratamiento es efectivo cuando lo cierto es que puede haber resultado completamente ineficaz En consecuencia la liberalidad de estas pruebas facilita que se capitalice sobre el azar con mayor frecuencia de la debida por obtener estimaciones ineficientes
El precio a pagar cuando se utilizan pruebas estadiacutesticas que ignoran el agrupamiento de los datos puede ser mostrado analiacuteticamente con relativa facilidad efectuando dos pequentildeas operaciones Por un lado elaborando alguacuten iacutendice que nos informe de la relacioacuten existente entre las respuestas de los sujetos que forman parte del mismo grupo Como es bien sabido la correlacioacuten dentro del grupo y debida entre otras posibles causas al proceso de seleccioacuten exposicioacuten interaccioacuten mutua o alguna combinacioacuten de eacutestas queda convenientemente reflejada mediante la razoacuten de componentes de varianzas o coeficiente de correlacioacuten dentro del grupo (r) Y por otro lado descubriendo la varianza correspondiente al efecto de la intervencioacuten Para los datos del ejemplo anterior la varianza correspondiente a la diferencia entre las dos condiciones de medias asumiendo grupos (q) de igual tamantildeo (n) resultoacute ser (ver Anexo 1)
2 [o + nO~(A)] nq
(1)
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
88 Guillenno Vallejo J Ramoacuten Femaacutendez Roberto Secades
intactos V por otro lado sugerirles procedimientos analiacuteticos vaacutelidos y tambieacuten faacuteciles de implementar mediante alguno de los programas informaacuteticos globales o generales disponibles en la actualidad (pe SAS S-PLUS o SPSS) Para alcanzar los objetivos propuestos en las secciones 2 y 3 se revisan detalladamente los problemas que surgen cuando se emplean teacutecnicas basadas en el modelo lineal general o en el modelo lineal generalizado para analizar datos provenientes de unidades que no son independientes entre siacute asiacute como la forma de abordarlos mediante modelos estadiacutesticos que tanto la investigacioacuten teoacuterica como la experimentacioacuten realizada mediante simulacioacuten Monte Cario consideran maacutes apropiados En la seccioacuten 4 se presentan conclusiones de caraacutecter general
EL PROBLEMA DE LA UNIDAD DE ANAacuteLISIS
En muchos disentildeos de investigacioacuten desarrollados para evaluar programas de prevencioacuten e intervencioacuten social unidades de anaacutelisis colectivas maacutes que unidades de anaacutelisis individuales constituyen el referente observacional al que va dirigido el programa o tratamiento Cuando un investigador utiliza unidades de investigacioacuten colectivas por necesidades logiacutesticas de viabilidad poliacutetica de validez ecoloacutegica o por cualquier otra razoacuten lo que hace usualmente es asignar agrupaciones existentes de manera natural tales como aulas escolares departamentos empresariales o plantas hospitalarias a las condiciones de estudio Antes de continuar queremos dejar bien sentado que con independencia de la regla de asignacioacuten empleada (aleatoria o intencional) desde el punto de vista analiacutetico no es lo mismo que las unidades de asignacioacuten utilizadas para configurar las condiciones de tratamiento y control sean colectivas en lugar de individuales Tal confusioacuten no soacutelo limita la habilidad del investigador para comprender el disentildeo de investigacioacuten utilizado sino que tambieacuten puede invalidar las inferencias obtenidas tras la aplicacioacuten de teacutecnicas de anaacutelisis basadas en el modelo lineal general o en el modelo lineal generalizado
Para aclarar lo dicho sin refugiarnos en el paraguas de la terminologiacutea utilizaremos una serie de ejemplos concatenados Supongamos en primer lugar que un investigador estaacute interesado en
Amenazas a la validez analftica de las teacutecnicas 89
estudiar coacutemo afectan determinadas variables explicativas de componente social psicoloacutegico y fisioloacutegico al nuacutemero de cigarrillos que diariamente consumen los sujetos de una muestra de fumadores seleccionada al azar a partir de una lista censal expuesta en un colegio electoral de la ciudad de Oviedo En esta situacioacuten una parte de la variacioacuten observada en la conducta de fumar de los sujetos seraacute adecuadamente explicada por la accioacuten de las variables independientes resentildeadas mientras que otra parte quedaraacute sin explicar y estaraacute alojada en la uacutenica fuente de variacioacuten aleatoria existente Asiacute pues los datos empiacutericos que se desean explicar son funcioacuten de un componente sistemaacutetico representado por una combinacioacuten de variables explicativas y sus respectivos coeficientes (vector del predictor lineal) y un componente aleatorio que recoge la discrepancia o error entre las respuestas observadas y las pronosticadas por el modelo Por consiguiente en este caso el modelo lineal general resulta apropiado pues al ser la respuesta de naturaleza meacutetrica se asume que los errores asociados con las unidades de observacioacuten se distribuyen normalmente y que el vector de valores esperados de la respuesta es una funcioacuten lineal de un vector de coeficientes o paraacutemetros desconocidos
Sigamos con nuestro ejemplo ficticio referido a la conducta de fumar pero admitamos ahora que el investigador estuviese interesado en estudiar coacutemo afectan las variables explicativas de componente social psicoloacutegico y fisioloacutegico al grado de adiccioacuten a la nicotina Para alcanzar dicho objetivo los sujetos que fumen 20 cigarrillos o maacutes al diacutea seraacuten clasificados como altamente dependientes los qUe fumen entre 10 Y 20 cigarrillos como moderadamente dependientes y los que fumen menos de 10 como levemente dependientes En esta nueva situacioacuten las variables explicativas son las mismas que en el ejemplo anterior sin embargo la variable dependiente es categoacuterica Salvo que el teorema central del liacutemite diga otra cosa cuando la variable de respuesta carece de naturaleza meacutetrica no parece apropiado asumir que los errores sigan una distribucioacuten normal o que el valor esperado de la respuesta sea una funcioacuten lineal de un vector de paraacutemetros desconocidos La solucioacuten natural para analizar datos que presenten esta caracteriacutestica la ofrece el modelo lineal generalizado En concreto este modelo resuelve los problemas resentildeados transformando el vector
90 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
de valores esperados a la misma escala de medida que se utilice en el proceso de estimacioacuten de la funcioacuten de regresioacuten Obviamente la transformacioacuten operada en las observaciones seraacute una u otra dependiendo de la distribucioacuten de probabilidad que se seleccione para la variable de respuesta Por ejemplo si la distribucioacuten de probabilidad que se eUge para la variable de respuesta es la distribucioacuten gamma la funcioacuten que sirve para relacionar el vector de valores esperados y el vector del predictor lineal seraacute la reciacuteproca de la media si se selecciona la distribucioacuten binomial la funcioacuten de enlace seraacute la transformacioacuten logit si se selecciona la distribucioacuten de poisson la funcioacuten de enlace seraacute la logariacutetmica si se selecciona la inversa gaussiana la funcioacuten de enlace seraacute la reciacuteproca de la media al cuadrado mientras que si se selecciona la distribucioacuten multinomialla funcioacuten de enlace seraacute ellogit generalizado
El modelo lineal generalizado al incluir cualquier miembro de la familia exponencial de distribuciones para describir la probabilidad del teacutermino de error constituye una versioacuten generalizada del modelo lineal claacutesico sin embargo nos seguimos encontrando con un modelo que para explicar el comportamiento observado en la respuesta incluye un uacutenico teacutermino aleatorio distribuido independientemente con arreglo a la distribucioacuten de error seleccionada para los datos
Para comprender mejor las limitaciones inherentes a ambos modelos imagine el lector por uacuteltimo que a nuestro investigador conductual no soacutelo le hubiese interesado estudiar queacute variables sociales psicoloacutegicas y fisioloacutegicas teniacutean mayor relevancia en la conducta de fumar sino que tambieacuten hubiese tenido curiosidad por verificar la eficacia de un programa de autoayuda para dejar de fumar basado esencialmente en informacioacuten suministrada por correo y en llamadas telefoacutenicas Para alcanzar dicho objetivo el investigador estimoacute conveniente utilizar un proceso de muestreo en dos etapas En la primera eligioacute una muestra aleatoria de los colegios electorales de la ciudad resentildeada con anterioridad mientras que en la segunda seleccionoacute una muestra aleatoria de sujetos dentro de cada colegio Posteriormente la mitad de los grupos resultantes del proceso de muestreo fueron asignados al azar a la condicioacuten de tratamiento y la otra mitad a la condicioacuten de comparacioacuten o control En una situacioacuten como la descrita resultariacutea inapropiado utilizar un modelo que incluyera
Amenazas a la validez analftica de las teacutecnicas 91
una uacutenica fuente de variacioacuten aleatoria De hecho si un investigador procediese de este modo ignorariacutea tanto la variabilidad existente entre los diferentes grupos (habitualmente los grupos no estaacuten formados al azar y por ende cabe esperar que difieran en muacuteltiples y variados aspectos) como la variabilidad existente dentro de los grupos y con ello la variabilidad individual Sea como fuere mal en cualquier caso
Como sentildeala Murray (1998) cuando la variable de respuesta tiene una estructura meacutetrica pero existe maacutes de una fuente de variacioacuten aleatoria ninguno de los procedimientos anteriores resulta apropiado En este caso la solucioacuten natural la proporciona el modelo mixto lineal generala alternativamente el modelo mixto lineal generalizado si la naturaleza de la variable de respuesta origina datos categoacutericos Ademaacutes ambos modelos se pueden aplicar cuando existe desgaste de muestra (observaciones perdidas) y los datos se desviacutean de los supuestos de homogeneidad e independencia Por lo tanto para aplicar correctamente el modelo claacutesico o el modelo generalizado a este tipo de datos se requiere satisfacer ciertos supuestos en especial el que alude a la ausencia de relacioacuten entre las observaciones Sin embargo la independencia estocaacutestica queda puesta en entredicho cuando lo que se asigna al azar a las condiciones de control y tratamiento son unidades de anaacutelisis colectivas en lugar de unidades de anaacutelisis individuales Cuando los grupos constituyen la unidad de anaacutelisis lo sensato es pensar que las caracteriacutesticas especiacuteficas de los grupos queden reflejadas en los datos pues las observaciones que estaacuten proacuteximas en el tiempo en el espacio o en ambas dimensiones a la vez tienden a ser maacutes homogeacuteneas que las observaciones que se encuentran alejadas Es muy probable que los datos que se extraen desde agrupaciones naturales tales como municipios comunidades sanitarias o escuelas mantengan un cierto grado de parecido entre siacute dado que se hallan expuestas a influencias comunes Por ejemplo los estudiantes de una clase conversan unos con otros rutinariamente comparten el mismo tipo de experiencias y estaacuten expuestos a las mismas contingencias educativas Por consiguiente como sentildealan Shadish Cook y Campbell (2002) las observaciones registradas desde cada unidad reflejaraacuten tanto los efectos que la propia individualidad tiene sobre la conducta como los efectos que las variables colectivas ejercen sobre los individuos Los primeros efectos variaraacuten dentro de
92 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
las unidades colectivas y a traveacutes de las mismas mientras que los segundos tan soacutelo variaraacuten entre las distintas unidades colectivas
Debido a que el agrupamiento induce correlacioacuten (la homogeneidad dentro del grupo implica que los errores entre los miembros del mismo esteacuten relacionados por lo general positivamente) los modelos estadiacutesticos que no contemplen la dependencia entre las unidades produciraacuten errores estaacutendar de los paraacutemetros de intereacutes negativamente sesgados contrastes estadiacutesticos positivamente sesgados y tasas de error infladas (Carvajal Baumler Harrist y Parcel 2001 Kish 1965 Krull y MacKinnon 2001) En la praacutectica esto supone que cuando los datos esteacuten positivamente correlacionados tanto las pruebas basadas en el modelo lineal claacutesico como las basadas en el modelo lineal generalizado incrementaraacuten sustancialmente la probabilidad de rechazar la hipoacutetesis nula y por consiguiente induciraacuten al investigador a concluir que su tratamiento es efectivo cuando lo cierto es que puede haber resultado completamente ineficaz En consecuencia la liberalidad de estas pruebas facilita que se capitalice sobre el azar con mayor frecuencia de la debida por obtener estimaciones ineficientes
El precio a pagar cuando se utilizan pruebas estadiacutesticas que ignoran el agrupamiento de los datos puede ser mostrado analiacuteticamente con relativa facilidad efectuando dos pequentildeas operaciones Por un lado elaborando alguacuten iacutendice que nos informe de la relacioacuten existente entre las respuestas de los sujetos que forman parte del mismo grupo Como es bien sabido la correlacioacuten dentro del grupo y debida entre otras posibles causas al proceso de seleccioacuten exposicioacuten interaccioacuten mutua o alguna combinacioacuten de eacutestas queda convenientemente reflejada mediante la razoacuten de componentes de varianzas o coeficiente de correlacioacuten dentro del grupo (r) Y por otro lado descubriendo la varianza correspondiente al efecto de la intervencioacuten Para los datos del ejemplo anterior la varianza correspondiente a la diferencia entre las dos condiciones de medias asumiendo grupos (q) de igual tamantildeo (n) resultoacute ser (ver Anexo 1)
2 [o + nO~(A)] nq
(1)
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
Amenazas a la validez analftica de las teacutecnicas 89
estudiar coacutemo afectan determinadas variables explicativas de componente social psicoloacutegico y fisioloacutegico al nuacutemero de cigarrillos que diariamente consumen los sujetos de una muestra de fumadores seleccionada al azar a partir de una lista censal expuesta en un colegio electoral de la ciudad de Oviedo En esta situacioacuten una parte de la variacioacuten observada en la conducta de fumar de los sujetos seraacute adecuadamente explicada por la accioacuten de las variables independientes resentildeadas mientras que otra parte quedaraacute sin explicar y estaraacute alojada en la uacutenica fuente de variacioacuten aleatoria existente Asiacute pues los datos empiacutericos que se desean explicar son funcioacuten de un componente sistemaacutetico representado por una combinacioacuten de variables explicativas y sus respectivos coeficientes (vector del predictor lineal) y un componente aleatorio que recoge la discrepancia o error entre las respuestas observadas y las pronosticadas por el modelo Por consiguiente en este caso el modelo lineal general resulta apropiado pues al ser la respuesta de naturaleza meacutetrica se asume que los errores asociados con las unidades de observacioacuten se distribuyen normalmente y que el vector de valores esperados de la respuesta es una funcioacuten lineal de un vector de coeficientes o paraacutemetros desconocidos
Sigamos con nuestro ejemplo ficticio referido a la conducta de fumar pero admitamos ahora que el investigador estuviese interesado en estudiar coacutemo afectan las variables explicativas de componente social psicoloacutegico y fisioloacutegico al grado de adiccioacuten a la nicotina Para alcanzar dicho objetivo los sujetos que fumen 20 cigarrillos o maacutes al diacutea seraacuten clasificados como altamente dependientes los qUe fumen entre 10 Y 20 cigarrillos como moderadamente dependientes y los que fumen menos de 10 como levemente dependientes En esta nueva situacioacuten las variables explicativas son las mismas que en el ejemplo anterior sin embargo la variable dependiente es categoacuterica Salvo que el teorema central del liacutemite diga otra cosa cuando la variable de respuesta carece de naturaleza meacutetrica no parece apropiado asumir que los errores sigan una distribucioacuten normal o que el valor esperado de la respuesta sea una funcioacuten lineal de un vector de paraacutemetros desconocidos La solucioacuten natural para analizar datos que presenten esta caracteriacutestica la ofrece el modelo lineal generalizado En concreto este modelo resuelve los problemas resentildeados transformando el vector
90 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
de valores esperados a la misma escala de medida que se utilice en el proceso de estimacioacuten de la funcioacuten de regresioacuten Obviamente la transformacioacuten operada en las observaciones seraacute una u otra dependiendo de la distribucioacuten de probabilidad que se seleccione para la variable de respuesta Por ejemplo si la distribucioacuten de probabilidad que se eUge para la variable de respuesta es la distribucioacuten gamma la funcioacuten que sirve para relacionar el vector de valores esperados y el vector del predictor lineal seraacute la reciacuteproca de la media si se selecciona la distribucioacuten binomial la funcioacuten de enlace seraacute la transformacioacuten logit si se selecciona la distribucioacuten de poisson la funcioacuten de enlace seraacute la logariacutetmica si se selecciona la inversa gaussiana la funcioacuten de enlace seraacute la reciacuteproca de la media al cuadrado mientras que si se selecciona la distribucioacuten multinomialla funcioacuten de enlace seraacute ellogit generalizado
El modelo lineal generalizado al incluir cualquier miembro de la familia exponencial de distribuciones para describir la probabilidad del teacutermino de error constituye una versioacuten generalizada del modelo lineal claacutesico sin embargo nos seguimos encontrando con un modelo que para explicar el comportamiento observado en la respuesta incluye un uacutenico teacutermino aleatorio distribuido independientemente con arreglo a la distribucioacuten de error seleccionada para los datos
Para comprender mejor las limitaciones inherentes a ambos modelos imagine el lector por uacuteltimo que a nuestro investigador conductual no soacutelo le hubiese interesado estudiar queacute variables sociales psicoloacutegicas y fisioloacutegicas teniacutean mayor relevancia en la conducta de fumar sino que tambieacuten hubiese tenido curiosidad por verificar la eficacia de un programa de autoayuda para dejar de fumar basado esencialmente en informacioacuten suministrada por correo y en llamadas telefoacutenicas Para alcanzar dicho objetivo el investigador estimoacute conveniente utilizar un proceso de muestreo en dos etapas En la primera eligioacute una muestra aleatoria de los colegios electorales de la ciudad resentildeada con anterioridad mientras que en la segunda seleccionoacute una muestra aleatoria de sujetos dentro de cada colegio Posteriormente la mitad de los grupos resultantes del proceso de muestreo fueron asignados al azar a la condicioacuten de tratamiento y la otra mitad a la condicioacuten de comparacioacuten o control En una situacioacuten como la descrita resultariacutea inapropiado utilizar un modelo que incluyera
Amenazas a la validez analftica de las teacutecnicas 91
una uacutenica fuente de variacioacuten aleatoria De hecho si un investigador procediese de este modo ignorariacutea tanto la variabilidad existente entre los diferentes grupos (habitualmente los grupos no estaacuten formados al azar y por ende cabe esperar que difieran en muacuteltiples y variados aspectos) como la variabilidad existente dentro de los grupos y con ello la variabilidad individual Sea como fuere mal en cualquier caso
Como sentildeala Murray (1998) cuando la variable de respuesta tiene una estructura meacutetrica pero existe maacutes de una fuente de variacioacuten aleatoria ninguno de los procedimientos anteriores resulta apropiado En este caso la solucioacuten natural la proporciona el modelo mixto lineal generala alternativamente el modelo mixto lineal generalizado si la naturaleza de la variable de respuesta origina datos categoacutericos Ademaacutes ambos modelos se pueden aplicar cuando existe desgaste de muestra (observaciones perdidas) y los datos se desviacutean de los supuestos de homogeneidad e independencia Por lo tanto para aplicar correctamente el modelo claacutesico o el modelo generalizado a este tipo de datos se requiere satisfacer ciertos supuestos en especial el que alude a la ausencia de relacioacuten entre las observaciones Sin embargo la independencia estocaacutestica queda puesta en entredicho cuando lo que se asigna al azar a las condiciones de control y tratamiento son unidades de anaacutelisis colectivas en lugar de unidades de anaacutelisis individuales Cuando los grupos constituyen la unidad de anaacutelisis lo sensato es pensar que las caracteriacutesticas especiacuteficas de los grupos queden reflejadas en los datos pues las observaciones que estaacuten proacuteximas en el tiempo en el espacio o en ambas dimensiones a la vez tienden a ser maacutes homogeacuteneas que las observaciones que se encuentran alejadas Es muy probable que los datos que se extraen desde agrupaciones naturales tales como municipios comunidades sanitarias o escuelas mantengan un cierto grado de parecido entre siacute dado que se hallan expuestas a influencias comunes Por ejemplo los estudiantes de una clase conversan unos con otros rutinariamente comparten el mismo tipo de experiencias y estaacuten expuestos a las mismas contingencias educativas Por consiguiente como sentildealan Shadish Cook y Campbell (2002) las observaciones registradas desde cada unidad reflejaraacuten tanto los efectos que la propia individualidad tiene sobre la conducta como los efectos que las variables colectivas ejercen sobre los individuos Los primeros efectos variaraacuten dentro de
92 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
las unidades colectivas y a traveacutes de las mismas mientras que los segundos tan soacutelo variaraacuten entre las distintas unidades colectivas
Debido a que el agrupamiento induce correlacioacuten (la homogeneidad dentro del grupo implica que los errores entre los miembros del mismo esteacuten relacionados por lo general positivamente) los modelos estadiacutesticos que no contemplen la dependencia entre las unidades produciraacuten errores estaacutendar de los paraacutemetros de intereacutes negativamente sesgados contrastes estadiacutesticos positivamente sesgados y tasas de error infladas (Carvajal Baumler Harrist y Parcel 2001 Kish 1965 Krull y MacKinnon 2001) En la praacutectica esto supone que cuando los datos esteacuten positivamente correlacionados tanto las pruebas basadas en el modelo lineal claacutesico como las basadas en el modelo lineal generalizado incrementaraacuten sustancialmente la probabilidad de rechazar la hipoacutetesis nula y por consiguiente induciraacuten al investigador a concluir que su tratamiento es efectivo cuando lo cierto es que puede haber resultado completamente ineficaz En consecuencia la liberalidad de estas pruebas facilita que se capitalice sobre el azar con mayor frecuencia de la debida por obtener estimaciones ineficientes
El precio a pagar cuando se utilizan pruebas estadiacutesticas que ignoran el agrupamiento de los datos puede ser mostrado analiacuteticamente con relativa facilidad efectuando dos pequentildeas operaciones Por un lado elaborando alguacuten iacutendice que nos informe de la relacioacuten existente entre las respuestas de los sujetos que forman parte del mismo grupo Como es bien sabido la correlacioacuten dentro del grupo y debida entre otras posibles causas al proceso de seleccioacuten exposicioacuten interaccioacuten mutua o alguna combinacioacuten de eacutestas queda convenientemente reflejada mediante la razoacuten de componentes de varianzas o coeficiente de correlacioacuten dentro del grupo (r) Y por otro lado descubriendo la varianza correspondiente al efecto de la intervencioacuten Para los datos del ejemplo anterior la varianza correspondiente a la diferencia entre las dos condiciones de medias asumiendo grupos (q) de igual tamantildeo (n) resultoacute ser (ver Anexo 1)
2 [o + nO~(A)] nq
(1)
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
90 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
de valores esperados a la misma escala de medida que se utilice en el proceso de estimacioacuten de la funcioacuten de regresioacuten Obviamente la transformacioacuten operada en las observaciones seraacute una u otra dependiendo de la distribucioacuten de probabilidad que se seleccione para la variable de respuesta Por ejemplo si la distribucioacuten de probabilidad que se eUge para la variable de respuesta es la distribucioacuten gamma la funcioacuten que sirve para relacionar el vector de valores esperados y el vector del predictor lineal seraacute la reciacuteproca de la media si se selecciona la distribucioacuten binomial la funcioacuten de enlace seraacute la transformacioacuten logit si se selecciona la distribucioacuten de poisson la funcioacuten de enlace seraacute la logariacutetmica si se selecciona la inversa gaussiana la funcioacuten de enlace seraacute la reciacuteproca de la media al cuadrado mientras que si se selecciona la distribucioacuten multinomialla funcioacuten de enlace seraacute ellogit generalizado
El modelo lineal generalizado al incluir cualquier miembro de la familia exponencial de distribuciones para describir la probabilidad del teacutermino de error constituye una versioacuten generalizada del modelo lineal claacutesico sin embargo nos seguimos encontrando con un modelo que para explicar el comportamiento observado en la respuesta incluye un uacutenico teacutermino aleatorio distribuido independientemente con arreglo a la distribucioacuten de error seleccionada para los datos
Para comprender mejor las limitaciones inherentes a ambos modelos imagine el lector por uacuteltimo que a nuestro investigador conductual no soacutelo le hubiese interesado estudiar queacute variables sociales psicoloacutegicas y fisioloacutegicas teniacutean mayor relevancia en la conducta de fumar sino que tambieacuten hubiese tenido curiosidad por verificar la eficacia de un programa de autoayuda para dejar de fumar basado esencialmente en informacioacuten suministrada por correo y en llamadas telefoacutenicas Para alcanzar dicho objetivo el investigador estimoacute conveniente utilizar un proceso de muestreo en dos etapas En la primera eligioacute una muestra aleatoria de los colegios electorales de la ciudad resentildeada con anterioridad mientras que en la segunda seleccionoacute una muestra aleatoria de sujetos dentro de cada colegio Posteriormente la mitad de los grupos resultantes del proceso de muestreo fueron asignados al azar a la condicioacuten de tratamiento y la otra mitad a la condicioacuten de comparacioacuten o control En una situacioacuten como la descrita resultariacutea inapropiado utilizar un modelo que incluyera
Amenazas a la validez analftica de las teacutecnicas 91
una uacutenica fuente de variacioacuten aleatoria De hecho si un investigador procediese de este modo ignorariacutea tanto la variabilidad existente entre los diferentes grupos (habitualmente los grupos no estaacuten formados al azar y por ende cabe esperar que difieran en muacuteltiples y variados aspectos) como la variabilidad existente dentro de los grupos y con ello la variabilidad individual Sea como fuere mal en cualquier caso
Como sentildeala Murray (1998) cuando la variable de respuesta tiene una estructura meacutetrica pero existe maacutes de una fuente de variacioacuten aleatoria ninguno de los procedimientos anteriores resulta apropiado En este caso la solucioacuten natural la proporciona el modelo mixto lineal generala alternativamente el modelo mixto lineal generalizado si la naturaleza de la variable de respuesta origina datos categoacutericos Ademaacutes ambos modelos se pueden aplicar cuando existe desgaste de muestra (observaciones perdidas) y los datos se desviacutean de los supuestos de homogeneidad e independencia Por lo tanto para aplicar correctamente el modelo claacutesico o el modelo generalizado a este tipo de datos se requiere satisfacer ciertos supuestos en especial el que alude a la ausencia de relacioacuten entre las observaciones Sin embargo la independencia estocaacutestica queda puesta en entredicho cuando lo que se asigna al azar a las condiciones de control y tratamiento son unidades de anaacutelisis colectivas en lugar de unidades de anaacutelisis individuales Cuando los grupos constituyen la unidad de anaacutelisis lo sensato es pensar que las caracteriacutesticas especiacuteficas de los grupos queden reflejadas en los datos pues las observaciones que estaacuten proacuteximas en el tiempo en el espacio o en ambas dimensiones a la vez tienden a ser maacutes homogeacuteneas que las observaciones que se encuentran alejadas Es muy probable que los datos que se extraen desde agrupaciones naturales tales como municipios comunidades sanitarias o escuelas mantengan un cierto grado de parecido entre siacute dado que se hallan expuestas a influencias comunes Por ejemplo los estudiantes de una clase conversan unos con otros rutinariamente comparten el mismo tipo de experiencias y estaacuten expuestos a las mismas contingencias educativas Por consiguiente como sentildealan Shadish Cook y Campbell (2002) las observaciones registradas desde cada unidad reflejaraacuten tanto los efectos que la propia individualidad tiene sobre la conducta como los efectos que las variables colectivas ejercen sobre los individuos Los primeros efectos variaraacuten dentro de
92 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
las unidades colectivas y a traveacutes de las mismas mientras que los segundos tan soacutelo variaraacuten entre las distintas unidades colectivas
Debido a que el agrupamiento induce correlacioacuten (la homogeneidad dentro del grupo implica que los errores entre los miembros del mismo esteacuten relacionados por lo general positivamente) los modelos estadiacutesticos que no contemplen la dependencia entre las unidades produciraacuten errores estaacutendar de los paraacutemetros de intereacutes negativamente sesgados contrastes estadiacutesticos positivamente sesgados y tasas de error infladas (Carvajal Baumler Harrist y Parcel 2001 Kish 1965 Krull y MacKinnon 2001) En la praacutectica esto supone que cuando los datos esteacuten positivamente correlacionados tanto las pruebas basadas en el modelo lineal claacutesico como las basadas en el modelo lineal generalizado incrementaraacuten sustancialmente la probabilidad de rechazar la hipoacutetesis nula y por consiguiente induciraacuten al investigador a concluir que su tratamiento es efectivo cuando lo cierto es que puede haber resultado completamente ineficaz En consecuencia la liberalidad de estas pruebas facilita que se capitalice sobre el azar con mayor frecuencia de la debida por obtener estimaciones ineficientes
El precio a pagar cuando se utilizan pruebas estadiacutesticas que ignoran el agrupamiento de los datos puede ser mostrado analiacuteticamente con relativa facilidad efectuando dos pequentildeas operaciones Por un lado elaborando alguacuten iacutendice que nos informe de la relacioacuten existente entre las respuestas de los sujetos que forman parte del mismo grupo Como es bien sabido la correlacioacuten dentro del grupo y debida entre otras posibles causas al proceso de seleccioacuten exposicioacuten interaccioacuten mutua o alguna combinacioacuten de eacutestas queda convenientemente reflejada mediante la razoacuten de componentes de varianzas o coeficiente de correlacioacuten dentro del grupo (r) Y por otro lado descubriendo la varianza correspondiente al efecto de la intervencioacuten Para los datos del ejemplo anterior la varianza correspondiente a la diferencia entre las dos condiciones de medias asumiendo grupos (q) de igual tamantildeo (n) resultoacute ser (ver Anexo 1)
2 [o + nO~(A)] nq
(1)
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
Amenazas a la validez analftica de las teacutecnicas 91
una uacutenica fuente de variacioacuten aleatoria De hecho si un investigador procediese de este modo ignorariacutea tanto la variabilidad existente entre los diferentes grupos (habitualmente los grupos no estaacuten formados al azar y por ende cabe esperar que difieran en muacuteltiples y variados aspectos) como la variabilidad existente dentro de los grupos y con ello la variabilidad individual Sea como fuere mal en cualquier caso
Como sentildeala Murray (1998) cuando la variable de respuesta tiene una estructura meacutetrica pero existe maacutes de una fuente de variacioacuten aleatoria ninguno de los procedimientos anteriores resulta apropiado En este caso la solucioacuten natural la proporciona el modelo mixto lineal generala alternativamente el modelo mixto lineal generalizado si la naturaleza de la variable de respuesta origina datos categoacutericos Ademaacutes ambos modelos se pueden aplicar cuando existe desgaste de muestra (observaciones perdidas) y los datos se desviacutean de los supuestos de homogeneidad e independencia Por lo tanto para aplicar correctamente el modelo claacutesico o el modelo generalizado a este tipo de datos se requiere satisfacer ciertos supuestos en especial el que alude a la ausencia de relacioacuten entre las observaciones Sin embargo la independencia estocaacutestica queda puesta en entredicho cuando lo que se asigna al azar a las condiciones de control y tratamiento son unidades de anaacutelisis colectivas en lugar de unidades de anaacutelisis individuales Cuando los grupos constituyen la unidad de anaacutelisis lo sensato es pensar que las caracteriacutesticas especiacuteficas de los grupos queden reflejadas en los datos pues las observaciones que estaacuten proacuteximas en el tiempo en el espacio o en ambas dimensiones a la vez tienden a ser maacutes homogeacuteneas que las observaciones que se encuentran alejadas Es muy probable que los datos que se extraen desde agrupaciones naturales tales como municipios comunidades sanitarias o escuelas mantengan un cierto grado de parecido entre siacute dado que se hallan expuestas a influencias comunes Por ejemplo los estudiantes de una clase conversan unos con otros rutinariamente comparten el mismo tipo de experiencias y estaacuten expuestos a las mismas contingencias educativas Por consiguiente como sentildealan Shadish Cook y Campbell (2002) las observaciones registradas desde cada unidad reflejaraacuten tanto los efectos que la propia individualidad tiene sobre la conducta como los efectos que las variables colectivas ejercen sobre los individuos Los primeros efectos variaraacuten dentro de
92 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
las unidades colectivas y a traveacutes de las mismas mientras que los segundos tan soacutelo variaraacuten entre las distintas unidades colectivas
Debido a que el agrupamiento induce correlacioacuten (la homogeneidad dentro del grupo implica que los errores entre los miembros del mismo esteacuten relacionados por lo general positivamente) los modelos estadiacutesticos que no contemplen la dependencia entre las unidades produciraacuten errores estaacutendar de los paraacutemetros de intereacutes negativamente sesgados contrastes estadiacutesticos positivamente sesgados y tasas de error infladas (Carvajal Baumler Harrist y Parcel 2001 Kish 1965 Krull y MacKinnon 2001) En la praacutectica esto supone que cuando los datos esteacuten positivamente correlacionados tanto las pruebas basadas en el modelo lineal claacutesico como las basadas en el modelo lineal generalizado incrementaraacuten sustancialmente la probabilidad de rechazar la hipoacutetesis nula y por consiguiente induciraacuten al investigador a concluir que su tratamiento es efectivo cuando lo cierto es que puede haber resultado completamente ineficaz En consecuencia la liberalidad de estas pruebas facilita que se capitalice sobre el azar con mayor frecuencia de la debida por obtener estimaciones ineficientes
El precio a pagar cuando se utilizan pruebas estadiacutesticas que ignoran el agrupamiento de los datos puede ser mostrado analiacuteticamente con relativa facilidad efectuando dos pequentildeas operaciones Por un lado elaborando alguacuten iacutendice que nos informe de la relacioacuten existente entre las respuestas de los sujetos que forman parte del mismo grupo Como es bien sabido la correlacioacuten dentro del grupo y debida entre otras posibles causas al proceso de seleccioacuten exposicioacuten interaccioacuten mutua o alguna combinacioacuten de eacutestas queda convenientemente reflejada mediante la razoacuten de componentes de varianzas o coeficiente de correlacioacuten dentro del grupo (r) Y por otro lado descubriendo la varianza correspondiente al efecto de la intervencioacuten Para los datos del ejemplo anterior la varianza correspondiente a la diferencia entre las dos condiciones de medias asumiendo grupos (q) de igual tamantildeo (n) resultoacute ser (ver Anexo 1)
2 [o + nO~(A)] nq
(1)
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
92 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secades
las unidades colectivas y a traveacutes de las mismas mientras que los segundos tan soacutelo variaraacuten entre las distintas unidades colectivas
Debido a que el agrupamiento induce correlacioacuten (la homogeneidad dentro del grupo implica que los errores entre los miembros del mismo esteacuten relacionados por lo general positivamente) los modelos estadiacutesticos que no contemplen la dependencia entre las unidades produciraacuten errores estaacutendar de los paraacutemetros de intereacutes negativamente sesgados contrastes estadiacutesticos positivamente sesgados y tasas de error infladas (Carvajal Baumler Harrist y Parcel 2001 Kish 1965 Krull y MacKinnon 2001) En la praacutectica esto supone que cuando los datos esteacuten positivamente correlacionados tanto las pruebas basadas en el modelo lineal claacutesico como las basadas en el modelo lineal generalizado incrementaraacuten sustancialmente la probabilidad de rechazar la hipoacutetesis nula y por consiguiente induciraacuten al investigador a concluir que su tratamiento es efectivo cuando lo cierto es que puede haber resultado completamente ineficaz En consecuencia la liberalidad de estas pruebas facilita que se capitalice sobre el azar con mayor frecuencia de la debida por obtener estimaciones ineficientes
El precio a pagar cuando se utilizan pruebas estadiacutesticas que ignoran el agrupamiento de los datos puede ser mostrado analiacuteticamente con relativa facilidad efectuando dos pequentildeas operaciones Por un lado elaborando alguacuten iacutendice que nos informe de la relacioacuten existente entre las respuestas de los sujetos que forman parte del mismo grupo Como es bien sabido la correlacioacuten dentro del grupo y debida entre otras posibles causas al proceso de seleccioacuten exposicioacuten interaccioacuten mutua o alguna combinacioacuten de eacutestas queda convenientemente reflejada mediante la razoacuten de componentes de varianzas o coeficiente de correlacioacuten dentro del grupo (r) Y por otro lado descubriendo la varianza correspondiente al efecto de la intervencioacuten Para los datos del ejemplo anterior la varianza correspondiente a la diferencia entre las dos condiciones de medias asumiendo grupos (q) de igual tamantildeo (n) resultoacute ser (ver Anexo 1)
2 [o + nO~(A)] nq
(1)
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
Amenazas a la validez analiacutetica de las teacutecnicas 93
Dos implicaciones sumamente importantes se desprenden de la ecuacioacuten (1) En primer lugar si los miembros que configuran los grupos son muy heterogeacuteneos entre siacute la varianza de los tratamientos seraacute sustancialmente maacutes pequentildea que si los miembros son muy homogeacuteneos De ah iacute que las tasas de error de Tipo I sean muy elevadas cuando se obvia la dependencia existente entre las puntuaciones De hecho cuando la correlacioacuten es mayor que cero cualquier modelo matemaacutetico que ignore la varianza debida a la unidad de asignacioacuten (grupos de sujetos intactos en nuestro caso) generaraacute tasas de error por encima del nivel de significacioacuten estipulado Por consiguiente cualquier prueba que asuma correlacioacuten nula falsamente por supuesto tendraacute un comportamiento liberal y proporcionaraacute estimaciones ineficientes Lo afirmado puede ser comprobado faacutecilmente examinado los resultados analiacuteticos recogidos en la Tabla 1 Dicha tabla ofrece la relacioacuten existente entre las tasas de error de Tipo I y las variables nuacutemero de grupos por condicioacuten (2 4 8 16 Y 32) tamantildeo de los grupos (S 10 20 Y 40) Y grado de correlacioacuten existente dentro de los grupos (00 01 02 Y 03) En segundo lugar en presencia de correlacioacuten positiva cualquier prueba estadiacutestica que reconozca la varianza debida a la unidad de asignacioacuten reduciraacute la potencia comparado con un estudio en el cual el grado de correlacioacuten entre las observaciones dentro del grupo tienda a cero En la Tabla 1 tambieacuten se puede verificar la relacioacuten que existe entre el tamantildeo del efecto requerido para satisfacer una potencia de 080 con un nivel de significacioacuten del 5 y las variables nuacutemero de grupos por condicioacuten tamantildeo de los grupos y grado de correlacioacuten existente dentro de los grupos Dichos valores han sido obtenidos utilizando el programa SAS (2001 ver coacutedigos Anexo 2)
Ademaacutes de lo dicho maacutes arriba tres patrones emergen de la tabla anterior Uno las tasas de error de Tipo I mantienen una relacioacuten monotoacutenica creciente con las variables nuacutemero de grupos tamantildeo de los mismos y grado de correlacioacuten existente entre los miembros que configuran los grupos Dos el tamantildeo del efecto requerido para satisfacer una determinada potencia disminuye conforme se incrementa el nuacutemero de grupos el tamantildeo de los mismos y el grado de dependencia existente entre sus miembros Tres la precisioacuten del disentildeo depende maacutes del nuacutemero de grupos que del nuacutemero de sujetos dentro de los grupos Por consiguiente para alcanzar la potencia deseada resulta maacutes satisfactorio
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
Tab
la 1
Tas
as d
e er
ror y
tam
antildeo
del e
fect
o en
uni
dade
s es
taacutend
ar re
quer
ido
para
sat
isfa
cer u
na p
oten
cia
de O
80
~
rho
=0
00
rh
o =
0
0
rho
= 0
20
rho
-0
30
q n
tipo
l te
q
n ti
po 1
te
q
n ti
po 1
te
q
n ti
pol
te
Cj)
2 S
050
2
399
2 S
075
2
992
2 S
103
3
598
2 S
136
4
252
t
2 lO
0
50
169
6 2
lO
098
2
464
2 lO
1
48
317
3 2
lO
202
3
898
~
2 20
0
50
119
9 2
20
39
2
153
2 20
2
21
293
8 2
20
299
371
0 ~
2 40
0
50
084
8 2
40
206
1
979
2 40
3
24
281
3 2
40
419
3
612
O
4 S
050
1
060
4 S
097
1
332
4 5
154
1
590
4 S
217
188
0 ~
4 10
0
50
075
0 4
lO
143
1
089
4 lO
2
39
140
2 4
lO
328
1
724
4 20
0
50
053
0 4
20
222
0
952
4 20
3
56
129
8 4
20
459
1
640
S
4 40
0
50
037
5 4
40
335
0
875
4 40
4
88
124
3 4
40
587
1
597
$J
8 S
050
0
674
8 S
108
0
840
8 S
175
1
011
8 S
246
1
194
~
8 10
0
50
047
6 8
lO
162
0
692
8 lO
2
71
089
1 8
lO
367
1
095
~
8 20
0
50
033
7 8
20
252
0
605
8 20
3
082
5 8
20
499
1
042
3 8
40
050
0
238
8 40
3
74
055
6 8
40
528
0
790
8 40
6
22
101
5 sect-
16
S 0
50
045
8 16
S
112
0
571
16
S 1
83
068
7 16
S
258
081
2 16
O
0
50
032
4 16
lO
1
70
047
0 16
O
2
84
060
6 16
10
3
81
074
4 ~
16
20
050
02
29
16
20
264
0
411
16
20
411
0
561
16
20
514
0
708
3 16
40
0
50
016
2 16
40
3
88
037
8 16
40
5
43
0537
16
40
6
35
069
0 lIl
32
5 0
50
031
8 32
S
114
0
397
32
S 1
88
047
7 32
S
264
05
64
~ 32
lO
0
50
022
5 32
10
1
74
032
7 32
lO
2
89
042
1 32
lO
3
88
051
7 I
32
10
0
50
015
9 32
20
2
70
0286
32
20
4
28
039
0 32
20
5
21
049
2 ~
32
lO
050
0
13
32
40
395
0
263
32
40
549
0
373
32
40
645
0
479
g-N
ota
o
= 1
rho
= c
orre
laci
6n d
entr
o de
105
gru
pos
q =
nuacutem
ero
de g
rupo
s po
r co
ndic
i6n
de tr
atam
ient
o
a-n
= n
uacutemer
o de
suj
etos
den
tro
de c
ada
grup
o t
ipo
1 =
tas
as d
e er
ror
te
= t
amai
lo d
el e
fect
o es
tand
ariz
ado
~
~ ~
C)
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
Amenazas a la validez analiacutetica de las teacutecnicas 95
incrementar el nuacutemero de unidades colectivas que el tamantildeo de las mismas aunque esta no deja de ser una cuestioacuten delicada si nos atenemos a los costos del disentildeo Por regla general el muestreo de los grupos resultaraacute maacutes costoso que el muestreo de sus miembros
EL PROBLEMA DEL SESGO DE AGREGACiOacuteN
La utilizacioacuten de unidades de investigacioacuten colectivas conduce de una manera casi inevitable al denominado sesgo de agregacioacuten Dicho sesgo se presenta cuando se obtienen resultados diferentes para una misma variable dependiendo de cual sea nivel de anaacutelisis adoptado Por ejemplo Raudenbush y Bryk (2002) sentildealan que en la investigacioacuten educacional el promedio de la variable clase social medido en el nivel de la escuela puede tener un efecto superior e inclusive maacutes duradero que el efecto de la clase social medido en el nivel del estudiante Asiacute pues la eleccioacuten de distintos niveles de anaacutelisis nos puede llevar a obtener conclusiones diferentes acerca de los efectos de una variable particular a no ser que la relacioacuten entre la variable dependiente y la variable independiente fuese la misma dentro y a traveacutes de las unidades de anaacutelisis En el contexto longitudinal dicha confusioacuten no se presentariacutea cuando las observaciones dentro y a traveacutes de los sujetos fuesen intercambiables Esto es cuando la relacioacuten entre la variable dependiente y la variable independiente para un determinado sujeto en dos puntos cualesquiera del tiempo no difiriese de la relacioacuten obtenida por dos sujetos diferentes en los mismos puntos
Los supuestos que acabamos de exponer aunque no resulten imposibles de cumplir siacute son poco probables de satisfacer en la mayor parte de los aacutembitos de investigacioacuten Por lo tanto de utilizarse un anaacutelisis de la regresioacuten de un solo nivel surgiriacutean problemas interpretativos pues los coeficientes de regresioacuten obtenidos seriacutean diferentes dependiendo de que el anaacutelisis se efectuase en el nivel superior utilizando medidas de respuesta del grupo o en el nivel inferior utilizando medidas de respuesta individual En concreto limitaacutendonos al ejemplo de Raudenbush y Brik las inferencias que se efectuacuteen de los estudiantes a partir del anaacutelisis realizado en el nivel escuela diferiraacuten de las inferencias que se realicen de los mismos a partir del anaacutelisis realizado en el nivel estudiante y viceversa Dado que los resultados
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
96 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
obtenidos variaraacuten dependiendo de cual sea la unidad de anaacutelisis utilizada la pregunta que surge de inmediato es la siguiente iquestresulta apropiado ignorar la variabilidad individual agregando las medidas dentro de los grupos para garantizar la independencia de las observaciones A pesar que Murray (1998) considera al anaacutelisis de medias como una estrategia adecuada para este tipo de datos pensamos que esta praacutectica constituye maacutes un problema que una solucioacuten pues ademaacutes de reducir la potencia de las pruebas estadiacutesticas (sensibilidad para captar las diferencias existentes entre los grupos que conforman las condiciones de investigacioacuten) olvida que la interdependencia entre los individuos tiene intereacutes por derecho propio
Los modelos mixtos con teacuterminos aleatorios anidados ademaacutes de permitirnos manejar disentildeos con desgaste de muestra tambieacuten resuelven los problemas expuestos en los apartados anteriores Mediante estos modelos el problema de la unidad de anaacutelisis se maneja computando los componentes de varianza correspondientes a las unidades de asignacioacuten y de observacioacuten A su vez la confusioacuten derivada del sesgo de agregacioacuten se maneja descomponiendo la relacioacuten observada entre variables tales como el logro acadeacutemico y la clase social dentro de componentes separados de primer y segundo nivel Mediante esta teacutecnica ambos problemas son tratados formulando modelos e hipoacutetesis para procesos y relaciones dentro y a traveacutes de los diferentes niveles Apuntar finalmente que este enfoque capacita al investigador para formalizar la estructura anidada de sus datos de una manera compacta El modelo resultante de combinar los diferentes modelos expresa las relaciones entre las variables propias de ese nivel y especifica de queacute modo las variables de un nivel se relacionan con las relaciones que acontecen en otro nivel diferente Al combinar la informacioacuten obtenida a traveacutes de los niveles la teacutecnica permite examinar simultaacuteneamente los efectos de las variables en cada uno de los niveles implicados asiacute como la posible interaccioacuten entre las variables pertenecientes a niveles que difieren entre siacute
A MODO DE CONCLUSIOacuteN
Cuando se trabaja con datos organizados jeraacuterquicamente lo usual es que se incumpla el supuesto de independencia que existan muacuteltiples
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
Amenazas a la validez analiacutetica de las teacutecnicas 97
fuentes de variacioacuten aleatoria y que acontezcan problemas interpretativos derivados de la frecuente agregacioacuten de los datos En estos casos ni las teacutecnicas basadas en el modelo lineal general ni en el modelo lineal generalizado resultan apropiadas Pues en todas ellas tan soacutelo se permite captar la variacioacuten de un uacutenico componente Si los datos siguen una distribucioacuten normal la solucioacuten natural la suministra el modelo mixto lineal general (ver Harville 1977 Henderson 1975) mientras que si los datos siguen cualquier otro miembro de la familia exponencial la solucioacuten la natural la proporciona modelo mixto lineal generalizado (ver Breslow y Clayton 1993 Wolfinger y OConnell 1993) El uso de estos modelos ademaacutes de proporcionar una solucioacuten adecuada a los problemas planteados tambieacuten reduce los efectos del azar asociados con la realizacioacuten de pruebas muacuteltiples (Rindskopf y Saxe 1998) Cuando se emplean las teacutecnicas analiacuteticas convencionales se intenta examinar cada nivel separadamente lo que ocasiona que se efectuacutee un nuacutemero considerable de pruebas Mediante el uso meacutetodos basados en el enfoque del modelo mixto el nuacutemero de pruebas estadiacutesticas para cada variable dependiente se reduce baacutesicamente a dos pruebas globales a saber una para los efectos fijos del modelo y otra para los efectos aleatorios del mismo
En definitiva cuando las intervenciones se aplican a traveacutes de muacuteltiples unidades de agrupamiento se requiere un enfoque analiacutetico distinto del empleado tradicionalmente para contrastar las hipoacutetesis de intereacutes Como se ha puesto de relieve en un trabajo previo (Vallejo Fernaacutendez y Secades 2003) si se cuenta con tamantildeos de muestra moderados de cada uno de los niveles implicados los modelos multinivel un caso especial del modelo mixto lineal general (Mass y Snijders 2003 Cnaan Laird y Slasor 1997) desarrollados gracias al esfuerzo de numerosos investigadores por preservar la estructura jeraacuterquica de los datos proporcionan un conjunto de herramientas potentes y flexibles Estos modelos no soacutelo permiten efectuar estimaciones maacutes precisas que las obtenidas con las teacutecnicas tradicionales en especial cuando existe desgaste de muestra sino tambieacuten desarrollar modelos conceptualmente maacutes adecuados para dar cuenta de las interrelaciones que se dan entre los individuos y entre eacutestos y el medio ambiente tanto en contextos transversales como longitudinales
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
98 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
REFERENCIAS BIBLlOG RAacuteFICAS
Ato M (2002) El modelo Lineal General y sus Aplicaciones Documento mimeografiado Universidad de Murcia
Breslow N E amp Clayton D G (1993) Approximate inference in generalized linear mixed models Joumal of the American Statistical Association 88 9-25
Cnaan A Laird N M amp Slasor P (1997) Using the general linear mixed model to analyse unbalanced repeated measures and longitudinal data Statistics in Medicine 162349-2380
Carvajal S C Baumler E Harrist R B amp Parcel G S (2001) Multinivel models and unbiased tests for group based interventions Examples from the safer choices study Multivariate Behaviora Research 36(2) 185-205
Harville D A (1977) Maximum likelihood approaches to variance component estimation and to related problems Journa of the American Statistical Association 72 320-338
Henderson C R (1975) The best linear unbiased estimation and prediction under a selection model Biometrics 31423-447
Kish L (1965) Survey Sampling New York John Wiley amp Sonso Kull L J amp MacKinnon D P (2001) Multinivel modeling of individual
and group level mediated effects Mutivariate Behavioral Research 36 249-277
Maas C J M amp Snijders T A B (2003) The multinivel approach to repeated measures for complete and incomplete data Quality and Quantity 37 71-89
Murray D M (1998) Design and Anaysis of Group-Randomized Trias New York Oxford University Press
Raudenbush S W amp Bryk AS (2002) Hierarchica Linear Models Applications and Data Thousand Oaks CA SAGE Publications Inc
Rindskopf D amp Saxe L (1998) Zero effects in substance abuse programs Avoiding false positives and false negatives in the evaluation of community-based programs Evaluation Review 22 78-94
SAS Institute Inc (2001) SASSTAT Software Version 82 (TS MO) Cary NC SAS Institute IncShadish W R Cook T D amp Campbell
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
Amenazas a la validez analiacutetica de las teacutecnicas 99
D J (2002) Experimental and QuasiExperimental Designs for Generalized Causallnference Boston Houghton Mifflin
Vallejo G Fernaacutendez J R Y Secades R (2003) Anaacutelisis estadiacutestico y consideraciones de potencia en la evaluacioacuten de programas de muestreo de dos etapas Psicothema 15 300-308
Wolfinger R amp QConnell M (1993) Generalized linear mixed models A pseudo-likelihood approach Joumal of Statistical Computation and Simulation 48 233-243
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
100 Guillermo Vallejo J Ramoacuten Fernaacutendez Roberto Secadas
ANEXO 1
En un disentildeo entre grupos al azar la varianza de y ij es igual a 0 mientras que en un disentildeo jeraacuterquico de grupos al azar tenemos
Var(Yijk)=O +O~(A)
Cov (y ijk Yiexcl jk ) = O~(A)
donde O~(A) es el componente de varianza atribuible a la unidad de
asignacioacuten o de agrupamiento y 0 =O~ -O~(A) (tambieacuten
0 = O~ (1-p)) el componente de varianza atribuible a la unidad de
observacioacuten Siendo la correlacioacuten existente entre las respuestas de dos sujetos de un mismo grupo
2 Op(A)
p= 2 2 a + Op(A)
la porcioacuten de varianza total atribuible a la unidad de asignacioacuten o de agregacioacuten A su vez la varianza de la media del grupo del disentildeo jeraacuterquico de grupos alzar viene dada por
2 2 2 2 a 2 0[ + nOp(A)
aYa =~ +Op(A) = n
O~ Yo
O~ Yo
O~ Yo
2 2 2 2 a + Op(A) +nOp(A) -OP(A)
n
0 + O~(A) + (n -1) O~A) n
(2 2 ) (o + O~A) )(n -l)O~(A) ~O + Op(A) + 2 2 0 + OfI(A)
n
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
Amenazas a la validez analiacutetica de las teacutecnicas 101
n
a (I +(n -l)p) YlI n
dividiendo la expresioacuten anterior por el nuacutemero de grupos asignados a la condicioacuten tratamiento se tiene que la varianza de la media de dicha condicioacuten es
(1 +(n -l)p) nq
2 2 O E + nO ji(A)
nq
y la varianza correspondiente al efecto de la intervencioacuten en nuestro caso la diferencia entre dos condiciones de medias vendraacute dado por
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print
102 Guillermo Vallejo J Ramoacuten Femaacutendez Roberto Secades
Coacutedigos programa SAS data optiacuteons nodate fdenameTablal aTabla1txt fdenameTabla2 aTabla2txt fdename TablaJ aTablaJtxt arraygrupos4(24816) array muestra 4 (5 1 02040) array rbo4(00 010203) a1pha=O05 tiacutepo2=20 sigmae=l dog=l to4iexcl doi=l t04
ANEXO 2
doj=l t04 c1=(I+(muestrai-I)rhoj) c2=(I-rboj)j tI=( l-probf(fmv( l-alpba 12 (gruposg-Iraquo c2c1l2(gruposg-1 )0raquo var=(2laquo(sigmael(l-rhojraquo(muestraigruposgraquoclraquo te=(sqrt(var (tinv( l-alpba22 (gruposg-1 )+tinv( l-tipo22(gruposg-
1raquo)2raquo po= l-probt(tinv(l-alpba22(gruposg-1 raquo2(gruposg-1 )telsqrt(varraquo fdeTablalput1 gruposg208muestrai3216rboj5226t1 53 fdeTabla2iexclput1 gruposg208muestrai3216rboj5226te53 fde Tabla3iexclput1 gruposg208muestrai3216rboj5226po53
end endiexcl
end run proc print