Download - II ENCUENTRO BINACIONAL DE ESTADÍSTICA · II ENCUENTRO BINACIONAL DE ESTADÍSTICA UNA INTRODUCCIÓN A LOS MODELOS GRÁFICOS PARA TABLAS DE CONTINGENCIA MULTIDIMENSIONALES (Versión

II ENCUENTRO BINACIONAL DE ESTADÍSTICA

UNA INTRODUCCIÓN A LOS MODELOS GRÁFICOS

PARA TABLAS DE CONTINGENCIA MULTIDIMENSIONALES

(Versión 1.0)

Alberto Camardiel

Universidad Central de Venezuela

Universidad de los Andes Facultad de Ciencias Económicas y Sociales

Mérida, 9 al 13 de Mayo del 2005

Introducción a los Modelos Gráficos Alberto Camardiel

2

INDICE

INTRODUCCIÓN 2

A. MODELOS LOG-LINEALES y MODELOS LOGIT 6

B. GRAFOS: NOTACIÓN Y DEFINICIONES BASICAS 17

C. GRAFOS DE INDEPENDENCIA CONDICIONAL 20

D. COLAPSO DE TABLAS DE CONTINGENCIA Y MODELOS LOG-LINEALES 26

E. MODELOS GRAFICOS Y MODELOS RECURSIVOS 28

BIBLIOGRAFÍA 37


3

INTRODUCCIÓN

El análisis de tablas de contingencia generadas por múltiples variables categóricas

con el fin de establecer asociaciones estadísticas de carácter complejo, se realiza mediante

el empleo de modelos log-lineales. Estos modelos gestados durante una buena parte del

siglo pasado, han venido recibiendo un fuerte impulso durante los últimos veinte años.

Entre los desarrollos recientes importantes se encuentran los modelos gráficos y los

modelos causales recursivos.

Los modelos gráficos se concibieron para facilitar la interpretación de los resultados

derivados del ajuste de modelos log-lineales y los modelos recursivos se propusieron para

permitir el tratamiento de múltiples variables respuesta. Estos últimos se pueden considerar

como una clase de los modelos gráficos útiles para analizar relaciones causales. Es

ampliamente aceptado que el establecimiento de explicaciones causales de fenómenos

concretos no se construye mediante manipulaciones numéricas o matemáticas de datos

asociados a las manifestaciones de interés, sino que son por el contrario el resultado de

procesos lógicos que ciertamente requieren del soporte empírico, pero éste sólo constituye

una condición necesaria para el establecimiento de la causalidad.

Los modelos gráficos son modelos para la representación de relaciones entre

múltiples variables que sean interpretables en términos del concepto de independencia

condicional. Este tipo de modelos puede visualizarse mediante el empleo de grafos

matemáticos que recogen las posibles interacciones que se pueden conformar con todas las


4

variables consideradas en el modelo. La idea de emplear grafos para representar relaciones

entre múltiples variables se remonta al trabajo desarrollado por el genetista Sewell Wright

(1934) durante los años veinte del siglo pasado. Leo Goodman (1973) desarrolló modelos

análogos para el análisis de tablas de contingencia y Dempster (1972) extendió estas ideas

para variables continuas bajo el nombre de Modelos de Selección de Covarianza. Para la

misma época, Wermuth (1976) elaboró modelos equivalentes a los de Dempster para tablas

de contingencia. El vínculo del concepto de independencia condicional y el de modelos log-

lineales para definir a los modelos gráficos se debe a Darroch, Lauritzen y Speed (1980).

Los modelos causales recursivos fueron presentados por Wermuth y Lauritzen (1983).

En este curso describiremos brevemente los modelos gráficos para el análisis de

tablas de contingencia de múltiples vías definidas por factores de naturaleza categórica y

haremos mención explicita de cómo emplear el paquete estadístico SPSS y el software

MIM1 desarrollado por D. Edwards (2000) para su ajuste y estimación. Después de un

necesario repaso de los modelos loglineales y de los modelos logit, presentamos el

concepto de grafos no dirigidos, grafos dirigidos acíclicos y grafos de cadena y algunas

propiedades de interés para su uso en los modelos gráficos. Introducimos además el muy

importante concepto de colapso de tablas de contingencia y colapso de modelos log-lineales

y finalmente presentamos los modelos gráficos asociados con los tres tipos de grafos

presentados anteriormente. El material del curso está basado mayormente en el texto de

Christensen (1997) y en menor proporción en el texto de Edwards (2000). Completaremos

el curso con la presentación de varios casos prácticos de análisis de tablas contingencia

1 El software MIM en su versión 3.1 se puede bajar en forma gratuita del sitio Web http://www.hypergraph.dk.


5

generadas en la investigación del problema de la pobreza en Venezuela con datos

provenientes del segundo semestre de la Encuesta de Hogares por Muestreo que realizó la

Oficina Central de Estadística e Informática (Ahora Instituto Nacional de Estadística) de

Venezuela en el año 1999.


6

A. MODELOS LOG-LINEALES y MODELOS LOGIT

La estructura de datos que se analiza mediante el empleo de modelos estadísticos

discretos es una tabla de contingencia formada por q variables cualitativas. Para tres

variables por ejemplo, una tabla tridimensional se representa por conteos que denotaremos

por

ijkn

para i=1...I, j=1...J y k=1...K. Si suponemos que esta tabla fue generada por un proceso de

muestreo multinomial, entonces la probabilidad que un individuo elegido aleatoriamente

reúna la característica i de la primera variable, la categoría j de la segunda variable y la

categoría k de la tercera variable la representaremos por

ijkp

para i=1...I, j=1...J y k=1...K. De esta forma consideraremos que los nijk son valores

observados de variables aleatorias Xijk que siguen una distribución multinomial de

parámetros n y pijk para i=1...I, j=1...J y k=1...K, es decir

111, , IJKX XL ∼ ( )111, , , IJKM n p pL .


7

Los valores esperados correspondientes los denotaremos por

...ijk ijkm n p=

para i=1...I, j=1...J y k=1...K. Denominaremos a las variables generadoras de la tabla

factores. Cuando se tenga interés en explicar ciertos factores en términos de otros factores,

denominaremos a los primeros factores respuesta o endógenos y a los segundos factores

explicativos o exógenos.

Un estadístico que juega un papel fundamental en el análisis de tablas de

contingencia es la razón de ventajas (Odds ratio en inglés). Dado un espacio muestral y una

medida de probabilidad definida sobre el, denominaremos las ventajas de un evento

determinado A, al cociente:

( )( )

p A

p A

en donde p(A) expresa la probabilidad del evento A y se verifica además que p(A)>0. En

ocasiones interesa comparar las ventajas de un determinado evento, A por ejemplo, bajo dos

situaciones distintas que podríamos denotar por B y su complemento. Con este fin se

emplea la razón de ventajas que se define como el cociente


8

( )( )

//

( / )( / )

p A Bp A B

p A Bp A B

para el cual además debe verificarse que p(B)>0.

La caracterización de una tabla de contingencia tridimensional requiere de la

determinación de (I-1)(J-1)(K-1) razones de ventajas. Si fijamos la celda de la tabla de

contingencia correspondiente a la primera categoría del primer factor, la primera categoría

del segundo factor y la primera categoría del tercer factor, podemos denotar a las razones

de ventajas asociadas a la tabla de contingencia como

111

1 1

ijk

i k jk

p pp p

para i≥2, j≥2 y k≥2. Bajo muestreo multinomial, estas razones de ventajas se pueden

expresar en términos de frecuencias esperadas de acuerdo a la siguiente expresión

111

1 1

ijk

i k jk

m mm m

para i≥2, j≥2 y k≥2.


9

Un modelo log-lineal para esta tabla de contingencia es una función que explica el

logaritmo natural de las frecuencias esperadas en términos de efectos principales,

interacciones de dos factores e interacciones de tres factores. Así por ejemplo un modelo

saturado, es decir el modelo más completo para una tabla tridimensional que proporciona

un ajuste perfecto, se describe mediante la expresión

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )1 2 3 12 13 1 23 123log ijk i j k ij k jk ijkm u u u u u u u u= + + + + + + +

en donde los términos

( ) ( ) ( )1 2 3, ,i j ku u u

representan efectos principales de cada factor, los términos

( ) ( ) ( )12 13 23, ,ij ik jku u u

representan los efectos de interacción de dos factores y el término

( )123 ijku


10

representa al efecto de la interacción de los tres factores. Este modelo está muy sobre

parametrizado y puede expresarse más brevemente como:

( ) ( )123log ijk ijkm u= .

Ambas representaciones son equivalentes y optaremos por la más breve. Los términos

restantes son redundantes y pueden tomar cualesquiera valores, pero es necesario recalcar

que el empleo de la versión reducida no quiere decir que estemos asumiendo que todos los

términos que no aparezcan en el modelo son cero. En general, el conjunto de términos

contenido en esta versión del modelo determina un conjunto de índices que se denomina la

clase generadora del mismo y proporciona un sistema de notación muy conveniente que se

corresponde con una versión menos sobre parametrizada del modelo. En particular el

modelo que estamos considerando se representa en este sistema de notación, mediante la

expresión [123].

Para una tabla tridimensional, existen otros modelos más interesantes que el

saturado. En la tabla siguiente se presentan ocho alternativas, las siete primeras expresables

en términos de independencia completa, independencia marginal e independencia

condicional. El último modelo se define como uno en el que todas las razones de ventajas

que se pueden construir con el primer y el segundo factor son iguales entre si para cada

categoría del tercer factor.


11

# RELACION DE INDEPENDENCIA MODELO

0 Factores 1, 2 y 3 independientes entre si [1]]2][3]

1 Factor 1 independiente del factor 2 y del factor 3 [1][23]



4 Factor 1 independiente del factor 2, dado el factor 3 [13][23]

5 Factor 1 independiente del factor 3, dado el factor 2 [12][23]

6 Factor 2 independiente del factor 3 dado el factor 1 [12][13]

7 No se puede definir en términos de independencia [12][13][23]

En realidad todos los modelos anteriores se pueden expresar en términos de razones de

ventajas. Por ejemplo el modelo 4 se verifica si y sólo dada una categoría del tercer factor,

las razones de ventajas entre el primer y el segundo factor son todas iguales a uno y fijadas

una categoría del primer o el segundo factor, las razones de ventajas entre los factores

restantes son todas iguales entre si. El modelo 1 se verifica si y sólo dada una categoría del

primer o el segundo factor las razones de ventajas entre los factores restantes son todas

iguales a uno y fijada una categoría del tercer factor, las razones de ventajas entre los

factores primero y segundo son todas iguales entre si. Finalmente el modelo 0 se verifica si

y sólo dada una categoría de cualquiera de los factores las razones de ventajas entre los

factores restantes son todas iguales a uno. Resultados análogos se verifican para los

modelos 5, 6, 2 y 3.


12

El ajuste de un modelo log-lineal se lleva a cabo estimando por el método de la

máxima verosimilitud los parámetros del modelo. La prueba de modelos log-lineales se

realiza comparando contra los modelos “mayores,” es decir contra modelos que los

contengan. Todas las dócimas de independencia se pueden concebir como pruebas en

relación al modelo saturado. En general para comparar el modelo log-lineal de tamaño r

versus el modelo log-lineal de tamaño s, en donde el primer modelo es estrictamente menor

que el segundo, empleamos el estadístico de la razón de verosimilitud:

( )( )( )2

( )

ˆˆ log

ˆ

sijks

ijk ri j k ijk

mG m

m= ∑∑∑

que podemos comparar con percentiles de una distribución χ2 con grados de libertad dados

por la diferencia de los grados de libertad correspondientes al modelo de mayor tamaño

menos los correspondientes al modelo de menor tamaño.

El tratamiento de tablas de contingencia con más de tres dimensiones se basa en dos

argumentos simplificadores, a saber, considerar a estas tablas como tablas tridimensionales

con tantos factores fusionados en un solo factor como sea necesario y aprovechar las

relaciones entre grafos matemáticos e independencia condicional.

Los recursos de computación existentes hoy en día permiten ajustar cualquier

modelo log-lineal, pero la necesidad de facilitar la interpretación de los resultados y de


13

tratar con las ingentes cantidades de modelos posibles cuando se consideran más de tres

factores, obligan a confinar nuestro interés a determinadas clases de los modelos log-

lineales, en particular los modelos jerárquicos y los modelos gráficos. Aún cuando

diferiremos la presentación de los modelos gráficos hasta después de haber descrito los

grafos de independencia condicional, adelantamos que todo modelo gráfico es jerárquico,

pero no a la inversa, es decir, los modelos gráficos constituyen una subclase de los modelos

jerárquicos.

Un modelo log-lineal es jerárquico si todo término que no participa en el, es decir,

todo término asumido nulo implica que los términos que contengan todos los factores

involucrados en el término anulado son también cero. Así el modelo

( ) ( ) ( ) ( ) ( ) ( )1 2 3 12 13 1log ijk i j k ij km u u u u u u= + + + + +

es jerárquico, pero el modelo

( ) ( ) ( ) ( ) ( ) ( ) ( )2 3 12 13 1 23 123log ijk j k ij k jk ijkm u u u u u u u= + + + + + +

no lo es, porque contiene los términos que corresponden a las interacciones del primer

factor con los factores restantes, cuando no deberían estar presentes porque el efecto

principal del primer factor no esta presente en el modelo.


14

Cuando uno de los factores considerados en una tabla de contingencia es un factor

respuesta, el interés radica en explicar el logaritmo natural de las ventajas asociadas a este

factor. Este tipo de modelos se denomina logit, porque emplean la transformación conocida

como logit que se define por la expresión:

( )log1

xxx

=−

para x∈R. En particular si el factor respuesta tiene dos categorías y si escribimos, sin

pérdida de generalidad, la tabla en forma bidimensional con dos filas, una para cada

categoría del factor respuesta y t columnas generadas por la combinación de todos los

factores independientes, la expresión a modelar en términos de los factores explicativos es:

( )1 2log j jp p

para j=1,...,t. Se demuestra que existe una correspondencia biunívoca entre los modelos

logit y los modelos loglineales. Así para un modelo logit específico, el modelo loglineal

correspondiente es uno que contiene todos los términos del modelo logit con inclusión del

factor respuesta y además el término de interacción entre todos los factores independientes.

Consideremos por ejemplo, una tabla de contingencia para cuatro factores que denotaremos

por A, B, C y R. Si el factor respuesta es dicotómico, entonces un modelo logit que explique

el logaritmo de la razón de ventajas de R en función de [BC][BD] es equivalente a un

modelo loglineal [ABC][RBC][RBD].


15

El modelo logit, considerado como modelo ajustado a una tabla bidimensional del

factor respuesta contra todas las demás, tiene como extremos el modelo loglineal de

independencia completa y el modelo saturado. En consecuencia los modelos logit más

interesantes corresponden a casos en los que la interacción de orden más elevado con el

factor respuesta se puede modelar con menos términos que los que corresponden al modelo

saturado.

Cuando el factor respuesta tiene más de dos niveles, el análisis se debe llevar a cabo

considerando las distintas formas de combinación de las categorías del factor respuesta. En

particular, para tres niveles existen varias posibilidades tratadas en la literatura:

1. ( )1 2log /p p y ( )2 3log /p p

2. ( )1 3log /p p y ( )1 2log /p p

3. 12 3

log pp p

⎛ ⎞⎜ ⎟+⎝ ⎠

, 21 3

log pp p

⎛ ⎞⎜ ⎟+⎝ ⎠

y 3

1 2log p

p p⎛ ⎞⎜ ⎟+⎝ ⎠

4. 12 3

log pp p

⎛ ⎞⎜ ⎟+⎝ ⎠

y 23

log pp

⎛ ⎞⎜ ⎟⎝ ⎠

si los niveles del factor son ordinales

5. 12 3

log pp p

⎛ ⎞⎜ ⎟+⎝ ⎠

y 1 23

log p pp

⎛ ⎞+⎜ ⎟⎝ ⎠

.


16

Si se emplea el mismo modelo para las ventajas en las opciones 1 y 2, entonces ambas

producen resultados equivalentes y sólo requieren del ajuste de un solo modelo loglineal.


17

B. GRAFOS: NOTACIÓN Y DEFINICIONES BASICAS

Como habíamos mencionado anteriormente el descubrimiento de la conexión entre

grafos y modelos categóricos constituyó un hito crucial en la gestación de modelos útiles

para el análisis estadístico de tablas de contingencia. En este apartado introducimos

conceptos básicos sobre grafos que permiten comprender la naturaleza y lógica

interpretativa de esta clase de modelos categóricos.

Consideremos un conjunto finito de elementos que denominaremos vértices y que

denotaremos por V. Sea V={1,...,q}. Denominamos arco a todo par ordenado de vértices de

V. El conjunto de todos los arcos asociados a un conjunto V lo denotaremos por A⊆VxV. Un

grafo es una objeto matemático G={V,A}. A modo de ejemplo, la próxima representación

muestra el grafo matemático definido por V={1,2,3} y A={(1,2), (2,1), (1,3), (2,3)}.

1

2 3

Todas las definiciones que presentaremos en este apartado, consideran dado un

grafo G={V,A}.


18

Consideremos el arco (i,j)∈A. Denominamos al vértice i el progenitor del vértice j y

a éste el hijo del vértice i. Decimos que existe un arco no dirigido entre los vértice i y j si A

contiene a las parejas (i,j) y (j,i). Un grafo en el cual todos sus arcos son no dirigidos se

denomina un grafo no dirigido.

Los vértices i y j son adyacentes o vecinos si el arco no dirigido entre i y j pertenece

al conjunto A. Un camino es una sucesión de vértices i1,...,im, tales que el arco (il,il+1)∈A

para todo l=1...q-1. El camino es un circuito si termina en el vértice de inicio. Dos vértices

i y j están conectados si existe un camino de i a j y un camino en reverso de j a i. Un grafo

está conectado si todas las parejas de vértices están conectados.

Se dice que un subconjunto de vértices de V separa a los vértices i y j, si todos los

caminos que los unen contienen al menos un vértice del conjunto separador. Un

subconjunto separa a dos subconjuntos U y W de vértices de V si separa cada par de

vértices i∈U y j∈W.

Sea U⊆V. Se denominan vecinos de U a todos los elementos de V que no están en U

y que son adyacentes a un vértice de U. El conjunto de los progenitores de U, que

denotaremos por pro(U) está conformado por todos los vértices de V que no están en U,

pero tienen hijos en U. La frontera de U que denotaremos por fro(U), es la unión del

conjunto de los vecinos y del conjunto de los progenitores de U. En un grafo no dirigido, la

frontera y el conjunto de los vecinos coinciden.


19

Sea U⊆V. Denominamos grafo inducido por U y lo denotaremos por GU al grafo

obtenido a partir de G manteniendo únicamente los arcos de G que tienen sus dos vértices

en U, es decir un grafo con arcos definidos por AU=A∩(UxU). Un grafo es completo si

todos los vértices están unidos con arcos dirigidos o no dirigidos. Se denomina pandilla

(Clique en inglés) a un subconjunto de vértices V que inducen un grafo completo, de forma

tal que la adición de un nuevo vértice resulta en un grafo incompleto. Dicho en otros

términos, una pandilla es un conjunto máximamente completo.

Denominamos longitud de un camino al número de arcos que éste contiene.

Consideremos un camino C entre los vértices i y j, decimos que el camino C0 es un camino

reducido relativo a C si: (1) C0 es un camino del vértice i al j con longitud menor que la de

C y (2) C0 tiene el mismo número de vértices que C. De un camino con longitud mayor que

uno e inicio y fin en el mismo vértice decimos que es cerrado. Consideremos un camino C

que se inicia y termina en el vértice h, decimos que un arco (ir,is) es una cuerda de C si la

sucesión (h,i1),...,(ir-1,ir),(ir,is),(is,is+1),...,(ik,h) es un camino cerrado y reducido relativo a C.

Una cuerda es por tanto un atajo para el camino C.


20

C. GRAFOS DE INDEPENDENCIA CONDICIONAL

El uso de grafos para facilitar la construcción de modelos categóricos requiere de la

adaptación del concepto de grafo a la consideración de vectores aleatorios. En este apartado

presentamos algunas definiciones útiles en éste sentido.

Consideremos un vector aleatorio X=(X1,...,Xp). Denotaremos la independencia

condicional de dos variables aleatorias Xi y Xj dadas las restantes mediante el siguiente

simbolismo

{ },/i j V i jX X X −⊥ .

Si denotamos el conjunto de índices asociado al vector X por V={1,…,q}, entonces

podemos definir un grafo de independencia condicional para un vector aleatorio X como el

grafo no dirigido G={V,A} en el que el arco (i,j) no está en A si y solo si { }jiVji XXX ,/ −⊥ .

A continuación se presentan algunos ejemplos de grafos de independencia condicional.


21

1

32

1

32

1

32

1

32

Interdependencia completaE={(1,2),(1,3),(2,3)}

1 independiente de 3 dado 2E={(1,2),(2,3)}

1 independiente de 2 dado 31 independiente de 3 dado 2

E={(2,3)}

1 independiente de 2 dado 31 independiente de 3 dado 22 independiente de 3 dado 1

E={}

Un grafo de independencia condicional permite visualizar si dos variables aleatorias

son adyacentes o están separadas. El siguiente teorema, denominado Teorema de la

Separación establece bajo que condiciones la separación de variables en un grafo tal

permite hacer afirmaciones de independencia condicional. Consideremos un vector

aleatorio X con función de densidad positiva, si Xa, Xb y Xc son vectores formados por

subconjuntos disjuntos de variables de X y si los vértices en el subconjunto b y el


22

subconjunto c están separados por los vértices en el subconjunto a, entonces, entonces

aab XXX /⊥ .

Los grafos de independencia condicional implican formulaciones alternativas de las

relaciones de independencia denominadas propiedades de Markov que detallaremos a

continuación, para un grafo G={V,A}:

Propiedad de Markov dos a dos: Para todos los vértices no adyacentes i y j se

verifica que { }jiVji XXX ,/ −⊥ .

Propiedad de Markov local: Para todo vértice i si a=fro(i) y b es el conjunto

restante, se verifica que abi XXX /⊥ , en donde b=V-({i}∪a).

Propiedad de Markov global: Para todos los subconjuntos de vértices a, b y c

disjuntos si b y c están separados por a, entonces se verifica que acb XXX /⊥ .

En ocasiones las variables bajo consideración se pueden ordenar temporalmente o

en términos de algún otro criterio y para tratar con este tipo de situaciones se requiere la

introducción de grafos de independencia condicional dirigidos. A tal efecto una opción

obliga a suponer que los vértices del grafo G están completamente ordenados, es decir están

vinculados de acuerdo a una relación p que además de ser irreflexiva y transitiva debe

verificar que ji p o ij p . En este caso podemos considerar que cada variable tiene un

pasado y un futuro bien definidos y escribir que los elementos de V son tales que

1p2p...pp.


23

Definimos como un grafo de independencia condicional dirigido de un vector

aleatorio X al grafo dirigido Gp=(V,Ap), en donde V={1,…,q}, V(j)={1,…,j} y el arco (i,j)

con ji p no pertenece al conjunto Ap si y sólo si ( ) }),{/( jijVji −⊥ . El condicionamiento

para este tipo de grafos se limita únicamente al pasado, a diferencia de los que imponemos

para los grafos no dirigidos.

El establecimiento de las relaciones de independencia existentes en un grafo de

independencia dirigido requiere de varios conceptos adicionales, a saber, el de grafo

asociado no dirigido, la condición de Wermuth y el de grafo moral.

Definimos como grafo no dirigido asociado a un grafo Gp=(V,Ap), al grafo definido

como Gnd=(V,And) en el que cada arco dirigido de Gp se sustituye por uno no dirigido. Un

grafo dirigido satisface la condición de Wermuth si no está presente ninguna configuración

cónica del tipo:

i

j

k

El grafo moral asociado con el grafo dirigido Gp=(V,Ap) es el grafo no dirigido Gm=(V,Am)

en el que el conjunto de arcos Am se obtiene incluyendo todos los arcos de Ap y además

todos los arcos necesarios para romper la condición de Wermuth en caso que éste presente


24

en Gp. Este grafo se denomina moral porque “casa” los progenitores involucrados en la

condición de Wermuth.

Se demuestra que el grafo dirigido Gp posee las propiedades de Markov del grafo

moral asociado Gm, lo que facilita el establecimiento de relaciones de independencia para

Gp, pero al mismo tiempo, el grafo moral completo puede oscurecer la existencia de otras

relaciones. Si Gm=Gnd, entonces las relaciones de independencia de Gp son idénticas a las

del grafo Gm.

La extensión de los grafos de independencia condicional cuando se consideran arcos

dirigidos y no dirigidos simultáneamente, requiere de la suposición que el conjunto de

vértices V se puede dividir en subconjuntos de vértices disjuntos y exhaustivos

denominados bloques que están completamente ordenados. Esta condición genera un orden

parcial definido sobre el conjunto de vértices del grafo. Si denotamos a estos bloques por

b1,…,bm, entonces el orden parcial es tal que ji p si i∈br y j∈bs en donde r<s e ji p si i y

j pertenecen a br. En esta situación los elementos en b1 son “causas” potenciales de los

elementos en b2, los elementos en la unión b1∪b2 son “causas” potenciales de b3 y así

sucesivamente.

Denominamos grafo de independencia condicional en bloques de un vector aleatorio

X a un grafo Gp=(V,Ap), en donde V={1,…,q}, V(i)=∪l≤r(i)bl y el arco (i,j) con ji p no

pertenece al conjunto Ap si y sólo si i⊥j/V(i)\{i,j}, en donde r(i) es el índice del bloque que


25

contiene a i. Si esta condición no se verifica y además ji p , entonces el arco (i,j) es

dirigido, en caso contrario no es dirigido. Estos grafos también se denominan recursivos en

bloques y el conjunto V(i) se denomina el pasado concurrente.

Las propiedades de Markov para este tipo de grafos, al igual que para los grafos de

independencia condicional dirigidos, son las del grafo moral correspondiente, pero ahora la

condición de Wermuth debe extenderse para cubrir patrones con el siguiente tipo de

estructura:

1 3

4

52


26

D. COLAPSO DE TABLAS DE CONTINGENCIA Y MODELOS LOG-LINEALES

Algunos modelos tienen la propiedad de que las relaciones entre un conjunto

determinado de factores se pueden estudiar en una subtabla de frecuencias marginales

construida totalizando sobre los factores restantes. De tales modelos se dice que se pueden

colapsar en el conjunto dado de factores. Este concepto fue definido por Lauritzen (1989)

con el nombre de colapso del modelo (model collapsing) y se diferencia del concepto de

colapso paramétrico en que se establecen condiciones bajo las cuales se mantienen estables

diversas medidas de asociación cuando se trabaja con tablas marginales.

Se puede demostrar (ver Asmussen y Edwards, 1983) que una condición necesaria y

suficiente para que un modelo loglineal jerárquico se pueda colapsar ene un conjunto de

factores con índices en a (de ahora en adelante acortaremos la expresión “conjunto de

factores con índices en a” simplemente por conjunto a o a), es que la frontera de todo

componente conectado del complemento de a está contenido en la clase generadora del

modelo. Así por ejemplo, el modelo con clase generadora [14][23][34] no se puede

colapsar en el conjunto a={1,2} porque la frontera de su complemento (los dos elementos

están conectados) dada por:

{ }( ) { }3,4 1,2fro =

es tal que [12] no forma parte de la clase generadora. Por el contrario el modelo con clase

generadora [12][14][23][34] si se puede colapsar en a y en consecuencia las conclusiones


27

de independencia para la tabla completa se verifican también en la tabla marginal para los

factores 1 y 2. En general se puede afirmar que todo modelo se puede colapsar en un

conjunto a de factores que está contenido en algún componente de la clase generadora del

modelo.

Una consecuencia de poder colapsar en a es que toda la inferencia relativa a factores

de a que no están contenidos en una frontera de un componente conectado del

complemento de a se puede llevar a cabo en la tabla marginal generada por la totalización

sobre los factores del complemento de a. Así por ejemplo, una prueba del modelo

[123][34][456] versus el modelo [123][345][456] se puede llevar a cabo sobre a={3,4,7}

porque ambos se pueden colapsar en ese conjunto ya que

{ }( ) { }1,2 3fro = y { }( ) { }5 4,6fro =

Por lo tanto la inferencia sobre el componente que distingue a los modelos anteriores, esto

es CF, por no estar contenida en ninguna frontera de componentes conectados del

complemento, se puede llevar a cabo sobre el conjunto {3,4,6}. Es decir podemos probar si

C⊥F/D sobre la tabla marginal de los factores 3, 4 y 6.


28

E. MODELOS GRAFICOS Y MODELOS RECURSIVOS

Un modelo para representar relaciones entre variables categóricas es gráfico si

cuando incorpora todos los términos de interacción de dos factores generados por una

interacción de orden más alto, entonces también contiene a la interacción de orden más

elevado que los genera. El modelo [1][23] es gráfico, pero el modelo [12][13][23] no lo es

porque no contiene el término de interacción de tres factores. Los modelos gráficos están

determinados por las interacciones de dos factores y son interpretables en base al concepto

de independencia condicional como ya habíamos mencionado anteriormente.

Puesto que todo modelo log-lineal se puede embeber en un modelo gráfico, para

interpretar un modelo log-lineal determinado podemos emplear los modelos gráficos más

pequeños que lo contengan. Esta forma de proceder se justifica porque las interpretaciones

en términos de independencia de un modelo determinado valen también para cualquier

modelo contenido en el.

Los modelos gráficos se pueden representar mediante grafos de independencia

condicional, en el que cada vértice representa un factor y los arcos representan los efectos

de interacción de dos factores. Cada modelo gráfico determina un grafo y a la inversa cada

grafo determina un modelo gráfico. Por ejemplo el modelo [124][135][145] que es un

modelo gráfico porque contiene todas las interacciones dos a dos que se generan con los

grupos de factores {1,2,4}, {1,3,5} y {1,4,5} tiene como grafo asociado:


29

2 4

3 5

1

Los subconjuntos de factores considerados son conjuntos máximamente completos y

determinan el modelo log-lineal gráfico. Este resultado es general, a saber, las pandillas de

un grafo determinan el modelo log-lineal gráfico asociado. Las pandillas se corresponden

con los clases generadoras de los modelos log-lineales definidas previamente. Las

relaciones de independencia se pueden leer directamente del grafo, empleando por ejemplo

la propiedad de Markov dos a dos. Así 2⊥3/{1,4,5}, 2⊥5/{1,3,4} y 3⊥4/{1,2,5}.

Un tipo de modelos log-lineales que posee mucho interés porque tienen una

estructura simple y son interpretables también en términos de independencia e

independencia condicional es el de los modelos descomponibles. Estos modelos ofrecen

formas cerradas para los estimadores máximo-verosímiles de sus parámetros y son un

subconjunto de los modelos gráficos, a saber, aquellos que además son cordales. Un

modelo gráfico es cordal si cada camino cerrado de longitud mayor que cuatro generado

por el modelo tiene una cuerda que forma parte del modelo, pero no todo modelo cordal es

gráfico. El modelo gráfico [12][23][14][34] no es cordal como se puede apreciar

claramente de su grafo asociado:

2 3

1 4


30

pero si le agregamos la cuerda que une al factor 1 y el factor 3 por ejemplo, obtenemos

ahora un modelo gráfico cordal con grafo asociado:

2 3

1 4

El modelo que resulta al agregarle [13] al modelo [12][23][14][34] es el modelo

descomponible [123][134], para el cual podemos afirmar que dados los factores 1 y 3 los

factores 2 y 4 son independientes y además se cumple que el estimador máximo verosímil

de mhijk satisface la condición:

. .

. .ˆ hij h jk

hijkh j k

n nm

n= .

Los modelos cordales están estrechamente relacionados con los modelos causales

recursivos. Estos últimos permiten la consideración de uno o más factores respuesta y se

fundamentan en el uso de grafos de independencia condicional dirigidos o grafos de

independencia condicional en bloques y resultan muy útiles para el establecimiento de un

soporte empírico de relaciones causales entre variables de interés. En general los factores

en estos modelos, para los que se debe identificar un orden total o un orden parcial

establecido en base al conocimiento sustantivo del fenómeno bajo estudio, se dividen en

exógenos o puramente explicativos y endógenos o internos. Los factores endógenos pueden


31

jugar el doble papel de ser respuesta de ciertos factores y explicación de otros, pero nunca

ser “causas” de si mismos.

La clase de los modelos recursivos fue definida por Goodman (1973), pero para la

presentación de los resultados fundamentales que permiten tratar este tipo de situaciones

seguiremos la exposición de Asmussen y Edwards (1983) y para ello presentaremos a

continuación simbología adicional. Denotaremos por N a una tabla de contingencia basada

en un conjunto de factores Γ y en forma análoga dentaremos por Na, la tabla marginal

correspondiente a un determinado subconjunto de factores a ⊆ Γ . Adicionalmente

representaremos por i la celda i-ésima de N, por n(i), p(i) y m(i) el número de casos en la

celda i-ésima de N, la probabilidad de caer en la celda i-ésima de N y el valor esperado en

la celda i-ésima de N respectivamente. En forma semejante representaremos por ia, n(ia),

p(ia) y m(ia) conceptos análogos para la tabla marginal Na.

Consideremos que el conjunto de factores explicativos viene dado por a y que b es

el conjunto de factores respuesta. Entonces la densidad conjunta de los vectores aleatorios

con índices en a y b viene dada por:

( ) ( ) ( )j M Ca b ap i p i p i i=

en donde los superíndices se emplean para reafirmar la condición de probabilidad conjunta,

marginal y condicional respectivamente.


32

La clase de los modelos con factores respuesta queda especificada entonces por un

modelo loglineal M para la densidad marginal de a y un modelo loglineal C para la

densidad condicional de b dado a. El ajuste de cada modelo y el proceso de inferencia

respectivo se llevan a cabo por separado. El modelo M se ajusta a la tabla marginal y el

modelo condicional C se ajusta a toda la tabla pero incluyendo todas las interacciones de

los factores con índices en a. Denotaremos al modelo de factores respuesta por J.

Puesto que no todo modelo loglineal jerárquico es un modelo con factores respuesta y a la

inversa, no todo modelo con factores respuesta es jerárquico, interesa disponer de

resultados que establezcan condiciones bajo las cuales se produce la coincidencia y a tal

efecto Asmussen y Edwards (1983) lograron demostrar los siguientes resultados.

En primer lugar que una condición necesaria y suficiente para que un modelo

loglineal jerárquico L sea un modelo de factores respuesta para a es que L se pueda colapsar

en a. En ese caso, el modelo loglineal M viene dado por la clase generadora La y el modelo

loglineal C queda determinado por la clase generadora [ ] ba L∪ en donde b es la clausura

del complemento de a, es decir la unión del complemento con su frontera. Por ejemplo, el

modelo loglineal jerárquico L con clase generadora [123][24][345] se puede colapsar en

a={2,3,4} y por lo tanto representa a un modelo de factores respuesta J con un modelo M

determinado por la clase generadora [23][24][34] y un modelo C determinado por la clase

generadora:

[ ] [ ][ ][ ]{ } [ ][ ][ ]234 123 345 456 123 345 456∪ = .


33

El segundo resultado establece que una condición necesaria y suficiente para que un

modelo de factores sea un modelo loglineal jerárquico es que la frontera de todo

componente conectado del complemento de a en C esté contenido en un generador de M y

la del modelo C para la clausura del complemento de a. Así, el modelo de factores

respuesta J para el conjunto de factores explicativos a={1,2,3} con modelos M y C

definidos por las clases generadoras [13][23][34] y [123][124][235] respectivamente, es un

modelo loglineal jerárquico porque la frontera de cada componente conectado del

complemento de a en la clase generadora de C, esto es:

fro({4})={1,2} y fro({5})={2,3}

está contenida en la clase generadora del modelo M. Además la clase generadora del

modelo loglineal jerárquico J viene dada por:

[ ][ ][ ] [ ][ ][ ] [ ][ ][ ]12 23 13 123 345 456 123 345 456∪ =

Los modelos causales recursivos son una clase de modelos gráficos que permiten la

consideración de uno o más factores respuesta. En general los factores en estos modelos se

dividen en exógenos o puramente explicativos y endógenos o internos. Los factores

endógenos pueden jugar el doble papel de ser respuesta de ciertos factores y explicación de

otros, pero nunca ser “causas” de si mismos.


34

En los grafos asociados a modelos causales recursivos, el vértice final de arco

dirigido (i,j) representa a un factor respuesta y el vértice inicial i es una causa directa del

factor respuesta j. A continuación se presentan los grafos de tres modelos causales

recursivos, el primero es un grafo de independencia condicional dirigido y los otros son

grafos de independencia condicional en bloques:

2 4

3 5

1

2 4

3 5

4

5

2

3

1

2

3

1

4

5

1

Los modelos correspondientes al segundo y tercer grafo se denominan modelos recursivos

en bloques o modelos recursivos en cadena. En el primer modelo hay tres factores

respuesta, a saber, los factores 1, 2 y 3 con los factores 2 y 3 como causas directas del

factor 1 y los factores 4 y 5 como causas directas de los factores respuesta 2 y 3

respectivamente. En el segundo modelo hay un factor respuesta para el cual los factores 2,

3, 4 y 5 son sus causas directas y en el tercer modelo hay de nuevo tres factores respuesta, a

saber, los factores 1, 2 y 3, de los cuales los dos últimos son causas directas del factor 1


35

pero que a su vez son causados por los factores 4 y 5 que operan como factores puramente

explicativos. El modelo de probabilidad asociado a estos grafos es

( )( ) ( )( ) ( )( )jFiFhFx

lFiFkFhFxlFkF

lFkFjFiFhF

=======

========

321

5342

54

54321

,/Pr................................................................/Pr/Pr................................................................

PrPr...............................................................,,,,Pr

( )( )( ) ( )( )lFkFjFiFhFx

lFiFkFhFxlFkF

lFkFjFiFhF

=========

========

54321

5342

54

54321

,,,/Pr................................................................/Pr/Pr................................................................

,Pr...............................................................,,,,Pr

y

( )( )( ) ( )( )jFiFhFx

lFkFiFlFkFhFxlFkF

lFkFjFiFhF

=========

========

321

543542

54

54321

,/Pr................................................................,/Pr,/Pr................................................................

,Pr...............................................................,,,,Pr

respectivamente, en donde Fi representa el factor i-ésimo.

En general para un grafo de independencia condicional dirigido o en bloques, en el

cual el conjunto de factores ℑ incluye a un conjunto ℵ de factores puramente explicativos o

exógenos y un conjunto ℜ=ℑ-ℵ de factores respuesta o endógenos, se tiene que:


36

( ) ( )Pr : Pr : Pr( / )i

i i i i i i i i iF

F f F F f F F f D∈ℜ

= ∈ℑ = = ∈ℵ =∏

en donde Di representa el conjunto de todos los factores que son causas directas del factor

Fi. El término Pr(Fi=fi:Fi∈ℵ) depende del grafo no dirigido correspondiente al conjunto de

factores exógenos y su estimador máximo verosímil se obtiene del modelo log-lineal

gráfico correspondiente. La estimación de los términos Pr(Fi=fi /Di) es proporcionada por el

ajuste de los modelos saturados con factores en {Fi}∪Di.

Resulta claro de la expresión anterior que las relaciones de independencia

condicional se verifican en tablas marginales. El modelado de una tabla de contingencia

multidimensional con factores respuesta se lleva a cabo ajustando una sucesión de modelos

loglineales, el primero de los cuales se ajusta para la tabla marginal correspondiente a los

factores en el primer bloque, el segundo se ajusta a la tabla marginal de factores en los

bloques primero y segundo y así sucesivamente hasta agotar todos los bloques.


37

BIBLIOGRAFIA

ASMUSSEN, S. y D. Edwards (1983): “Collapsability and response variables in

contingency tables,” Biometrika, 70, p.p. 566-78.

CHRISTENSEN, R. (1977): LOG-LINEAL MODELS AND LOGISTIC REGRESSION,

2a. edición, Springer Verlag, New York.

DARROCH, J. N., S. L. Lauritzen y T. P. Speed (1980): “Markov fields and log-linear

interaction models for contingency tables,” Annals of Mathematical Statistics, 8, p.p.

522-39.

DEMPSTER, A. P. (1972): “Covariance selection,” Biometrics, 28, p.p. 157-75.

EDWARDS, D. (2000): INTRODUCTION TO GRAPHICAL MODELLING, 2nd edition,

Springer Verlag, New York.

GOODMAN, L. A. (1973): “The analysis of multidimensional contingency tables when

some variables are posterior to others: A modified path analysis approach,

Biometrika, 60, p.p. 179-92.

LAURITZEN, S.L. (1989):

WERMUTH, N. (1976): “Model search among multiplicative models,” Biometrics, 32, p.p.

253-63.

WERMUTH, N. y S. L. Lauritzen (1983): “Graphical and recursive models for contingency

tables,” Biometrika, 70, p.p. 537-52.

WHITTAKER, J. (1990): GRAPHICAL MODELS IN APPLIED MULTIVARIATE

STATISTICS, John Wiley & Sons Inc., New York.


38

WRIGHT, S. (1934): “The method of path coefficients,” Annals of Mathematical Statistics,

Vol. 5, p.p. 161-215.

Ac/ac 05/05/05

Download - II ENCUENTRO BINACIONAL DE ESTADÍSTICA · II ENCUENTRO BINACIONAL DE ESTADÍSTICA UNA INTRODUCCIÓN A LOS MODELOS GRÁFICOS PARA TABLAS DE CONTINGENCIA MULTIDIMENSIONALES (Versión

Top Related