carlos camacho ana maría lópez · b) determinación de las ecuaciones estructurales c)...

56
1 MODELOS ESTRUCTURALES CON VARIABLES OBSERVADAS Carlos Camacho Ana María López

Upload: others

Post on 20-Apr-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

1

MODELOS ESTRUCTURALES CON VARIABLES OBSERVADAS

Carlos Camacho Ana María López

2

INDICE ____________________________________________________________________________ 1.1.- Introducción ....................................................................................................................... 4 1.2.- Condiciones de aplicación ................................................................................................. 7 1.3.- Fases en la elaboración de un modelo ............................................................................... 8 1.3.1.- Elaboración del diagrama causal ...................................................................................... 9 1.3.2.- Tipos de relaciones ........................................................................................................ 11 1.4.- Determinación de las ecuaciones estructurales ................................................................. 14 1.4.1.- Expresión matricial de la ecuaciones estructurales ....................................................... 17 1.5.- Estimación de parámetros ................................................................................................. 22 1.6.- Significación de los parámetros ........................................................................................ 27 1.7.- Validación de modelos ..................................................................................................... 30 1.8.- Identificación de modelos ................................................................................................. 32 1.8.1.- Modelos exactamente identificados ............................................................................... 32 1.8.2.- Modelos sobreidentificados ........................................................................................... 34 1.8.3.- Modelos subdentificados ............................................................................................... 37 1.9.- Aplicación informática ..................................................................................................... 39 1.10.- Introducción .................................................................................................................... 39 1.11.- Modelo exactamente identificado ................................................................................... 39 1.12.- Modelo sobreidentificado ............................................................................................... 45 1.12.1.- Modelo A...................................................................................................................... 46 1.12.1.- Modelo B ..................................................................................................................... 51 Bibliografía ............................................................................................................................... 55 ____________________________________________________________________________

3

1.- Introducción Hasta ahora los modelos estudiados de regresión corresponden a la ecuación general: Cuya estructura de relación es: Figura 1.1 Se observa que existen k variables independientes y una única variable dependiente. La variable Y queda explicada por las distintas variables X, como se refleja en la flecha unidireccional, mientras que las X presentan flechas bidireccionales, indicándose que las correlaciones entre ellas muestran tan sólo covariación o concomitancia y no el sentido de explicación o producción. Aunque este tipo de modelos es ampliamente utilizado, adolece de una cierta simplicidad en su estructura. Más realista resultan otros planteamientos donde se entremezclan variables dependientes e independientes, donde ciertas variables que explican son a su vez, explicadas por otras, constituyéndose de esta forma cadenas de causa-efecto que evidentemente se acomoda mejor a la naturaleza de los fenómenos. Supongamos, en este sentido, que deseamos estudiar la incidencia que sobre el Exito profesional (Y) tienen las variables: Nivel de estudios (X1 ), Clase social (X2 ) e Inteligencia (X3 ). Si aplicásemos el modelo de Regresión múltiple utilizado hasta ahora, tendríamos la siguiente estructura de relación: Figura 1.2

kkXbXbXbbY ++++= LL22110

M

X2

X1

Xk

Y rk1

r21

rk2

e

X2

X1

X3

Y r31

r21

r32

e

4

No obstante, pueden plantearse otras alternativas. Si suponemos que la Clase social y el Nivel de estudios son los condicionantes de la Inteligencia, que a su vez, es la que determina el Éxito profesional, tendremos la siguiente estructura:

Figura 1.3 O bien, podemos suponer, que el Nivel de estudios ejerce un efecto exclusivo sobre la Inteligencia, mientras que la Clase social afecta, por un lado, independientemente sobre el Éxito profesional y, por otro, a través e la Inteligencia. Según esta lógica el diagrama sería:

Figura 1.4 Con estas variables podríamos sugerir otros muchos modelos alternativos, cosa que no haremos para no aburrir al lector. No obstante, dejamos en sus manos, como ejercicio intelectual, la búsqueda de algún otro modelo que estime más razonable. Los modelos aquí tratados reciben en la literatura estadística el nombre genérico en inglés de Path Analysis. Fue desarrollado en sus orígenes con este nombre por Sewall Wright (1921) en el campo de la biología. Podemos traducir la palabra "path" como "camino", "vía" o "sendero". En castellano el término Path Analysis quedaría traducido como Análisis de caminos (vías o senderos) por cuanto en estos modelos se especifican los caminos por donde se cursan las relaciones de influencia entre unas variables y otras. Obsérvese a título de ejemplo, las figuras 1.3 y 1.4 cómo el hecho diferencial entre ambas radica precisamente en el conjunto flechas o relaciones establecidas.

X3

X2

X1

Y 21r

e e

X3

X2

X1

Y 21r

e e

5

Por nuestra parte preferimos denominar a este tipo de modelos modelos estructurales con variables observadas. Decimos "modelos estructurales" por cuanto el conjunto de conexiones o relaciones puede entenderse como la estructura de relación establecida entre las variables. Nos parece un término más genérico y clarificador de lo que se quiere expresar. Decimos "con variables observadas" para distinguirlo de otros tipos de modelos de mayor complejidad donde se trata además variables no observables o latentes. No obstante, y a nuestro pesar, utilizaremos el término Path análisis (mescolanza de inglés y español), que es la forma más usual de referirse a tales modelos en nuestro pais. Hemos de decir a este respecto, que el Path análisis se considera un submodelo del LISREL (LInear Structural RELationship), de propósito más general, que contempla casuísticas tales como error de medida y variables latentes, que no trataremos por el momento. En estas páginas trataremos el Path análisis desde la perspectiva LISREL. Este tipo de modelos se encuentran también en la literatura con el nombre de modelos causales por cuanto parece determinarse, por la estructura de relación establecida, las variables causa y las variables efecto. A este respecto, convienen indicarse (aunque sobre este punto nos extenderemos más adelante) que este tipo de modelos no sirve para "detectar" las causas de un cierto fenómeno, sino más bien su objetivo es bastante más limitado; el investigador propone, según su especial conceptualización del fenómeno estudiado, una determinada estructura de relación. Todo el aparato estadístico consecuente sirve tan sólo para mostrar la viabilidad del modelo propuesto con la información de partida(matrices de varianzas-covarianzas o de correlaciones) sin que con ello se descarten otros posibles modelos, igualmente viables. En las siguientes páginas profundizaremos en estas ideas. Expondremos, en primer lugar, las condiciones de aplicación existentes sobre los modelos de Path análisis. A continuación desarrollaremos las distintas fases en el proceso de elaboración de un determinado modelo. Por último, discutiremos el problema de la identificación de los modelos y del ajuste de los mismos a la realidad estudiada. 1.2.- Supuestos del modelo Si se entiende el Path análisis como una extensión del modelo de Regresión múltiple mantendrá las mismos supuestos de aplicación que este tipo de modelos, ya estudiados. Otras condiciones derivadas de su mayor complejidad habrán de especificarse. Destacamos las más relevantes:

a) Relación lineal ente las variables. Condición de linealidad.

b) Las variables independientes afectan a la variable dependiente de forma aditiva. Sus efectos se suman. Condición de aditividad

c) Los modelos han de ser recursivos. Esto implica que la causalidad fluye en una única dirección, descartándose causalidad recíproca entre dos variables.

6

d) Incorrelación de los errores. Esta condición es doble. Por un lado los errores no deben correlacionar con las variables independientes. Esto es:

Y por otro lado, los errores no deben correlacionar entre sí. Es decir:

e) Se opera con variables observadas. Esta condición ya ha sido especificada. En cierto sentido no debería mencionarse ya que hasta ahora hemos trabajado con este tipo de variables. Sin embargo, desde la perspectiva general de los modelos estructurales ocupa un lugar relevante los modelos con variables latentes. Por esta razón, desde este enfoque, esta restricción tiene su importancia. Por otro lado, una variable observada implica que ha sido medida directamente sin error.

1.3.- Fases en la elaboración de un modelo Exponemos a continuación los momentos más relevantes en la elaboración de un modelo estructural basado en el Path análisis. A saber: a) Elaboración del diagrama causal b) Determinación de las ecuaciones estructurales c) Estimación de los parámetros del modelo d) Ajuste del modelo a la realidad 1.3.1.- Elaboración del diagrama causal El primer paso, aunque no estrictamente necesario, consiste en expresar gráficamente la estructura de relación concebida por el investigador. Tiene interés porque es una primera aproximación -sencilla- que permite una cierta conceptualización del fenómeno a estudiar. Los gráfico utilizados se denominan diagramas causales o también diagramas path, por cuanto se especifican en ellos los caminos a seguir en las relaciones de influencia. Básicamente consiste en situar las diferentes variables y unirlas por flechas según la dirección de la relación indicada. A este respecto, tomemos la figura 1.4 y completémosla de acuerdo con la lógica de los diagramas causales. Tendremos:

0=iixer

0=jieer

7

Figura 1.5 Se distinguen variables exógenas y endógenas. Las variables exógenas (o también, predeterminadas) son aquellas que se encuentran en el límite del modelo. En otro contexto es lo que conocemos como variables explicativas o independientes. Transmiten su variabilidad al interior del modelo, pero queda sin especificar la fuente de variación que da lugar a ellas. Son "causa", en sentido restringido, en la medida que explican -hasta cierto punto- el comportamiento del sistema. En la figura 1.5 las variables X1 y X2 son variables exógenas. Por el contrario, las variables endógenas se caracterizan por quedar explicada su variabilidad en términos de otras variables (exógenas o endógenas a su vez) Son lo que en otro contexto hemos denominado variables explicadas o dependientes. Son "efecto" de ciertas variables, aunque a su vez, pueden hacer el papel de "causa" de otras. En la figura 1.5 corresponden a las variables Y1 e Y2 . Se observa que la variable Y1 es causa de Y2 , pero que a su vez es causada por X1 y X2 . Hace el papel de variable independiente y dependiente simultáneamente. Observamos, de esta forma, que la notación es diferente bien se trate de variables exógenas o endógenas. Para las primeras se utiliza genéricamente la terminología Xi , y para las segundas, Yi . Por otro lado, las variables endógenas van ordenadas de menor a mayor según el grado de proximidad que presenten respecto a las variables exógenas. Aquellas variable endógenas que son explicativas de otras variables endógenas tendrán menor rango que aquellas variables que son exclusivamente explicadas. En el gráfico anterior se contempla que la variable Y1, aunque endógena, es a su vez explicativa de Y2 , que no afecta a ninguna otra variable; por esta razón, la primera tiene un subíndice menor que la segunda. El efecto de las variables exógenas sobre las variables endógenas viene indicado por los parámetros jiγ (gamma). El primer subíndice expresa la variable receptora Yj, y el segundo subíndice, la variable emisora Xi . En relación a las variable endógenas, el efecto entre ellas viene reflejado por los parámetros jiβ (beta) cuya interpretación en cuanto a los subíndices es

equivalente a la expresada anteriormente con jiγ ; esto es, jiβ muestra el efecto de la variable Yi sobre Yj.

X2

X1

Y1 Y2 21φ

22γ

21β

12γ

11γ

8

Las variables exógenas carecen de efectos entre ellas, ya que no se conciben como causadas por ninguna otra. Por esta razón, la relación que puedan mantener con otra variable exógena queda expresada por su coeficiente de correlación sobre una línea curva con flechas en sus dos extremos. Se indica con ello que la relación no se analiza, y que entre ellas existe tan sólo covariación, sin que se especifique la fuente de variabilidad. Esta es la relación existente entre las variables X1 y X2. Aquí, las correlaciones entre las variables exógenas se especifican mediante jiφ (phi). Ya

que en este caso se supone que las variables Xj y Xi comparten información sin que haya ninguna relación de causalidad entre ellas, el primer y el segundo subíndice hacen referencia a tales variables sin que haya ningún orden establecido; esto es, hubiera sido igualmente válido

jiφ . Hay que decir que cuando operamos con puntuaciones directas los valores jiφ hacen referencia a las covarianzas entre las variables exógenas. En estos casos tiene sentido mencionar

iiφ como la varianza de la variable Xi. Por lo que respecta a los término de error, se denominan iζ (zeta), coincidiendo el subíndice con el de la variable Yj a la que afecta dicho error. Por el momento no nos extenderemos más sobre los distintos parámetros. Ya hablaremos más adelante de los tipos de matrices en que pueden utilizarse para mencionar tales parámetros, y cómo de la estructura de dichas matrices pueden deducirse, a su vez, la estructura de los diferentes modelos de Path análisis. 1.3.2.- Tipos de relaciones Aunque este aspecto será desarrollado más adelante desde una perspectiva matemático-formal, pasaremos a exponer en una primera aproximación, al hilo de los gráficos que nos proporciona los diagramas causales, los distintos tipos de relaciones o efectos que pueden establecerse entre las variables que conforman un modelo estructural. Estos posibles efectos son: a) Efecto directo b) Efecto indirecto c) Efecto conjunto d) Efecto espúreo a) Efecto directo El efecto directo hace referencia al existente entre las variables que se encuentran en ambos extremos de una determinada flecha. Por ejemplo, en base a la figura 1.5, algunas de las relaciones de tipo directo serían: a) la existente entre el Clase social (X2 ) y la Inteligencia (Y1 ): Figura 1.6

X2

Y1

12γ

9

Y el efecto que mantiene la Inteligencia (Y1 ) con el Éxito profesional (Y2 ):

Figura 1.7 b) Efecto indirecto Existe efecto indirecto entre dos variables cuando una de ellas ejerce influencia sobre la otra a través de una o más variables intermedias. Por ejemplo, en el caso que estamos tratando, el Clase social (X2 ) ejerce un efecto indirecto sobre el Éxito profesional (Y2 ) a través de la Inteligencia (Y1 ). Esto es:

Figura 1.8 c) Efecto conjunto Hace referencia a aquellas variables exógenas que presentan covariación (una flecha curva uniendo dichas variables con puntas en ambos extremos), donde no puede establecerse claramente en qué dirección se encamina la relación de influencia. Cuando algún recorrido se realiza a través de esta flecha curva, decimos que el efecto es conjunto (entre las variables de ambos extremos de la flecha) al no poder especificar la relación existente entre ambas variables. Un caso de efecto conjunto es el que ejerce la variable Nivel de estudios (X1 ) sobre la Inteligencia (Y1 ) cuando involucramos la variable Clase social (X2 ):

Figura 1.9

Y1 Y2 21β

X2

Y1 Y221β

21φ

X1

X2

Y1

12γ

10

d) Efecto espúreo Existe efecto espúreo entre dos variables cuando la covariación existente entre ambas es debida a una causa común. Un ejemplo clásico de relación espúrea es la que se presentan cuando sobre una muestra de niños de diferentes edades se estudia la relación entre Estatura e Inteligencia, donde sucede que la variable Edad es la causa de las dos variables anteriores. El gráfico de relación es:

Figura 1.10 En el caso que estamos tratando, toda la relación entre Inteligencia (Y1 ) y Éxito Profesional (Y2) que no es efecto directo, es efecto espúreo. Esto es, si descartamos el camino:

Figura 1.11 todos los demás caminos entre ambas variables serán efectos espúreos al ser debidos a causas comunes. Por ejemplo:

Figura 1.12 Y también:

Figura 1.13

Edad

Estatura

Inteligencia

Y1 Y221β

22γ

Y2

X2

Y1

12γ

22γ

21φ

X1

Y2

X2

11γY1

11

1.4.- Determinación de las ecuaciones estructurales Los modelos estructurales contemplan varias variables dependientes. En consecuencia, podremos expresar cada una de ellas en función de sus respectivas variables independientes. Así, en relación al modelo que estamos tratando:

(1.1) Así pues, se observa que deben haber tantas ecuaciones como variables endógenas contenga el modelo. Por otro lado, en cada ecuación participan las variables exógenas directamente ligadas con la variable endógena a explicar. Ejemplo 1.1.- Un investigador maneja dos posibles hipótesis en el estudio de la relación entre Ingresos, Nivel educativo y Prestigio Social: a) Los Ingresos determinan el Nivel educativo y éste el Prestigio social, y b) El nivel educativo determina los Ingresos y el Prestigio social. Esto supuesto, dibujar los diagramas causales correspondientes a ambas hipótesis, así como sus ecuaciones estructurales. Especifica, en cada uno de los modelos, el tipo de relación existente entre las variables Ingresos y Prestigio social. SOL: a) Utilicemos la siguiente nomenclatura: X1 : Ingresos Y1 : Nivel educativo, Y2 : Prestigio social Según la primera hipótesis el diagrama causal correspondiente será:

Figura 1.14

22221212

12121111ζγβ

ζγγ++=

++=xyyxxy

1ζ 2ζ

21βY1

Y2X1

11γ

12

Y sus ecuaciones estructurales: Se observa, en base a la figura 1.14 que los Ingresos (X1 ) ejercen un efecto indirecto sobre el Prestigio social (Y2 ). b) En relación a la segunda hipótesis, utilizaremos la siguiente nomenclatura: X : Nivel educativo Y : Ingresos Y : Prestigio social Cuyo diagrama causal será:

Figura 1.15 Y las ecuaciones correspondientes: Como se observa, el efecto de la variable Ingresos (Y1 ) sobre Prestigio social (Y2 ) es un efecto espúreo, ya que la relación entre tales variables viene mediatizada por el Nivel educativo (X1 ) que es la variable causante de ambas. 1.4.1.- Expresión matricial de la ecuaciones estructurales Una de las ventajas del LISREL (que supone un cierto esfuerzo al principio) reside en que obliga a definir las matrices con las que se va a trabajar. A partir del conocimiento de éstas es posible deducir la estructura de relación del modelo causal. Por estas razones conviene familiarizarse con este tipo de matrices en aras de una mayor comprensión del modelo.

21212

11111

ζβζγ

+=+=

yyxy

X1

Y1

Y2

11γ

21γ

21212

11111

ζγζγ

+=+=

xyxy

13

Retomando el modelo expresado en la figura 1.5, tenemos, como se sabe, que sus ecuaciones correspondientes son:

(1.2) Si en estas ecuaciones reflejamos todas las variables del sistema, y no únicamente aquellas que presentan enlaces, tendremos, entonces:

(1.3) En notación matricial:

(1.4) En términos generales, si tenemos p variables endógenas y q variables exógenas, podremos expresar en forma compacta, la estructura de relación:

(1.5) donde: )1*( py : vector constituido por las p variables endógenas

)*( ppΒ : matriz de coeficientes β

)1*(qx : vector constituido por las q variables exógenas

)*( qpΓ : matriz de coeficientes γ

)1*( pε : vector constituido por los p términos de error Además de estas matrices, se suelen incorporar algunas más que añaden carácter explicativo al modelo. En este sentido, recordemos la matriz Φ (Phi) que especifica las correlaciones entre las variables exógenas, y que es conveniente para conocer el grado de relación entre ellas. Por otro lado, hemos de añadir una nueva matriz, la matriz Ψ (Psi), que expresa las correlaciones entre los términos de error. Aunque los modelos que estamos tratando son una restricción del planteamiento LISREL general y no se contemplan correlaciones entre distintos términos de error, sin embargo sí es interesante conocer los elementos de la diagonal de la matriz Ψ , que hacen referencia a las distintas proporciones de variación no explicadas ligados a los diferentes errores.

22221212

12121111ζγβ

ζγγ++=

++=xyyxxy

2222121212

1212111211

0000

ζγβζγγ

++++=++++=

xxyyyxxyyy

+

+

=

2

1

2

1

22

1211

2

1

212

1

0000

ζ

ζ

γ

γγ

β x

x

y

y

y

y

ζ+Γ+Β= xyy

14

De esta forma, en relación al modelo que estamos tratando, sus matrices relevantes, explicativas del modelo en cuestión, serían: Donde las diferentes matrices a considerar serán: Ejemplo 1.2.- Tengamos el siguiente diagrama causal:

Figura 1.16 Calcular: a) la ecuación estructural de dicho modelo, y b) las matrices que lo conforman. SOL: La ecuación estructural será: Y las matrices correspondientes:

22

11

2221

11

22

1211

21 0

0

0000

ψ

ψ

φφ

φ

γ

γγ

β

Y1

12γ

21φ

X1

X2

11γ

12121111 ζγγ ++= xxy

[ ] [ ]112221

111211 ψφφ

φγγ =Ψ

=Φ=Γ

15

Ejemplo 1.3.- Tengamos el siguiente diagrama causal: Figura 1.17 Calcular: a) ecuaciones estructurales, y b) las matrices de dicho sistema. SOL: Las ecuaciones del sistema serán: En notación matricial: Y las matrices correspondientes: Ejemplo 1.4.- Dada las siguientes matrices que configuran un determinado sistema:

Determinar la estructura del modelo al que hacen referencia.

1ζ 2ζ

21βY1

Y2X1

11γ

21212

11111ζβ

ζγ+=

+=yyxy

[ ]

+

+

=

2

11

11

2

1

212

100

00ζζγ

β xyy

yy

22

11

2221

1111

21 00

0000

ψψ

φφφγ

β

22

11

333231

2221

11131211

21 00

000000

ψψ

φφφφφ

φγγγβ

16

SOL:

Por la matriz ? Β se deduce que es un modelo compuesto por las variables endógenas Y1 e Y2 Por la matriz ? Γ y Φ sabemos que hay tres variables exógenas: X1 , X2 y X3 . Además, por la matriz Γ ?deducimos que sólo es afectada la variable Y1 por las distintas variables exógenas. Por último, la matriz Ψ nos indica que los errores están incorrelacionados. Por tanto, la estructura del modelo será:

Figura 1.18 1.5.- Estimación de parámetros La estimación de parámetros exige que el modelo cumpla previamente la condición de identificación; esto es, que el sistema de ecuaciones elaborado en el cálculo de los parámetros -incógnitas a determinar- sea igual o superior al número de tales incógnitas. En este apartado daremos por supuesto que tal condición de identificación queda satisfecha y nos limitaremos, en consecuencia, al procedimiento de cálculo en la estimación de los parámetros. Dejaremos para más adelante el problema de la identificación, que por su interés merece un tratamiento aparte, y que en nuestra opinión exige una cierta familiaridad con el path análisis. Se utilizan dos procedimientos en la estimación de los parámetros de un determinado modelo: a) la primera ley y b) la regla del trazado. La primera ley ofrece un planteamiento riguroso, válido para cualquier tipo de modelos (recursivos y no recursivos), mientras que la regla del trazado, de carácter intuitivo, sólo es válido para modelos recursivos. Aquí nos limitaremos a tratar la ley del trazado, que permite igualmente determinar los parámetros del modelo. Se considera una regla intuitiva, no matemática, aunque puede demostrarse su coincidencia con la primera ley del path análisis. La regla del trazado indica que la correlación entre dos variables equivale a la suma de todos los posibles efectos entre ambas variables (efectos directos, indirectos, conjuntos y espúreos). Por otro lado, los efectos se miden mediante los productos entre todos los coeficientes "path" existentes en los distintos caminos que puedan establecerse dos variables dadas. Por ejemplo, tomemos como referencia la estructura de relación del siguiente modelo:

M

X2

X1

Xk

Y

21φ

Y

2ζ11γ

12γ

13γ

21β

31φ

32φ

17

Figura 1.19 Considerando que entre las variables X1 y X2 no existe relación de causalidad, y por tanto, sólo se considera la correlación entre ellas, tendremos que la reproducción de los distintos coeficientes de correlación mediante la regla del trazado será:

(1.6) Se contempla un efecto directo (ED) a través de 11γ : Figura 1.20 Y un efecto conjunto con X (EC) a través de 2112φγ :

Figura 1.21

22γX2

X1

Y1 Y221φ

1ζ2ζ

21β

12γ

21γ

11γ

ECEDr xy 21121111

φγγ +=

X2

X1

Y1 Y2

11γ

X2

X1

Y1 Y221φ

12γ

18

Para reproducir

21xyr se observa una situación equivalente que en 11xyr . Existe un efecto directo

proporcionado por 12γ y un efecto conjunto en el producto 2111φγ :

(1.7) Efecto directo ( 12γ ): Figura 1.22 Efecto conjunto ( 2111φγ ): Figura 1.23 En relación a

12xyr :

(1.8)

ECEDr xy 21111221

φγγ +=

X2

X1

Y1 Y2

12γ

X2

X1

Y1 Y221φ

11γ

ECEIECEDr xy 211221112121222112

φγβγβφγγ +++=

19

Efecto directo ( 21γ ): Figura 1.24 Efecto conjunto ( 2122φγ ): Figura 1.25 Efecto indirecto ( 1121γβ ): Figura 1.26

X2

X1

Y1 Y2

21γ

X2

X1

Y1 Y221φ

22γ

X2

X1

Y1 Y221β

11γ

20

Efecto conjunto ( 211221 φγβ ): Figura 1.27 En relación a

22xyr :

(1.9) Efecto directo ( 22γ ):

Figura 1.28

Efecto conjunto ( 2121φγ ):

Figura 1.29

X2

X1

Y1 Y221φ 21β

12γ

X2

X1

Y1

Y2

22γ

X2

X1

Y1 Y221φ

21γ

ECEIECED

r xy 211121122121122222φγβγβφγγ +++=

21

Efecto indirecto ( 1221γβ ): Figura 1.30 Efecto conjunto ( 211121 φγβ ):

Figura 1.31 En relación a

12yyr :

(1.10) Efecto directo ( 21β )

Figura 1.32

X2

X1

Y1 Y221β

12γ

X2

X1

Y1 Y221φ 21β

11γ

X2

X1

Y1 Y221β

EEEEEEEEEDr yy 112122122121122211122112

γφγγφγγγγγβ ++++=

22

Efecto espúreo ( 1121γγ ): Figura 1.33 Efecto espúreo ( 1222γγ ): Figura 1.34 Efecto espúreo ( 122121 γφγ ): Figura 1.35

X2

X1

Y1 Y2

21γ

11γ

X2

X1

Y1 Y2

22γ

12γ

X2

X1

Y1 Y221φ

12γ

21γ

23

Efecto espúreo ( 112122 γφγ ): Figura 1.36 Como consecuencia de ello, tras haber aplicado la regla del trazado obtendremos el siguiente sistema de ecuaciones: Obsérvese que disponemos de seis ecuaciones, cuyos valores nos lo ofrecen las distintas correlaciones, y seis incógnitas -los seis parámetros del modelo-, por lo que dicho sistema será resoluble y tendrá solución única -modelos exactamente identificados-. Ya veremos en el próximo apartado que pueden plantearse otras alternativas, tal como más ecuaciones que incógnitas -modelos sobreidentificados- o bien menos ecuaciones que incógnitas -modelos subidentificados-. Además de los parámetros mencionados se suelen calcular los valores iiψ correspondientes a las diferentes proporciones de variación no explicada de las distintas variables endógenas del modelo. Así, en este modelo: En relación a los valores de R2 puede demostrarse que su valor corresponde a la suma de las correlaciones de todas las variables que inciden sobre la variable endógena en cuestión por el valor de los coeficientes estandarizados que ligan estas mismas variables. De esta forma tenemos:

X2

X1

Y1

Y2

21φ

22γ

11γ

222

211

2112

211

11

xxyy

xxy

RR

.

.

−=−=

ψψ

( )( )

2212122112

2111211

2221212

22

12112

11

1111

xyyyxyxxyy

xyxyxxy

rrrRrrR

γβγψγγψ

++−=−=+−=−=

.

.

1121221221211222111221

2111211221212122

2112211121212221

211112

211211

21

12

22

12

21

11

12

γφγγφγγγγγβφγβγβφγγφγβγβφγγ

φγγφγγ

φ

++++=+++=+++=

+=+=

=

yy

xy

xy

xy

xy

xx

rrrrrr

24

Ejemplo 1.5.- Un determinado investigador desea estudiar las relaciones existentes entre las variables Inteligencia (X1 ), Clase social (Y1 ) y Rendimiento (Y2 ). Para ello propone el siguiente modelo: 21γ 2ζ 11γ 1ζ 21β Figura 1.37 Las correlaciones observadas son: Esto supuesto, determinar: a) las ecuaciones estructurales, b) los parámetros del modelo y, c) los distintos efectos y su cuantificación.

a) Las ecuaciones estructurales serán:

b) Para determinar sus parámetros, apliquemos la regla del trazado: Según las correlaciones obtenidas tendremos: Y en relación a 21β y 21γ :

X1

Y1 Y2

608050121211

... === yyxyxy rrr

21211212

11111ζγβ

ζγ++=

+=xyy

xy

211121

211121

11

12

12

11

γγββγγ

γ

+=+=

=

yy

xy

xy

rrr

501111 .== xyrγ

2121

212150605080

γββγ

..

..+=+=

25

Haciendo operaciones: En relación a 11ψ y 22ψ :

De esta forma, el diagrama causal quedaría: 0.667 2ζ 0.5 0.307 1ζ 0.75 0.267 Figura 1.38 c) En relación a las variables X1 e Y1 sólo se contempla un efecto directo: En relación a las variables X1 e Y2 , se contemplan un efecto directo y otro indirecto: Y en relación a Y1 e Y2 , se contemplan un efecto directo y otro espúreo:

66702670 2121 .. == γβ

( ) ( ) 307060267080667011175050111

1212112

1112

21212

22

211

211

..*..*...

.

.

=+−=+−=−==−=−=−=

yyxyxyy

xyxy

rrRrR

βγψγψ

X1

Y1 Y2

501111.== γxyr

134026705066708021112112

..*...

====+=

EIEDr xy βγγ

66705026706021112112

.*...

===+=

EEEDr yy γγβ

26

Ejemplo 1.6.- Tengamos las variables A, B , C y D relacionadas según la siguiente estructura:

C A D B Utilizando nomenclatura LISREL reelabora el anterior diagrama causal y expresa la correlación entre las variables A y D mediante la regla del trazado. SOL: El diagrama causal utilizando terminología LISREL será: 2ζ 21γ 32β 11γ 21β 3ζ 31β B 1ζ Figura 1.40 Aplicando la regla del trazado para determinar la correlación entre Y3 y X1 : Se observa que todos son efectos indirectos.

X1

Y2

Y3

Y1

3221322111311113βγββγβγ ++=xyr

27

1.6.- Significación de los parámetros Una vez estimados los parámetros interesa conocer la significación de los mismos; esto es, si se cumplen las relaciones establecida por el investigador. Pudiera ocurrir que uno o varios de los coeficientes path no fueran estadísticamente diferentes de cero, con lo que los enlaces que ligan determinadas variables pudieran eliminarse simplificándose con ello el modelo. El planteamiento de la significación de los parámetros ha de situarse, no obstante, en el contexto -más amplio- de la bondad de ajuste del modelo establecido. Aquí, como en el modelo de la regresión múltiple existe un doble cometido. Por un lado se procede a un análisis global que permita comprobar si un determinado modelo da cuenta de una proporción significativa en cuanto variabilidad de la realidad estudiada. Por otro lado, se realiza un análisis en detalle para cada uno de los coeficientes path a efectos de comprobar si la relación específica establecida es correcta o no. Ambos tipos de análisis son complementarios y convienen realizarse. Globalmente un modelo puede ser aceptable y sin embargo esconder deficiencias concretas que induzcan a conclusiones graves. La primera cuestión -la validez global del modelo- será tratada más adelante. Por su importancia y porque obliga a profundizar en otros aspectos tales como los relacionados con los problemas de identificación, preferimos darle un trato aparte. Conviene indicar que la elaboración de un modelo es un proceso dinámico que frecuentemente no acaba con la realización de un único modelo. Lo habitual es que éstos se vayan puliendo hasta que el investigador logre un cierto grado de satisfacción. Esta labor implica tanto desechar relaciones no significativas y repetir el modelo eliminando ciertos enlaces, como tantear relaciones donde originalmente no hayan sido contempladas, a efectos de comprobar si efectivamente no fueron necesarias en un principio. Al final, cuando se haya logrado un cierto ajuste global aceptable, al mismo tiempo que todas y cada una de las relaciones sean factibles, podremos dar por concluido el modelo. La comprobación de la significación de los coeficientes path sigue la misma lógica, ya conocida, de la significación de los coeficientes de regresión estandarizados. Se trata de aplicar la prueba t de Student a efectos de comprobar si un determinado coeficiente path procede una población caracterizada por un valor igual a cero. Como se recuerda, en la regresión múltiple: Siendo:

iiSS

t ii

ββ

ββ=

−=

0

jjqkNRS

i 11 2

−−−

28

En los modelos estructurales tendremos igualmente sobre un determinado parámetro, por ejemplo ijγ : Siendo: donde: iiψ : Proporción de variabilidad no explicada de la variable endógena Yi

N : Número de sujetos de la muestra k : Número de variables que inciden sobre la variable endógena qjj : Elemento j de la diagonal de la matriz R-1 formada por las variables que afectan a la

variable endógena mencionada. El valor de t obtenido se compara con el valor de las tablas de la t de Student para N-k-1 grados de libertad y el nivel α correspondiente. Esto es: ),( α1−−kNt . Si el valor de t es superior, se rechaza la Hipótesis nula al nivel de significación α ; el coeficiente ijγ es significativamente distinto de cero. Por el contrario, si el valor de t es igual o inferior, nada se opone a aceptar la Hipótesis nula. Mejor que esto, recurrir a las tablas on-line, donde se nos indica la probabilidad exacta de que ocurra tal acontecimiento desde la perspectiva de la Hipótesis nula. Ejemplo 1.7.- Suponiendo que hemos trabajado con una muestra de 100 sujetos, determinar la significación de los coeficientes path del ejemplo 1.5. SOL: Como se recuerda, el modelo era: 21γ 2ζ 11γ 1ζ 21β Figura 1.41

ijijSS

t ijij

γγ

γγ=

−=

0

X1

Y1 Y2

jjii

jj qkN

qkNRS

ij 111 2

−−=

−−−

γ

29

En relación a 11γ : Como sólo hay una variable independiente: Diag (R-1 ) = 1-1 = 1 Así pues: Por tanto: Buscando en las tablas: 96105098 .).,( =t . El valor de t obtenido es superior al de las tablas, luego puede considerarse 11γ = 0.5 como significativamente diferente de cero. Si recurrimos a las tablas on-line, para un valor de t=5.715 y 98 grados de libertad, su probabilidad asociada es inferior a 0.00001. Para determinar 21γ y 21β calculemos en primer lugar R-1 : Luego:

1111

111q

kNS

−−=

ψγ

0870198

7501 11

1111

.*. ==−−

= qkN

γ

71550870

50

11

11.

..

===γ

γ

St

−=

=

−−

3331667066703331

150501 1

1....

..R

06503331973070

1

06503331973070

1

2222

1122

21

21

..*.

..*.

==−−

=

==−−

=

qkN

S

qkN

S

ψ

ψ

βγ

γ

30

Calculemos los valores de t: Buscamos en las tablas para: 96105097 .).,( =t . Se deduce que ambos coeficientes son estadísticamente significativos. 1.7.- Validación del modelo Veremos en este apartado alguna de las técnicas estadísticas que permiten comprobar la adecuación de un modelo a la realidad estudiada. La validación de un modelo guarda una estrecha relación con la significación de los coeficientes, estudiado en el apartado anterior. Aquí se contrasta en una única prueba la totalidad del modelo mientras que en el caso de los coeficientes se contrastaba en diferentes pruebas la significación estadística de cada uno de tales coeficientes. Ambos tipos de contrastes son complementarios y han de realizarse en todo proceso de elaboración de un modelo. Como se recuerda, en los modelos de regresión múltiple se estudiaba la validez de los mismos merced a la prueba de bondad de ajuste; esto es, una vez especificadas las variables independientes y dependiente del modelo se trataba de determinar el porcentaje de variancia explicada de la variable dependiente por el modelo establecido. En este tipo de modelos, una vez definidas las variables, sólo había una única estructura de relación posible. No cabían otras alternativas. Existía, no obstante, una cierta capacidad de maniobra consistente en introducir las variables según un determinado orden (Stepwise, Forward o Backward) de manera que las variables irrelevantes -frecuentemente redundantes- quedaran eliminadas del modelo. Podíamos operar con el orden de entrada y el número de variables a considerar, pero no con la estructura de relación que venía fijada de antemano. En los modelos estructurales, además de la relevancia de las variables se contempla la relevancia de la estructura. Dadas unas ciertas variables, que se suponen pertinentes para el modelo, se trata de determinar la estructura idónea que refleje el juego real de relaciones existente entre las variables en liza. De esta forma, en los modelos estructurales la bondad de ajuste tiene un doble cometido, por un lado hemos de determinar las variables adecuadas que expliquen una proporción de varianza suficiente del modelo, y por otro, hemos de fijar la estructura que mejor se adecue al mecanismo causal de la realidad observada.

128406502670

3211006506670

21

21

212

211

...

...

===

===

β

γ

β

γ

St

St

31

Ambos propósitos exigen especialmente fundamentación teórica del tema en cuestión. Ha de conocerse, en primer lugar, lo más exhaustivamente posible, la literatura científica en torno al aspecto de la realidad estudiada. Después, sobre esta base de conocimientos, la estadística, como instrumento, puede resultar particularmente útil. En concreto nos limitaremos, tomando como referencia, un cierto modelo que se toma como partida y que responde a los conocimientos que hemos adquirido sobre un tema concreto, (y que en principio, se supone razonable), a aplicar procedimientos que permitan de una manera progresiva ir depurando el modelo hasta encontrar aquel que por razones de parsimonia refleje de una manera aceptable la realidad observada con un mecanismo causal lo más simple posible. En términos matemáticos, el criterio de ajuste que utilizaremos ser función de las discrepancias existentes entre la matriz de correlaciones de las variables estudiadas, que se toma como índice de la información del fenómeno real, y la matriz de correlaciones reproducida a partir de los parámetros del modelo, y que se entiende que es la información que de la realidad retiene el modelo elaborado. Conviene recordar a este respecto que la validación de un modelo es frecuentemente un camino de ida y vuelta. No se progresa en ellos de manera lineal sino diríamos en espiral. Modificaciones puntuales que mejoran ciertas parcelas del modelo pueden alterar otras y obligar a retomar cuestiones aparentemente resueltas que incluso den lugar a replantear la totalidad del modelo. Una vez reelaborado el modelo se procede a un nuevo estudio en detalle, que de nuevo podría alterar la totalidad del modelo. Y así sucesivamente, hasta alcanzar un punto de plausibilidad del modelo, donde el investigador, si no es demasiado neurótico, lo dé por concluido. La elaboración de un modelo -hemos de insistir en ello- es una labor principalmente de fundamentación teórica. Un modelo puede estar mal conceptualizado y ser, al mismo tiempo, intachable desde el punto de vista estadístico. Nada puede hacer la estadística frente a tal modelo como no sea abundar (de una manera rigurosa, eso sí) en el error. Los modelos han de ser, en primer lugar, correctos y además precisos. Hay un aspecto formal, cualitativo, de especial importancia a la hora de enjuiciar un modelo y que escapa al dominio de la estadística. No obstante, las técnicas estadística son un procedimiento nada desdeñable de ayuda al investigador en su proceso de construcción de un modelo. Detecta incongruencias que hacen incompatible el modelo con las hipótesis de partida, lo simplifica, consigue aumentar la proporción de varianza explicada del modelo ..etc. Y lo que en nuestra opinión es más importante; en todo este proceso el investigador se va familiarizando más y más con aquello que desea modelar. Y en este sentido, conviene insistir en la conveniencia de no limitarse en estos casos a la mecánica del Path análisis, o como veremos más adelante, a la del LISREL, sino que además son muy útiles aplicar técnicas exploratorias de datos, procedimientos gráficos, pequeños contrastes bivariantes .. etc, que permiten al investigador a maximizar la información del fenómeno estudiado y, por lo tanto, le ayudan en la toma de decisiones adecuadas. Antes de introducirnos en el proceso de depuración de un determinado modelo expondremos algunos criterios de tipo estadístico que pueden ayudarnos a tomar la decisión adecuada a la hora de elegir el mejor modelo entre varios posibles. Trataremos el tema de la identificación de los modelos.

32

1.8.- Identificación de modelos Una condición necesaria, previa a la validez del modelo, hace referencia a la identificación del mismo; esto es, a la posibilidad de que los parámetros del modelo sean susceptibles de ser calculados. Como se sabe, la determinación de los parámetros obedece a la solución de un sistema de ecuaciones, donde existen tantas ecuaciones como correlaciones posibles entre las diferentes variables del sistema. De aquí se deduce que para que tal sistema sea resoluble debe haber como mínimo tantos parámetros a estimar -incógnitas- como ecuaciones existentes. En términos matemáticos, si tenemos un modelo de n variables, el número de correlaciones posibles entre ellas ser igual a n(n-1)/2. Así, si tenemos un modelo con tres variables, tal como X1 , X2 e Y1 el número de correlaciones posibles ser 3*2/1 = 3. A saber,

12xxr ,11xyr y

21xyr Estas unidades de información -matriz de correlaciones- marcan, como se ha indicado, el número de ecuaciones posibles en la determinación de los parámetros del modelo. Puede ocurrir, como en los casos vistos hasta ahora, que el número de parámetros a estimar coincida con el número de correlaciones del modelo. En este caso, la solución del sistema de ecuaciones es única y diremos que el modelo es exactamente identificado. Puede ocurrir, por otro lado, que el número del parámetros del modelo sea inferior al número de ecuaciones -modelo sobreidentificado-. Aquí hay redundancia de información. Existen varias soluciones posibles del sistema y es necesario arbitrar en este caso criterios para elegir la mejor opción. Por último, el número de ecuaciones puede ser inferior al número de parámetros del modelo. En este caso, no existe información suficiente, no es posible encontrar solución alguna al sistema de ecuaciones y diremos que el modelo es subidentificado. En términos más formales, el criterio matemático utilizado hace referencia a los grados de libertad del modelo (gl). Si definimos tal concepto como la diferencia entre el número de ecuaciones del sistema (E) y el número de parámetros a estimar (P), tendremos que: PEgl −= . Así, los modelos exactamente identificados serán aquellos donde gl=0, los modelos sobreidentificados, aquellos donde gl>0, y, por último, los modelos subidentificado, donde gl<0. 1.8.1.- Modelos exactamente identificados Todos los modelos vistos hasta ahora han sido exactamente identificados. Ocurre, como se ha indicado, cuando todas las variables del modelo están enlazadas entre sí, tal como se refleja en el siguiente gráfico: 21γ 2ζ 11γ 1ζ 21β Figura 1.42

X1

Y1 Y2

33

Se cumple que el número de correlaciones -ecuaciones del sistema- coincide con el número de parámetros del modelo. En consecuencia gl=0. Así, en relación a este caso, tenemos las siguientes ecuaciones básicas: Las correlaciones son:

12xxr ,11xyr y

21xyr . Las mismas que los coeficientes path del modelo: 11γ , 21γ y 21β . Habrá, pues, tantas ecuaciones como incógnitas. (Obsérvese que los parámetros 11ψ y 22ψ hacen referencia a las varianzas residuales y pueden ser conocidos a partir de la información que suministran las correlaciones del modelo). De aquí se deduce que la solución del sistema es única. En base a la estructura definida sólo son posibles unos valores únicos para los parámetros del modelo. Esta circunstancia implica, en base al criterio comentado anteriormente de ajuste, que las correlaciones reproducidas a partir de los parámetros del modelo son precisamente las correlaciones reales, con lo que tal criterio carece de utilidad en este tipo de modelos. No es posible saber según dicho criterio qué modelo entre varios alternativos ajusta mejor con la realidad observada. Se dice que tales modelos no son verificables por cuanto, en términos estadísticos, no puede establecerse entre varios de ellos cual es preferible. Supongamos en este sentido que tres investigadores, con posiciones teóricas muy distintas, quieren estudiar el efecto que sobre el Éxito profesional (EP) ejercen las variables Inteligencia (IN) y Nivel social (NS). A este respecto, establecen los siguientes modelos: Modelo A Modelo B Modelo C Figura 1.43 En el modelo A se parte de una postura, diríamos genetista; es la Inteligencia -heredada- la causa del Nivel social. En el modelo B se parte, por el contrario, de una postura ambientalista; es el Nivel social -la educación- lo que determina la Inteligencia. Por último, en el modelo C, se supone que ambas variables covarían -comparten información- pero no se especifica el sentido de la causalidad. Si nos tomáramos la molestia de calcular los parámetros de estos tres modelos observaríamos que en todos ellos las ecuaciones serán las mismas, tal como se indica en (4.1), y en consecuencia, los parámetros serían, igualmente, los mismos. La proporción de varianza explicada por los modelos serían exactamente iguales, la significación de los

211121

211121

11

12

12

11

γγββγγ

γ

+=+=

=

yy

xy

xy

rrr

NE

IN

EP

IN IN

EP NE EP NE

34

coeficientes también .. etc. En definitiva, no habría forma, en base a criterios puramente estadísticos de determinar qué modelo es preferible a cual. Tan sólo en base a criterios de índole teórico (con las precauciones necesarias de todo trabajo no experimental) podría establecerse alguna decisión a este respecto. 1.8.2.- Modelos sobreidentificados Todos los modelos contemplados en el Path análisis- recursivos con variables observadas- cuando carece de algún enlace entre algunas de las variables son modelos sobreidentificados. Como se ha indicado, las ecuaciones vienen marcadas por el número de correlaciones -todas las relaciones posibles entre las variable-, por tanto, baste que se suprima algún enlace (o lo que es lo mismo, restrinjamos el parámetro en cuestión a cero) para que el número de parámetros a estimar sea inferior al de correlaciones, y en consecuencia, el sistema tenga más ecuaciones que incógnitas. Desde una perspectiva formal, son aquellos modelos cuyos grados de libertad son superiores a cero (gl>0). En estos casos existen varias soluciones posibles para los parámetros del modelo, lo que permite elegir, en base al criterio de ajuste -discrepancia entre las correlaciones reproducidas por el modelo y las correlaciones observadas- aquel modelo que presente mejor bondad de ajuste. Se dice, por ello, que tales tipos de modelos son verificables por cuanto pueden ser contrastados y comprobar si las restricciones realizadas son o no viables en el sentido de que los parámetros estimados satisfagan aquellas ecuaciones no utilizadas en la determinación de estos mismos parámetros, o lo que es lo mismo, los parámetros estimados verifiquen tales ecuaciones. Consideremos, en este sentido, los modelos A y B reflejados en la figura 4.3. Ambos modelos operan con las mismas variables: Ingresos (IN), Nivel educativo (NE) y Prestigio social (PS). No obstante, la estructura de relación indicada para cada uno de dichos modelos es bien diferente. En el modelo A se supone que los Ingresos inciden sobre el Nivel educativo, que a su vez, afecta el Prestigio social. Por el contrario, en el modelo B, es el Prestigio social lo que incide sobre los Ingresos, y éstos sobre el Nivel educativo. Así: Modelo A Modelo B Figura 1.44

IN

NE PS

IN

NE

PS

35

En términos más formales y estableciendo las siguientes identidades para los modelos A y B respectivamente:

12

21

11

XPSYPSYNEYNEYINXIN

BModeloAModelo

≡≡≡≡≡≡

obtendremos los modelos: 1ζ 2ζ 11γ 11γ 21β 21β

1ζ 2ζ Modelo A Modelo B Figura 1.42

Supongamos que las correlaciones entre las distintas variables son las siguientes: Elijamos el modelo A. Disponemos de tres correlaciones para determinar tan sólo dos parámetros, tal como se reflejan en las siguientes ecuaciones: Podemos elegir las ecuaciones referentes a

11xyr y 12xyr para determinar los parámetros 11γ y

21β (el valor 21γ ha sido fijado a cero). Así pues:

X1

Y1 Y2

Y1

Y2 X1

605070 ... === NPPINI rrr

21

2111

11

12

12

11

ββγ

γ

===

yy

xy

xy

rrr

6070

2121

1111

12

11

..

=⇒==⇒=

ββγγ

yy

xyrr

36

Completemos el modelo calculando 11ψ y 22ψ : El modelo resultante será: 2ζ 0.7 0.68 0.51 0.6 1ζ Modelo A Figura 1.46 A partir de los parámetros 11γ y 21β podemos reproducir

12xyr : Se observa que entre la correlación real

12xyr y la correlación reproducida *12xyr a partir de

los parámetros 11γ y 21β existe una cierta discrepancia: 08042050

1212...* =−=− xyxy rr

Consideremos ahora el modelo B. Disponemos de las mismas correlaciones que anteriormente, pero en este caso, para estimar los parámetros 11γ y 21β de la figura 1.47. Calculemos 11ψ y 22ψ :

64060115107011

2222

2211

12

11

....

.

.

=−=−==−=−=

yy

xy

rr

ψψ

X1

Y1 Y2

4207060112112..*.* === γβxyr

7050

2121

1111

12

11

..

=⇒==⇒=

ββγγ

yy

xyrr

51070117505011

2222

2211

12

11

....

.

.

=−=−==−=−=

yy

xy

rr

ψψ

37

El modelo quedará: 0.75 1ζ 0.5 0.7 0.5 2ζ Figura 1.47 A partir de los parámetros 11γ y 21β podemos reproducir

12xyr : 3505070112112

..*.* === γβxyr Se observa que entre la correlación real

12xyr y la correlación reproducida *12xyr a partir de

los parámetros 11γ y 21β existe la discrepancia: Comparando ambos modelos deduciremos grosso modo (ya veremos el proceso estadístico riguroso en el próximo tema) que el modelo B se ajusta peor a los datos de observación que el modelo A. En consecuencia, preferiremos el modelo A al B. 1.8.3.- Modelos subidentificados Aunque dentro del path análisis, como se ha indicado, no es posible la existencia de modelos subidentificados, expondremos, únicamente con ánimo ilustrativo, las características de tales tipo de modelo. Hemos de decir que dichos modelos son tratados en un contexto más general -LISREL- (fuera de nuestro propósito actual), donde las restricciones específicas del path análisis quedan ampliamente superadas, contemplándose entre otros aspectos (error de medida, variables latentes ..etc) la posibilidad de causalidad recíproca entre las distintas variables, así como correlaciones con los términos de error. Los modelos subidentificados se caracterizan por no contener información suficiente para estimar los parámetros. En términos matemáticos se traduce en la existencia de más incógnitas que ecuaciones; esto es, se caracterizan por tener un número de grados de libertad menor de cero (gl<0). Un caso elemental de modelo subidentificado es el siguiente modelo no recursivo: Figura 1.48

Y2

Y1

X1

25.035.06.0*1212

=−=− xyxy rr

21βY2 Y1

12β

38

Sólo disponemos de la correlación 21yyr (que por razones de simetría equivale a

12yyr ), y hemos de determinar a partir de este valor los parámetros

12β y 21β . Tenemos una unidad

de información y dos incógnitas a resolver. Igualmente puede darse el caso de que aunque el sistema sea recursivo no se den los supuestos del modelo de path análisis en relación a los términos de error, y presenten correlación entre ellos, tal como se contempla en el siguiente modelo donde están relacionados los términos de error 1ζ y 2ζ : Figura 1.49 O bien que exista relación entre alguna variable explicativa y el término de error: Figura 1.50 O cualquier combinación de estos casos. Son modelos, por ello, no susceptibles de ser resueltos en términos de sus parámetros. Como hemos indicado, no es nuestra intención, por el momento, de entrar en la casuística de este tipo de modelos y su posible abordaje si no tan sólo mostrar la existencia de tales modelos al lector.

Y2

Y1

X1

1ζ2

2ζ2

11γ

21ψ

21γ

21β

11ψ2

22ψ2

Y2

Y1

X1

11γ

21γ

21β

11ψ2

22ψ2

11Xrζ

39

1.9.- Aplicación informática 1.10.- Introducción Es nuestra intención en este apartado retomar algunos de los ejemplos tratados en páginas anteriores y resolverlos mediante el programa informático LISREL 8.7. Será, pues, la ocasión de introducirnos (muy brevemente) en la programación LISREL. Trataremos, en una primera instancia, el ejemplo 1.5 (modelo exactamente identificado) donde determinaremos la estimación de los parámetros y su significación estadística. A continuación abordaremos la cuestión de los modelos sobreidentificados. Retomaremos el ejemplo 1.6 y volveremos a su análisis, esta vez, con mayor rigor formal. 1.11.- Modelo exactamente identificado Retomemos el ejemplo 1.5. Como se recuerda, el diagrama causal correspondiente era: Figura 1.51

Las variables en cuestión:

X1 : Inteligencia Y1 : Clase social Y2 : Rendimiento

Y las correlaciones:

X1

Y1 Y2

X1

11γ

Y2 1ζ

2ζ21γ

21β

608050121211

... === yyxyxy rrr

40

La determinación de los parámetros de este modelo junto a la significación estadística de los mismos, merced al recurso de la programación LISREL, vendrá indicado en las siguientes sentencias: MODELO EXACTAMENTE IDENTIFICADO DA NI=3 NO=100 MA=KM KM 1 0.6 1 0.5 0.8 1 LA CSOCIAL REN INT SE 1 2 3 MO NY=2 NX=1 BE=FU,FI PS=DI,FR PA BE 0 0 1 0 PATH DIAGRAM OU SE TV La primera línea hace referencia al título del problema. Podemos hacerlo tan largo como queramos (varias líneas). El título finalizar cuando se encuentre con la sentencia DA. La sentencia DA (DAta and problem parameters) permite introducir la información básica del problema. Aquí hemos contemplado las siguientes especificaciones: NI (Number of Input variables), NO (Number of Observations) y MA (type of MAtriz to be Analyzed). En relación a la instrucción MA hemos indicado que la matriz de entrada es la matriz de correlaciones, cuya especificación aquí es KM. A continuación viene precisamente la información de partida. Tras un encabezamiento indicándole que la matriz a considerar es la matriz de correlaciones (KM) se ofrecen las distintas correlaciones (solamente submatriz diagonal inferior, ya que dicha matriz es simétrica). Por otro lado, la estructura de dicha matriz es: Y1 Y2 X1 Y1 1 Y2 0.6 1 X1 0.5 0.8 1 esto es, en primer lugar se colocan las variables endógenas y a continuación las exógenas.

41

La sentencia LA (LAbels) muestra el nombre de las variables, que se expresan en la siguiente línea. Estas son: INT (Inteligencia), CSOCIAL (Clase social) y REN (Rendimiento). La sentencia SE (SElect) nos indica el orden en el que van a ser leídas las variables de entrada. El LISREL obliga a leer primero las variables endógenas y a continuación la exógenas. Como las variables endógenas son CSOCIAL (Y1 ) y REN (Y2 ), indicaremos estas en primer lugar, seguida de la variable exógena INT (X1 ). El orden será 1 2 3. En la sentencia MO (Model parameters) se indica primeramente el número de variables endógenas observadas del modelo (NY) y el número de variables exógenas observadas (NX). A continuación hay que especificar la estructura de las matrices a utilizar y los parámetros contenidos en ellas que hay que estimar. Como se sabe, las matrices contempladas en este tipo de modelos son: BETA (Β ), GAMMA (Γ ), PHI (Φ ) Y PSI (Ψ ). En relación a la matriz BETA le indicamos que es una matriz completa (FULL) y que todos los parámetros están fijados (FIXED) a cero. De esta forma le indicaremos: BE=FU,FI Puede parecer esta sentencia una contradicción, ya que sabemos que hemos de calcular el parámetro 21β . Esto no es problema porque en la sentencia PA (PAttern matrix) que viene a continuación le especificamos exactamente qué parámetros deseamos estimar: son aquellos que vienen representados por un 1. De esta forma le indicaremos:

PA BE 0 0 1 0

Esto es, de la siguiente matriz: Y1 Y2 Y1 11β 12β Y2 21β 22β sólo hemos de calcular 21β . En relación a la matriz PSI, como se suponen que los errores no están correlacionados entre sí, se especifica dicha matriz como diagonal y a estimar sus parámetros; esto es, libres a estimar (FREE). Así: PS=DI,FR

42

Para las matrices GAMMA y PHI no hace falta especificar nada. En relación a la matriz GAMMA se contemplan todas las conexiones posibles. Y esta matriz por defecto es precisamente FU,FR. Igualmente la matriz PHI por defecto es una matriz simétrica, como es el caso aquí. Por tanto, tampoco hemos de especificar PH=SY,FR. Resumiendo, las matrices contempladas en el modelo, junto con sus coeficientes, son las siguientes: GAMMA (Γ ): CSOCIAL REN INT 11γ 12γ BETA (Β ): CSOCIAL REN CSOCIAL 0 0 REN 21β 0 PHI (Φ ): INT INT 11φ PSI (Ψ ): CSOCIAL REN CSOCIAL 11ψ 0 REN 0 22ψ La sentencia PATH DIAGRAM indica que se represente gráficamente los resultados del análisis. Se representa el diagrama causal, así como sus coeficientes (y su significación) asociados. Por último, en la sentencia OU (OUtput request) se indican las salidas que deseamos. Entre una serie de opciones aquí solicitamos SE (Standard Errors) y TV (t-Values) asociados a dichos errores típicos.

43

Exponemos a continuación la salida de este programa LISREL. Para mayor comodidad en su lectura entresacamos las partes que hemos estimado más relevante: los parámetros del modelo, bondad de ajuste, errores típicos asociados a tales parámetros y la prueba t de Student. En relación a los parámetros del modelo el listado es el siguiente: LISREL Estimates (Maximum Likelihood) BETA CSOCIAL REN -------- -------- CSOCIAL - - - - REN 0.27 - - (0.06) 4.13 GAMMA INT -------- CSOCIAL 0.50 (0.09) 5.72 REN 0.67 (0.06) 10.32 PHI INT -------- 1.00 (0.14) 7.00 PSI Note: This matrix is diagonal. CSOCIAL REN -------- -------- 0.75 0.31 (0.11) (0.04) 7.00 7.00 Squared Multiple Correlations for Structural Equations CSOCIAL REN -------- -------- 0.25 0.69

44

De aquí se deduce que el diagrama causal será: Figura 1.52 Como puede comprobarse todos los resultados son coincidentes con los obtenidos en el ejemplo 1.5 (cálculo de los parámetros) y el ejemplo 1.7 (significación estadística de los mismos). En cuanto a la bondad de ajuste: Goodness of Fit Statistics Degrees of Freedom = 0 Minimum Fit Function Chi-Square = 0.0 (P = 1.00) Normal Theory Weighted Least Squares Chi-Square = 0.0 (P = 1.00) The Model is Saturated, the Fit is Perfect ! Se observa que el modelo, al ser exactamente identificado, ajusta perfectamente, y en consecuencia, todos los valores referidos a las puntuaciones residuales valdrán cero. La inclusión de la sentencia PATH DIAGRAM permite, entre otros, los siguientes gráficos:

Y1

X1

50.

Y2 1ζ

2670.750.

6670.

3070.

45

Si deseamos los valores de t de Student asociados: 1.12.- Modelo sobreidentificado Retomamos aquí el ejemplo 1.6, realizado manualmente, y que por dificultades de calculo sólo pudimos comprobar grosso modo las discrepancias entre la matriz R (observada) y R* (reproducida). Procedemos de nuevo a su ejecución, esta vez con los recursos del programa LISREL. Como se recuerda, se trataba de comparar los siguientes modelos sobreidentificados: Modelo A Modelo B Figura 1.53

NE

IN IN

PS NE PS

46

1.12.1.- Modelo A En el modelo A suponíamos que los Ingresos condicionaba el Nivel de estudios, y éste a su vez, el Prestigio social. Por el contrario en el modelo B, era el Prestigio social lo que condicionaba los Ingresos, y estos, el Nivel educativo. Este tipo de modelos –los modelos sobreidentificados-, como se ha indicado, son los únicos susceptibles (al margen de otras consideraciones) de ser verificados estadísticamente. Comencemos por el modelo A. Le indicamos lo siguiente: MODELO SOBREIDENTIFICADO A DA NI=3 NO=100 MA=KM KM 1 0.7 1 0.5 0.6 1 LA INGRESOS NEDUC PSOCIAL SE 2 3 1 MO NY=2 NX=1 BE=FU,FI PS=DI,FR PA GA 1 0 PA BE 0 0 1 0 PATH DIAGRAM OU SE TV Las instrucciones son prácticamente las mismas que las indicadas en la tabla 1, a excepción de que la selección de las variables es: SE 2 3 1 Esto es, las variables endógenas (por orden) son Nivel educativo y Prestigio social, y la variable exógena, Ingresos. Por otro lado, la variable Ingresos sólo enlaza con Nivel educativo (y no con Prestigio social), así pues, la estructura de la matriz GAMMA será: PA GA 1 0

47

Un primer resultado gráfico, muy sencillo, el que nos proporciona la sentencia PATH DIAGRAM, será: El valor de Chi-Cuadrado (que nos marca la discrepancia entre R y R*) para 1 grado de libertad es 1.94. Su probabilidad asociada es 0.16354, que nos indica precisamente la probabilidad de obtener tal matriz R* a partir de una supuesta población con R. Es mayor que los valores convencionales de 0.05 o 0.01, por o que nada se opone a aceptar que el modelo propuesto se ajusta a los datos de observación. También se nos indica en esta tabla que el valor de RMSEA (Root Mean Square Error of Approximation) es 0.098. En castellano, el Error cuadrático medio de aproximación, que deriva de la Chi-Cuadrado, y que a diferencia de ésta, constituye un estimador insesgado del error de aproximación. Se define (Browne y Cudeck, 1993) como: siendo gl los grado de libertad del modelo y N el total de individuos. En este caso: Se acepta que para un buen modelo, RMSEA < 0.05. Por lo que en este caso, rechazaremos la hipótesis de un buen ajuste.

glNgl

RMSEA*

2 −=

χ

098.01*100194.1

=−

=RMSEA

48

Si deseamos conocer los distintos estimadores, junto a sus errores tipo y el valor de t de Student asociado: LISREL Estimates (Maximum Likelihood) BETA NEDUC PSOCIAL -------- -------- NEDUC - - - - PSOCIAL 0.60 - - (0.08) 7.42 GAMMA INGRESOS -------- NEDUC 0.70 (0.07) 9.70 PSOCIAL - - PHI INGRESOS -------- 1.00 (0.14) 7.00 PSI Note: This matrix is diagonal. NEDUC PSOCIAL -------- -------- 0.51 0.64 (0.07) (0.09) 7.00 7.00 También los valores de R2 para las distintas variables endógenas: Squared Multiple Correlations for Structural Equations NEDUC PSOCIAL -------- -------- 0.49 0.36

49

Podemos hacernos una idea de la discrepancia comparando la matriz de correlaciones observada y reproducida: Correlation Matrix NEDUC PSOCIAL INGRESOS -------- -------- -------- NEDUC 1.00 PSOCIAL 0.60 1.00 INGRESOS 0.70 0.50 1.00 LISREL Estimates (Maximum Likelihood) Covariance Matrix of Y and X NEDUC PSOCIAL INGRESOS -------- -------- -------- NEDUC 1.00 PSOCIAL 0.60 1.00 INGRESOS 0.70 0.42 1.00 Obsérvese que en el enlace que falta entre Prestigio social e Ingresos, la correlación reproducida por el modelo es 0.42, siendo la real 0.5. Valores coincidentes con los obtenidos manualmente en el ejemplo 1.6. Además el LISREL 8 nos ofrece una infinidad más de indicadores de ajuste: Goodness of Fit Statistics Degrees of Freedom = 1 Minimum Fit Function Chi-Square = 1.96 (P = 0.16) Normal Theory Weighted Least Squares Chi-Square = 1.94 (P = 0.16) Estimated Non-centrality Parameter (NCP) = 0.94 90 Percent Confidence Interval for NCP = (0.0 ; 9.23) Minimum Fit Function Value = 0.020 Population Discrepancy Function Value (F0) = 0.0096 90 Percent Confidence Interval for F0 = (0.0 ; 0.094) Root Mean Square Error of Approximation (RMSEA) = 0.098 90 Percent Confidence Interval for RMSEA = (0.0 ; 0.31) P-Value for Test of Close Fit (RMSEA < 0.05) = 0.21 Expected Cross-Validation Index (ECVI) = 0.12 90 Percent Confidence Interval for ECVI = (0.11 ; 0.21) ECVI for Saturated Model = 0.12 ECVI for Independence Model = 1.17 Chi-Square for Independence Model with 3 Degrees of Freedom = 108.90 Independence AIC = 114.90 Model AIC = 11.94 Saturated AIC = 12.00 Independence CAIC = 125.72

50

Model CAIC = 29.97 Saturated CAIC = 33.63 Normed Fit Index (NFI) = 0.98 Non-Normed Fit Index (NNFI) = 0.97 Parsimony Normed Fit Index (PNFI) = 0.33 Comparative Fit Index (CFI) = 0.99 Incremental Fit Index (IFI) = 0.99 Relative Fit Index (RFI) = 0.95 Critical N (CN) = 336.06 Root Mean Square Residual (RMR) = 0.033 Standardized RMR = 0.033 Goodness of Fit Index (GFI) = 0.99 Adjusted Goodness of Fit Index (AGFI) = 0.92 Parsimony Goodness of Fit Index (PGFI) = 0.16 El valor de Chi-Cuadrado 2χ hace referencia a indicadores globales de bondad de ajuste, que en términos generales, marca la diferencia entre R y R*, esto es, la magnitud de los residuales. Estos valores dependen de las restricciones que hayamos impuesto; cuanto menos, menor el número de correlaciones discrepantes, lo que puede dar lugar a la ilusión de un buen modelo cuando no lo es. En el límite, todos los modelos saturados, sean como sean, ajustan perfectamente. También la Chi-Cuadrado se ve afectado por le tamaño N de la muestra, lo que penaliza el ajuste para muchos sujetos. Es por ello, que resulta conveniente otros indicadores de ajuste relativamente independiente del número de parámetros y de sujetos.. En este sentido, una solución consiste en calcular la raiz del residuo estandarizado cuadrático medio, o bien SRMR (Standardized Root Mean square Residual), que es un valor promedio. Este estadístico es muy utilizado, y su valor ha de estar por debajo de 0.05, lo que no ocurre aquí. Frecuentemente se comparan distintos modelos, con lo que interesa compararlos entre sí y ver la mejora relativa. Son los denominados índices de ajuste incremental, donde se contrastan la Chi-Cuadrado de diferentes modelos. A este respecto tenemos el Índice de ajuste normalizado, NFI (Normed Fit Index). Se calcula de la siguiente manera: donde 2χ es el valor de Chi-Cuadrado del modelo propuesto, y 2

bχ el del modelo que tomamos como referencia. Convencionalmente este valor se refiere al denominado modelo de independencia o nulo, que asume las covarianzas (o correlaciones) como cero. Este indicador oscila entre 0 y 1. Como el modelo base presentará una gran discrepancia con los datos de observación, se exige valores de NFI superiores a 0.95. No es un buen indicador, ya que depende en exceso del número de parámetros del modelo.

2

22

b

bNFIχ

χχ −=

51

Alternativas a este índice es el índice de ajuste no normado, NNFI (Non-Normed Fit Index), que intenta compensar los inconveniente del índice anterior. Para ello trabaja con el cociente de los distintos valores de Chi-Cuadrado y sus grados de libertad correspondientes: Por último, tenemos un par de índices, AIC y CAIC. No están acotados entre 0 y 1, lo que dificulta su interpretación. Todo lo que se puede decir es que cuanto menores son, mejor es el ajuste. Presentan fórmulas equivalente, y son especialmente útiles cuando se tratan de comparar distintos modelos referidos a la misma realidad. Aunque sus valores no están estandarizados, sí son comparables entre distintos modelo de la misma realidad, en cuanto una disminución de los mismos implica una mayor mejora. El índice AIC se expresa: Y el índice CAIC: 1.12.1.- Modelo B las instrucciones para el modleo B son muy parecidas a las del modelo A. Son las siguientes MODELO SOBREIDENTIFICADO B DA NI=3 NO=100 MA=KM KM 1 0.7 1 0.5 0.6 1 LA INGRESOS NEDUC PSOCIAL SE 1 2 3 MO NY=2 NX=1 BE=FU,FI PS=DI,FR PA GA 1 0 PA BE 0 0 1 0 PATH DIAGRAM OU SE TV

bb

bb

glglgl

NNFI/

//2

22

χχχ −

=

glAIC 22 −= χ

)1)(ln(2 +−= NglCAIC χ

52

Tan sólo hay que especificar que el orden de entrada es: SE 1 2 3 Se entiende entonces que Ingresos es Y1, Nivel educativo Y2, y Éxito social X1. La salida proporcionada por PATH DIAGRAM: La probabilidad asociada al valor de Chi-Cuadrado indica ausencia de ajuste, así como el valor de RMSEA, muy superior a 0.05. Respecto a los parámetros:

53

LISREL Estimates (Maximum Likelihood) BETA INGRESOS NEDUC -------- -------- INGRESOS - - - - NEDUC 0.70 - - (0.07) 9.70 GAMMA PSOCIAL -------- INGRESOS 0.50 (0.09) 5.72 NEDUC - - PHI PSOCIAL -------- 1.00 (0.14) 7.00 PSI Note: This matrix is diagonal. INGRESOS NEDUC -------- -------- 0.75 0.51 (0.11) (0.07) 7.00 7.00 Squared Multiple Correlations for Structural Equations INGRESOS NEDUC -------- -------- 0.25 0.49 Squared Multiple Correlations for Reduced Form INGRESOS NEDUC -------- -------- 0.25 0.12

54

Obsérvese la discrepancia entre la matriz de correlaciones observadas y reproducidas: Correlation Matrix INGRESOS NEDUC PSOCIAL -------- -------- -------- INGRESOS 1.00 NEDUC 0.70 1.00 PSOCIAL 0.50 0.60 1.00 Covariance Matrix of Y and X INGRESOS NEDUC PSOCIAL -------- -------- -------- INGRESOS 1.00 NEDUC 0.70 1.00 PSOCIAL 0.50 0.35 1.00 El enlace que falta entre Prestigio social y Nivel educativo, cuya correlación observada es 0.6, muestra una correlación reproducida por le modelo de 0.35. Una discrepancia superior al modelo A. Y en relación a los restantes índices de ajuste: Goodness of Fit Statistics Degrees of Freedom = 1 Minimum Fit Function Chi-Square = 17.66 (P = 0.00) Normal Theory Weighted Least Squares Chi-Square = 16.18 (P = 0.00) Estimated Non-centrality Parameter (NCP) = 15.18 90 Percent Confidence Interval for NCP = (5.65 ; 32.11) Minimum Fit Function Value = 0.18 Population Discrepancy Function Value (F0) = 0.15 90 Percent Confidence Interval for F0 = (0.058 ; 0.33) Root Mean Square Error of Approximation (RMSEA) = 0.39 90 Percent Confidence Interval for RMSEA = (0.24 ; 0.57) P-Value for Test of Close Fit (RMSEA < 0.05) = 0.00021 Expected Cross-Validation Index (ECVI) = 0.27 90 Percent Confidence Interval for ECVI = (0.17 ; 0.44) ECVI for Saturated Model = 0.12 ECVI for Independence Model = 1.17 Chi-Square for Independence Model with 3 Degrees of Freedom = 108.90 Independence AIC = 114.90 Model AIC = 26.18

55

Saturated AIC = 12.00 Independence CAIC = 125.72 Model CAIC = 44.20 Saturated CAIC = 33.63 Normed Fit Index (NFI) = 0.84 Non-Normed Fit Index (NNFI) = 0.53 Parsimony Normed Fit Index (PNFI) = 0.28 Comparative Fit Index (CFI) = 0.84 Incremental Fit Index (IFI) = 0.85 Relative Fit Index (RFI) = 0.51 Critical N (CN) = 38.19 Root Mean Square Residual (RMR) = 0.10 Standardized RMR = 0.10 Goodness of Fit Index (GFI) = 0.90 Adjusted Goodness of Fit Index (AGFI) = 0.41 Parsimony Goodness of Fit Index (PGFI) = 0.15 Obsérvese que todos los indicadores indican un mal ajuste. Peor que en modelo A, como se refleja en los indicadores AIC y CAIC, en donde se obtienen valores superiores. Bibliografía Asher, H.B. (1984). Causal Modeling. Beverly Hills: Sage. Birnbaum, I (1981). An introduction to causal analysis in sociology. London: Mcmillan

Press. Bollen, K. A. (1989). Structural Equations with latent variables. New York: Wiley Bollen, K.A. And Long, J.S. (Eds.; 1993). Testing structural equation models. Thousan Oaks

Sage. Brett, J. M.; James, L. R. (1982). Causal Analysis: Assumtions, Models And Data. Beverly

Hills: Sage. Browne, M. W., y Cudeck, R. (1993): “Alternative ways of assessing model fit” en Bollen, K. A.

y Long, J. S. (Eds.), Testing structural equation models. Thousan Oaks: Sage Byrne, B.M. (1998). Structural Equation Modelling with Lisrel, Prelis, And Simplis: Basic

Concepts, Applications, and Programming. Mahwah, Nj: L. Erlbaum Davis, A. J. (1987). The logic of causal order. Beverly Hills: Sage. Diamantopoulos, A. & Siguaw, J. A. (2000). Introducing LISREL: A Guide for the uninitiated.

Thousand Oaks, Ca : Sage. Duncan, O. D. (1975). Introduction to structural equation models. New York: Academic Press. Hayduk, L. A. (1996). LISREL: Issues, debates and strategies. Baltimore, Mariland: Johns

Hopkins U.P. Heise, D. R. (1975). Causal Analysis. New York: Wiley. Hoyle, R.H., (Ed.) (1995). Structural Equation Modeling: Concepts, Issues And Applications.

Thousand Oaks, Ca: Sage Publications

56

James, L. R. (1982). Causal Analysis: Assumptions, Models And Data. Beverly Hills: Sage. Joreskog, K. G. And D.Sorbom (1988). LISREL VII: A guide to the program and

applications. Chicago: Spss, Inc. Jöreskog K. G. & Sörbom, D. (1996) LISREL 8. User's reference guide. Mooresville, Indiana:

Scientific Software. Jaccard, J. And Wan, C.K. (1996). LISREL approaches to interaction effects in multiple

regression. Beverly Hills: Sage Kelloway, E. K. .(1998). Using LISREL for structural equation modeling: A Researcher's Guide.

Thousand Oaks, Ca: Sage Kenny, D. (1979). Correlation and Causality. New York: John Wiley And Sons. Loehlin, J. (1998). Latent variable models (3rd Ed). Hillsdale, Nj: Erlbaum. Li, C.C. (1975). Path Analysis -A Primer. Pacific Grove Ca.: Boxwood Press. Maruyama, G.M. (1998). Basics of structural equation modeling. Thousand Oaks, Ca: Sage. Marcoulides, G.A. & Schumacker, R.E. (2001). New developments and techniques in structural

equation modeling. Mahwah, NJ: L. Erlbaum. Marcoulides, G.A. And Schumacker, R.E. (Eds; 1996). Advanced structural equation

modelling: Issues and techniques. Hillsdale, NJ: Erlbaum. Mulaik, Stanley A.; James,Lawrence R. (1982). Causal analysis: assumptions, models and

data. Beverly Hills: Sage Publications. Mueller, R.O. (1998). Basic principles of structural equation modeling. New York: Springer Pedhazur, E. J (1982). Multiple Regresion In Behavioral Research. Explanation And

Prediction (2nd Ed.). New York: Halt Rinehart and Winston. Schumacker, R.E. and Lomax, R.G. (1996). A Beginner's Guide to Structural Equation

Modeling. Hillsdale, NJ: Erlbaum. Schumacker, R.E. & Marcoulides, G.A. (eds.) (1998). Interaction and nonlinear effects in

structural equation modeling. Mahwah, NJ: L. Erlbaum. Saris, W. E. And Stronkhorst, L. H. (1984). Causal modelling in nonexperimental research.

Amsterdam: Sociometric Research Foundation. Viladrich I Segues, M.C. (1985). Models d'ecuacions Estructurals en recerca no experimental.

Barcelona: Universidad Autonoma de Barcelona. Visauta, B. (1986). Modelos causales. Barcelona: Hispano Europea. Wonnacott, T.H and Wonnacott, R.J. (1981). Regression: A Second Course in Statistics.

New york: wiley. Yang Jonsson, F. (1997). Non-linear structural equation models: simulation studies of the

Kenny-Judd model. Acta Universitatis Upsalensis.