escalamiento multidimensional

1

ESCALAMIENTO MULTIDIMENSIONAL

1. INTRODUCCIÓN.

El escalamiento multidimensional, más conocido como MultiDimensional Scaling (MDS),

tiene sus orígenes a principios de siglo XX en el campo de la Psicología. Surge cuando se

pretendía estudiar la relación que existía entre la intensidad física de ciertos estímulos con

su intensidad subjetiva.

El MDS es una técnica de representación espacial que trata de visualizar sobre un mapa un

conjunto de estímulos (firmas, productos, candidatos políticos, ideas u otros artículos) cuya

posición relativa se desea analizar. El propósito del MDS es transformar los juicios de

similitud o preferencia llevados a cabo por una serie de individuos sobre un conjunto de

objetos o estímulos en distancias susceptibles de ser representadas en un espacio

multidimensional. El MDS está basado en la comparación de objetos o de estímulos, de

forma que si un individuo juzga a los objetos A y B como los más similares entonces las

técnicas de MDS colocarán a los objetos A y B en el gráfico de forma que la distancia entre

ellos sea más pequeña que la distancia entre cualquier otro par de objetos.

Así, por ejemplo, imaginemos que estamos interesados en conocer las preferencias de una

muestra de consumidores por cinco productos de limpieza que llamaremos A, B, C, D y E.

Un modelo de escalamiento unidimensional nos proporcionaría una escala sobre la que

situar estos cinco productos, de tal modo que sus posiciones sobre la misma representarían

una medida de preferencia que suscitan en los consumidores:

A C B E D

2

El escalamiento unidimensional ha situado los cinco productos de limpieza sobre una escala

que va de izquierda (menos preferido) a derecha (más preferido). La información que nos

proporciona esta escala es muy importante para la valoración de los cinco productos. Así,

vemos que el producto A es el menos preferido por los consumidores, seguido, a bastante

distancia por el producto C. Por su parte, el producto B se encuentra en una posición

intermedia de preferencia. Finalmente, los productos E y D son los más preferidos, aunque

el producto D muestra una ligera ventaja sobre el E.

Si analizamos los factores que utilizan los consumidores para evaluar los productos de

limpieza (eficacia y precio), la representación que obtenemos es bastante distinta de la

inicial. Ahora los productos están representados simultáneamente sobre dos escalas: el

grado de eficacia y el precio. Si atendemos a la eficacia, A y B son los más ineficaces,

mientras que C y D tienen un grado alto de eficacia, siendo E el más eficaz de todos. Por

precios, A y C son los productos más caros, mientras que B y E tienen un precio similar y

más barato que los dos anteriores, siendo D el mejor en esta característica.

La posibilidad de tener en cuenta más de una dimensión supone un avance de capital

importancia para la teoría del escalamiento. En definitiva, el MDS es una técnica

A C

D

E

Caro

Barato

Ineficaz Eficaz

B

3

multivariante que crea un gráfico aproximado a partir de las similitudes o preferencias de

un conjunto de objetos.

En la actualidad, el MDS puede ser apto para gran cantidad de tipos diferentes de datos de

entrada (tablas de contingencia, matrices de proximidad, datos de perfil, correlaciones,

etc.).

El MDS puede ayudar a determinar:

• qué dimensiones utilizan los encuestados a la hora de evaluar a los objetos.

• cuántas dimensiones utilizan.

• la importancia relativa de cada dimensión.

• cómo se relacionan perceptualmente los objetos.

Existen otras técnicas multivariantes, como son el análisis factorial y el análisis cluster, que

persiguen objetivos muy similares al MDS pero que difieren en una serie de aspectos. Sin

embargo, la utilización de alguna de estas técnicas no supone que no se pueda utilizar el

escalamiento multidimensional, sino que esta última técnica puede servir como alternativa

o bien como complemento a las otras técnicas multivariantes.

2. EL MODELO GENERAL DE ESCALAMIENTOMULTIDIMENSIONAL.

Los datos que se utilizan como entrada para los análisis MDS son las proximidades ( ij )

existentes entre los objetos, tal y como han sido juzgadas por un sujeto o por una muestra

de sujetos. El MDS representa estas proximidades de forma que aparezcan como distancias

( ijd ) entre los objetos en un espacio de varias dimensiones. La relación entre proximidades

y distancias se establece mediante una transformación o función de representación (f), que

permite obtener la distancia ( ijd ) a partir de la proximidad ( ij ).

( )ijij δfd →

4

Las proximidades pueden representarse a partir de la matriz ∆ cuadrada de n x n donde n

es el número de objetos. Así, cada elemento ij de la matriz ∆ representa la proximidad

entre el objeto i y el objeto j. La matriz ∆ será una matriz simétrica, esto es, jiij = .

=∆

nnnn

n

n

21

22221

11211

No obstante, esta matriz de proximidades es de difícil interpretación, por lo que a través del

análisis MDS transformamos los datos que ésta nos proporciona en otra matriz1nxmX ,

donde n, al igual que antes, es el número de objetos, mientras que m es el número de

dimensiones en el que se evalúa cada uno de los objetos. Así, cada valor ijx representa la

coordenada del objeto i en la dimensión j.

=

nmnn

m

m

xxx

xxx

xxx

X

21

22221

11211

A partir de esta matriz X es posible calcular la distancia existente entre dos objetos

cualesquiera i y j, simplemente aplicando la fórmula general de la distancia:

( ) pm

a

pjaiaij xxd

1

1

−= ∑

=

donde ijd es la distancia entre los estímulos i y j, iax y jax son, respectivamente, las

coordenadas de los estímulos i y j en la dimensión a-ésima, y p es un valor que puede

1 Más adelante veremos el procedimiento para obtener esta matriz.

5

oscilar entre 1 e infinito (para el caso de la distancia euclídea, p valdrá 2). A partir de estas

distancias dij construimos la matriz cuadrada de distancias D entre n estímulos:

=

nnnn

n

n

ddd

ddd

ddd

D

21

22221

11211

La matriz de distancias D así obtenidas a partir de la matriz X, será similar a la de

proximidades ∆. También será una matriz simétrica. De hecho, la solución proporcionada

por el análisis MDS debe ser tal que haya la máxima correspondencia entre la matriz de

proximidades ∆ de partida y la matriz de distancias obtenidas D. Existen varias medidas

que nos informan sobre la bondad del modelo MDS.

3. OBTENCIÓN DE DATOS DE PROXIMIDAD

Las proximidades son estimaciones del grado de parecido o diferencias entre los distintos

pares de los n objetos considerados en el análisis MDS. Existen diversas maneras de

generar estos valores, aunque las dos maneras típicas son

(1) preguntar a los sujetos acerca de la proximidad (similaridad) entre todos los pares

de objetos

(2) pedir a los sujetos que clasifiquen los objetos sobre la base de descriptores tales

como adjetivos.

De la primera manera se obtienen las llamadas similaridades directas, mientras que de la

segunda manera se tienen las similaridades derivadas.

6

Similaridades directas

El término similaridad directa se refiere al caso en el que a los sujetos se les presentan pares

de objetos y se les pide que emitan un juicio de su similaridad (proximidad). Los juicios de

similaridad se pueden obtener de maneras muy diferentes:

- Hacer una marca sobre una recta.

- Estimación de la magnitud directa.

- Colocar o clasificar.

- Ordenar parejas.

- Ternas.

- Determinar el orden de los rangos.

Nótese que la dificultad de la recolección de datos de similaridad está determinada por el

número de objetos considerados. Si el número de objetos es grande, el número de

comparaciones será todavía más grande. Aunque para evitar tener que recoger un número

demasiado grande de juicios se pudiera limitar el número de objetos, es deseable incluir

tantos objetos como prácticamente sea posible. El uso de un número muy pequeño de

objetos hace que las soluciones en pocas dimensiones sean inestables. Algunos autores

recomiendan tener de 9 a 12 objetos para soluciones bidimensionales y de 13 a 18 objetos

para soluciones tridimensionales.

Similaridades derivadas

En este caso los datos de similaridades se construyen o derivan de los rangos que los

sujetos dan a cada objeto según un conjunto de descriptores verbales (por ejemplo,

adjetivos). Hay que señalar que los descriptores verbales son altamente subjetivos y

también, a menudo, conceptualmente incompletos, puesto que es bastante improbable que

todas las dimensiones relevantes contenidas en las diferencias entre los estímulos puedan

lograrse usando adjetivos que las describan.

7

Típicamente, se le pide a cada sujeto que indique la magnitud en que cada adjetivo describe

el objeto que está siendo evaluado, asignando, digamos un número entre 1 (describe el

objeto muy bien) y 100 (no describe en nada el objeto). Por ejemplo, se pudieran usar las

siguientes frases adjetivas para evaluar marcas de café: sabor fuerte, para personas

sociables, imprescindible después de comer, bajo en cafeína, un lindo envase, etc.

El uso de datos de adjetivos con rangos supone que el conjunto de frases adjetivas

seleccionadas brinda conceptualmente una lista completa de descriptores verbales que dan

razón de las principales causas de las diferencias entre estímulos. Una práctica

recomendada es hacer entrevistas, previas al experimento, a grupos de personas típicas para

identificar las dimensiones importantes de la comparación.

Una variante del método anterior, conocida con el nombre de bipolar, es pedirle al sujeto

que le ponga un valor, generalmente en una escala de -10 a 10, a cada estímulo con

respecto a un número de atributos. Esto resulta en un arreglo de tres entradas de los datos:

estímulo, atributo y sujeto y tiene la propiedad que los atributos pueden incluirse en el

gráfico de los estímulos.

Existen muchas otras técnicas, que tratan de ordenar los estímulos de una u otra manera.

Como puede apreciarse el componente metodológico de la investigación va a determinar

ciertas características de la matriz de similaridades o de disimilaridades inicial.

4. MODELOS DE ESCALAMIENTO MULTIDIMENSIONAL.

Existen dos modelos básicos de MDS que son: el modelo de escalamiento métrico y el

modelo de escalamiento no métrico. En el primero de ellos consideramos que los datos

están medidos en escala de razón o de intervalo, mientras que en el segundo consideramos

que los datos están medidos en una escala ordinal.

8

El modelo de escalamiento métrico

Todo modelo de escalamiento parte de la idea de que las distancias son una función de las

proximidades, es decir, ( )ijij fd = . En el modelo de escalamiento métrico partimos del

supuesto de que la relación entre las proximidades y las distancias es de tipo lineal:

ijij bad += . El primer procedimiento de escalamiento métrico se debió a Torgerson

(1952, 1958) quién se basó, a su vez, en un teorema de Young y Householder (1938) según

el cual a partir de una matriz de distancias, nxnD , se puede derivar una matriz nxnB de

productos escalares entre vectores. El procedimiento consiste en transformar la matriz de

proximidades nxn∆ en una matriz de distancias nxnD , de tal forma que verifique los tres

axiomas de la distancia euclídea:

1. No negatividad iiij dd =≥ 0

2. Simetría jiij dd =

3. Desigualdad triangular jkikij ddd +≤

Los dos primeros axiomas son fáciles de cumplir, pero no así el tercero. Para lograr que la

distancia que utilicemos en el MDS cumpla el axioma de la desigualdad triangular, se

utiliza lo que se conoce con el nombre de estimación de la constante aditiva. El problema

fue solucionado por Torgerson estimando el valor mínimo de c que verifica la desigualdad

triangular de la siguiente forma:

( )( )kjikij

kjic −−=

,,min max

De esta forma las distancias se obtienen sumando a las proximidades ij la constante c, es

decir, cd ijij += . Por ejemplo, supongamos que tenemos la siguiente matriz de

proximidades:

9

=∆

025

201

510

Esta matriz no verifica la desigualdad triangular puesto que no se cumple que

231213 +≤ (5>1+2). Para calcular el valor mínimo de la constante aditiva c tendríamos

que calcular todas las diferencias tal como se ha señalado anteriormente. En este caso se

tendría que calcular 5-1-2=2. Estas diferencias las haríamos para todos los subíndices,

obteniéndose que el valor mínimo de c es 2. La matriz de distancias sería en este caso:

=

047

403

730

D

Una vez obtenida la matriz Dnxn es necesario transformarla en una matriz Bnxn de productos

escalares entre vectores mediante la siguiente transformación:

( )2··

2.

2·

2

21

ddddb jiijij +−−−=

Donde,

• ∑=

=n

jiji d

nd

1

22·

1

• ∑=

=n

iijj d

nd

1

22·

1

• ∑∑= =

=n

i

n

jijd

nd

1 1

22

2··

1

Una vez llegados a este punto, lo único que queda es transformar la matriz Bnxn en una

matriz Xnxm tal que B=X·X’, siendo X la matriz que nos da las coordenadas de cada uno de

los n objetos en cada una de las m dimensiones. Cualquier método de factorización (por

ejemplo componentes principales) permite transformar B en X·X’.

10

En resumen el procedimiento consiste en transformar:

∆ (Proximidades) → D (Distancias) → B (Productos escalares) → X (coordenadas)

El modelo de escalamiento no métrico

A diferencia del escalamiento métrico, el modelo de escalamiento no métrico no presupone

una relación lineal entre las proximidades y las distancias, sino que establece una relación

monótona creciente entre ambas, es decir, si klijklij dd ≤⇒< . Su desarrollo se debe a

Shepard (1962) quién demostró que es posible obtener soluciones métricas asumiendo

únicamente una relación ordinal entre proximidades y distancias. Posteriormente Kruskal

(1964) mejoró el modelo. El procedimiento se basa en los siguientes apartados:

1) Transformación de la matriz de proximidades en una matriz de rangos, desde 1

hasta ( )( )2

1−nn .

2) Obtención de una matriz Xnxm de coordenadas aleatorias, que nos da la distancia

entre los estímulos.

3) Comparación de las proximidades con las distancias, obteniéndose las disparidades

( ijd ′ ).

4) Definición del Stress.

5) Minimización del Stress.

5. BONDAD DEL AJUSTE.

Un aspecto de gran importancia cuando aplicamos un modelo estadístico a nuestro datos es

evaluar hasta qué punto el modelo se ajusta a los mismos. Los índices de ajuste nos

permiten evaluar la calidad de nuestro modelo, así como decidir entre varios modelos

alternativos.

La mayoría de los modelos de MDS no trabajan directamente con las proximidades

originales, sino que previamente transforman éstas en disparidades ( ijd ) para que cumplan

11

ciertas propiedades de las distancias. Un índice de ajuste parecido a aquellos utilizados en

el análisis de regresión o el análisis factorial basados en la cantidad de varianza explicada,

es el que llamamos coeficiente de correlación al cuadrado (RSQ), que se calcula hallando

las correlaciones cuadráticas entre las disparidades y las distancias derivadas por el modelo.

( )( )

( ) ( )

−

−

−−

=

∑∑∑∑

∑∑

i jij

i jij

i jijij

dddd

dddd

RSQ2

··2

··

2

····

ˆˆ

ˆˆ

que nos informa de la proporción de variabilidad de los datos de partida que es explicada

por el modelo. Los valores que puede tomar oscilan entre 0 y 1, al ser un coeficiente de

correlación al cuadrado. Valores cercanos a 1 indican un ajuste casi perfecto y valores

cercanos a 0 indican que el modelo es malo.

Sin embargo, este índice de ajuste no ayuda a encontrar la solución en el MDS. La mayoría

de programas de MDS actuales utilizan procedimientos iterativos para encontrar sus

soluciones Estos procedimientos obligan a utilizar un índice de error que se minimice en

cada paso, hasta que se alcance un criterio de convergencia . Este índice se conoce como

Stress bruto que es el error cuadrático contenido en el modelo, y cuya expresión es:

( )∑∑ −==ji

ijijji

ij ddee,

2

,

2 ˆ

Como medida que nos informa de la bondad del modelo podemos utilizar el Stress que

Kruskal definió como el Stress bruto estandarizado para favorecer las comparaciones, y

para facilitar la discriminación entre distintos valores, se utiliza la raíz cuadrada de este

valor normalizado:

12

( )∑

∑ −

=

jiij

jiijij

d

dd

Stress

,

2

,

2ˆ

El Stress no es propiamente una medida de la bondad del ajuste, sino una medida de la no

bondad o “maldad” del ajuste. Su valor mínimo es 0, mientras que su límite superior para n

estímulos es ( )n21− .

Kruskal, en sus análisis, estableció las siguientes clasificaciones para los diversos valores

del Stress:

- 0,2 → Pobre

- 0,1 → Aceptable

- 0,05 → Bueno

- 0,025 → Excelente

- 0,0 → Perfecto

También se suele utilizar una variante del Stress que se denomina S-Stress, definida como

el cuadrado de las distancias, por lo que tiende a justar mejor para distancias grandes que

para pequeñas:

La mayoría de los paquetes estadísticos tienen implementados tanto los algoritmos para

obtener soluciones con MDS así como las medidas para determinar si el modelo es

adecuado o no2. En la actualidad todo los algoritmos implementados en los paquetes

estadísticos son reiterativos, de forma que se alcance la mejor solución posible.

2 El procedimiento de MDS implementado en SPSS es el programa ALSCAL (Alternating Least SquaresSCALing), que fue desarrollado por Takane, Young y De Leew (1977) basándose en el algoritmo de mínimoscuadrados alternantes.

13

5. RELACIÓN ENTRE MDS Y OTRAS TÉCNICAS MULTIVARIANTES.

El MDS puede ser utilizado en muchas investigaciones junto a otras técnicas

multivariantes, bien como una alternativa a dichas técnicas o bien como un complemento a

las mismas. La utilización de cada una de ellas va a depender de los objetivos que se

persigan en la investigación. Por tanto, no hay una técnica mejor que otra, sino que en

algunos casos será más apropiado utilizar una técnica que en otros. Entre las ventajas de

utilizar el MDS en comparación con otras técnicas multivariantes están:

- Los datos en MDS pueden estar medidos en cualquier escala, mientras que en el

análisis factorial deben estar medidos en escala de razón o intervalo.

- El MDS proporciona soluciones para cada individuo, lo cual no es posible con el

análisis factorial ni con el análisis cluster.

- En el MDS el investigador no necesita especificar cuáles son las variables a

emplear en la comparación de objetos, algo que es fundamental en el análisis

factorial y en el análisis cluster, con lo que se evita la influencia del investigador

en el análisis.

- Las soluciones proporcionadas por MDS suelen ser de menor dimensionalidad

que las proporcionadas por el análisis factorial (Schiffman, Reynolds y Young,

1981).

- En MDS pueden ser interpretados directamente las distancias entre todos los

puntos, mientras que en el análisis de correspondencias solamente pueden ser

interpretadas directamente las distancias entre filas o bien entre columnas.

6. INTERPRETACIÓN DE LOS RESULTADOS.

Una de las posibles formas de interpretar las soluciones MDS es la interpretación

dimensional, Esta forma de interpretación, la más utilizada, supone ordenar los objetos y/o

los sujetos a lo largo de continuos (dimensiones) que se interpretan como escalas de medida

de alguna característica o atributo, esto es lo que se entiende como “escalamiento”.

14

Estas escalas no siempre coinciden en orientación con las dimensiones originalmente

proporcionadas por el EMS. Esto se debe a que, en términos de distancias entre objetos, la

orientación de los ejes es arbitraria. Por tanto, si alguna orientación alternativa de los

mismos facilita la interpretación, podemos rotar la solución a los nuevos ejes y utilizar

éstos para interpretar los resultados.

Pero, además de la interpretación dimensional, existen otras muchas formas de interpretar

las soluciones proporcionadas por el MDS dependiendo de los intereses de nuestra

investigación. Veamos algunas de ellas

Interpretación dimensional

Busca continuos o vectores a lo largo de los cuales interpretar las posiciones de los objetos.

Una forma directa de interpretar la solución MDS en forma dimensional consiste en utilizar

datos externos. Para llevar a cabo este procedimiento debemos obtener medidas de los

objetos en una serie de atributos, y utilizar cada una de estas medidas como variable

dependiente en un análisis de regresión múltiple, mientras que como variables

independientes utilizaremos las coordenadas de los objetos en la matriz X. Si alguno de los

atributos puede ser expresado como una combinación lineal de una o más de las

coordenadas de los objetos, entonces eses atributo está relacionado con la solución

proporcionada por el análisis. En el caso de que el atributo venga explicado por una sola

dimensión, podremos interpretar ésta en función de aquél.

Interpretación por agrupamientos

En ocasiones puede ocurrir que efectuamos un análisis MDS sobre un conjunto de objetos

con fines clasificatorios. Es decir que, aunque puedan interesarnos los criterios en función

de los cuales puedan expresarse las proximidades existentes entre los objetos, también

puede interesarnos ver si existe agrupamientos de objetos que san muy similares entre sí, y

diferentes del resto. Imaginemos que pedimos a una muestra de sujetos que evalúen una

serie de productos de consumo. Podríamos analizar las similaridades entre estos productos

mediante MDS, pero también podría interesarnos ver si existen agrupamientos de sujetos en

15

función de sus hábitos de consumo. En este caso, analizaríamos las similaridades entre

sujetos mediante MDS. Aquellos sujetos con hábitos de consumo muy similares se

encontrarán muy próximos entres sí, y aquellos grupos de sujetos con hábitos muy

diferentes se encontrarán alejados entere sí. Esto nos permitiría identificar a qué segmentos

de la población se deben dirigir determinados productos.

Una técnica utilizada habitualmente cuando queramos llevar a cabo agrupamientos es el

análisis de conglomerados. A diferencia del MDS, que proporciona soluciones continuas, el

análisis de conglomerados proporciona soluciones discretas y (generalmente) jerárquicas.

Utilizando ambas técnicas en conjunción resultará más sencillo identificar agrupamientos

de objetos.

7. EL SPSS Y EL ESCALADO MULTIDIMENSIONAL

Escalamiento multidimensional es un procedimiento que a partir de las distancias

(desemejanzas o disimilitudes) o de las proximidades (semejanzas o similitudes) entre pares

de sujetos/objetos tiene como objetivo fundamental encontrar un espacio métrico con un

número determinado de dimensiones que represente la posición de estos sujetos/objetos en

el mismo y de acuerdo con sus distancias o proximidades.

Vamos a trabajar en un ejemplo ilustrativo con una única variable que es tasnat (tasa de

natalidad), esta variable correspóndela número de nacimientos por cada 1.000 habitantes en

el año 2000 para cada una de las diversas comunidades autónomas del estado español.

Podemos observar en la base de datos que la comunidad con un tasa de natalidad más baja

ese año era Asturias (6,39/1.000) y la más alta, Murcia (12,2/1.000).

Previamente cargado el archivo ccaa2000.sav entramos en Analizar-Escala-Escalamiento

Multidimensional (ALSCAL) y obtenemos el cuadro de diálogo principal del escalamiento

multidimensional clásico.

16

El cuadro de diálogo principal muestra las siguientes opciones:

• Matrices individuales para

Entraríamos en este campo la variable criterio de clasificación o división de la muestre en

diferentes subgrupos, de modo que el EMD se realiza para cada grupo por separado. No es

el caso en el ejemplo pero podrían ser empresas por sectores, individuos por sexo, hábitat,

etc. Este campo no está activo si los datos de partida y avienen en forma de matriz (Los

datos son distancias).

• Distancias

Tenemos en este apartado dos opciones correspondientes a los botones:

o Los datos son distancias

o Crear distancias a partir de datos

La primera opción se utiliza si los datos de partida ya vienen dados en una matriz de

distancias. En el ejemplo y con la variable “tasnat”, esa matriz de distancias no sería otra

cosa que la matriz de diferencias en tasa de natalidad entre las diferentes comunidades del

estado español. En concreto, el valor en esta matriz para las comunidades Andalucía-

Aragón sería de 2,64 puntos (11,13-8,49) y que correspondería a 2,64/1.000 nacimientos de

diferencia entre ambas comunidades. Obviamente la diagonal es 0 en todos los casos y

conviene señalar que la misma debe ser al menos una matriz 4x4-

Con la segunda opción (Crear distancias a partir de datos) y que es la que vamos a utilizar

en el ejemplo, la estamos pidiendo al sistema que sea él mismo el que genera la matriz de

distancias a partir de una base de datos determinada.

17

Vamos a revisar cada una de estas opciones a continuación

• Forma...Cuadrada simétrica

Si pulamos el botón del comando Forma accedemos al subcuadro de diálogo de la siguiente

figura (es la opción por defecto).

Observamos en este cuadro que la matriz de partida puede ser o cuadrada simétrica, o

cuadrada asimétrica o rectangular. En el primer caso, y que corresponde a la opción por

defecto, filas y columnas representa los mismos individuos y los valores correspondientes

del triángulo superior e inferior de la matriz son iguales.

El segundo caso (cuadrada asimétrica) también filas y columnas representan los mismos

individuos pero los valores por encima y debajo de la diagonal no tienen por qué ser iguales

(datos de una matriz sociométrica, distancia social percibida, etc.)

En el tercer caso (rectangular) las filas y comunas representa diferentes series de individuos

18

• Medida...Distancia Euclídea

Seleccionada previamente esta opción a través del botón Crear distancias a partir de datos

y pulsando el botón de comando Medida accederemos al subcuadro de diálogo de la

siguiente figura.

En este subcuado de diálogo deberemos especificar al sistema qué tipo de medida queremos

que calcule, si queremos que lleve a cabo o no algún tipo de transformación y , muy

importante, si la matriz que debe genera ha de ser una matriz de distancias por variables o

por individuos. Si es por variables (opción por defecto), éstas deberán ser cuatro o más, en

tanto que si es por individuos (como es el caso del ejemplo) es suficiente con una única

variable de carácter numérico.

19

• Modelo

Si pulsamos el botón Modelo , obtendremos el subcuadro de diálogo de la siguiente figura

que pasamos a comentar.

La primera decisión a tomar hace referencia al nivel de medida de los datos de partida para

realizar el EMD. Éstos pueden ser ordinales, en cuyo caso realizaremos un EMD no

métrico. Se puede seleccionar la opción contraria. Si los datos están medidos en una escala

de intervalo o de cociente, realicemos un EMD métrico. En el ejemplo utilizaremos este

último.

La segunda decisión en este cuadro de diálogo hace referencia a la “condicionalidad”. Se

trata de definir el sentido y significado que queremos dar a los datos de partida y si la

comparación que quiere establecerse está condicionada a un sujeto/objeto o matriz

determinada, a las filas de la matriz o matrices, o bien no condicionada y válida por tanto

para todos los valores de la matriz o matrices de entrada. En el primer caso, que es la que

vamos a establecer en nuestro ejemplo, partimos por lo general de una matriz simétrica de

datos. La segunda opción (fila) es aplicable únicamente a matrices asimétricas o

rectangulares.

20

La tercera decisión hace referencia al número de dimensiones que queremos para la

solución. El sistema coge por defecto dos dimensiones, que suele ser un número bastante

razonable para la mayoría de situaciones y bastante bien interpretable desde el punto de

vista gráfico. A pesar de ello, también en el EMD existen criterio objetivos que nos

ayudarán en esta decisión y que son : el Stress, el S-stress o el RQS, indicadores todos

ellos de la bondad de ajuste del modelo a los datos y cuyos valores pueden cambiar en

función del número de dimensiones seleccionadas. El número de dimensiones debe estar

comprendido entre uno y seis y si queremos una solución única deberemos entrar el mismo

valor como mínimo y como máximo

La cuarta y última decisión hace referencia a la escala del modelo. La opción por defecto es

la distancia euclídea, válida para cualquier tipo de matriz

• Opciones

Si pulsamos el botón Opciones tendremos acceso al subcuadro de la siguiente figura.

Tenemos en primera instancia la posibilidad de pedir o no al sistem aque en el output del

procedimiento aparezca:

-Gráficos para todo el grupo

-Gráficos para los sujetos individualmente considerados

21

-La matriz de datos de partida

-Un resumen del modelo y de las opciones selccionadas

En segundo lugar, en el subcuadro de diálogo de esta figura deberemos fijar los criterios:

-Convergencia S-stress

-S-stress valor mínimo

-Número máximo de iteraciones

SPSS utiliza un algoritmo iterativo tendente amenizar el criterio de ajuste del modelo S-

stress, de modelo que el proceso iterativo no se detiene hasta que: o la disminución que se

producen en el coeficiente S-stress es menor que el valor de convergencia, o hasta que el

coeficiente S-stress desciende del mínimo fijado, o hasta que el número de iteraciones llega

al límite fijado.

Interpretación resultados

A continuación tenemos un resumen de las diversas pociones utilizadas por el SPSS para

llevar a cabo al análisis del escalamiento multidimensional . ALSCAL es un acrónimo para

designar este procedimiento utilizado por el SPSS (Multidimensional Scaling):

22

Alscal Procedure Options

Data Options-

Number of Rows (Observations/Matrix). 17Number of Columns (Variables) . . . 17Number of Matrices . . . . . . 1Measurement Level . . . . . . . RatioData Matrix Shape . . . . . . . SymmetricType . . . . . . . . . . . DissimilarityApproach to Ties . . . . . . . Leave TiedConditionality . . . . . . . . MatrixData Cutoff at . . . . . . . . ,000000

Model Options-

Model . . . . . . . . . . . EuclidMaximum Dimensionality . . . . . 2Minimum Dimensionality . . . . . 2Negative Weights . . . . . . . Not Permitted

Output Options-

Job Option Header . . . . . . . PrintedData Matrices . . . . . . . . PrintedConfigurations and Transformations . PlottedOutput Dataset . . . . . . . . Not CreatedInitial Stimulus Coordinates . . . Computed

Algorithmic Options-

Maximum Iterations . . . . . . 30Convergence Criterion . . . . . ,00100Minimum S-stress . . . . . . . ,00000Missing Data Estimated by . . . . Ulbounds

Como podemos observar estas opciones están clasificadas en cuatro bloques (Datos-

Modelo-Output y Algoritmo) y reflejan exactamente lo seleccionado en los respectivos

cuadros y subcuadros de diálogo.

La siguiente tabla recoge la matriz de distancias en la variable “tasnat” entre las 17

comunidades de la muestra, generada por el sistema y que sirve como punto de partida para

el análisis

23

Raw (unscaled) Data for Subject 1

1 2 3 4 5

1 ,000 2 2,640 ,000 3 4,740 2,100 ,000 4 ,900 3,540 5,640 ,000 5 3,890 1,250 ,850 4,790 ,000

6 1,370 1,270 3,370 2,270 2,520 7 ,110 2,750 4,850 ,790 4,000 8 2,910 ,270 1,830 3,810 ,980 9 ,790 1,850 3,950 1,690 3,100 10 1,690 ,950 3,050 2,590 2,200 11 3,970 1,330 ,770 4,870 ,080 12 ,140 2,500 4,600 1,040 3,750 13 1,490 4,130 6,230 ,590 5,380 14 1,340 1,300 3,400 2,240 2,550 15 2,740 ,100 2,000 3,640 1,150 16 2,270 ,370 2,470 3,170 1,620 17 1,030 1,610 3,710 1,930 2,860

6 7 8 9 10

6 ,000 7 1,480 ,000 8 1,540 3,020 ,000 9 ,580 ,900 2,120 ,000 10 ,320 1,800 1,220 ,900 ,000 11 2,600 4,080 1,060 3,180 2,280 12 1,230 ,250 2,770 ,650 1,550 13 2,860 1,380 4,400 2,280 3,180 14 ,030 1,450 1,570 ,550 ,350 15 1,370 2,850 ,170 1,950 1,050 16 ,900 2,380 ,640 1,480 ,580 17 ,340 1,140 1,880 ,240 ,660

11 12 13 14 15

11 ,000 12 3,830 ,000 13 5,460 1,630 ,000 14 2,630 1,200 2,830 ,000 15 1,230 2,600 4,230 1,400 ,000 16 1,700 2,130 3,760 ,930 ,470 17 2,940 ,890 2,520 ,310 1,710

16 17

16 ,000 17 1,240 ,000

24

En la siguiente tabla aparecen los tres coeficientes que calcula el sistema como criterio de

ajuste del modelo a los datos. Vamos a comentarlos separadamente

Iteration history for the 2 dimensional solution (in squared distances)

Young's S-stress formula 1 is used.

Iteration S-stress Improvement

1 ,00000 2 ,00000 ,00000

Iterations stopped because S-stress improvement is less than ,001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data(disparities) in the partition (row, matrix, or entire data) which isaccounted for by their corresponding distances. Stress values are Kruskal's stress formula 1.

For matrix Stress = ,00000 RSQ = 1,00000_

Configuration derived in 2 dimensions

• En primer lugar tenemos el S-stress de Young, sus valores oscilan entre “0” (ajuste

perfecto) y “1” (ajuste nulo). De acuerdo con los criterios de convergencia

especificados el sistema se ha pardo en la primera iteración puesto que el incremento

respecto a la segundo es inferior a 0,001. Podemos, por tanto, concluir a la vista de los

resultados que estamos delante de un ajuste prácticamente perfecto entre la matriz de

datos originales linealmente transformada (estamos en un EMD métrico) y la matriz de

distancias euclídeas al cuadrado.

• El segundo valor de Stress que aparece en la tabla (Stress=0,00000) hace referencia al

Stress de Kruskal. Se trata de un coeficiente similar al anterior, con valore e

interprtación idénticoso y con la única diferencia de que está calculado en unidades de

distancia y no en unidades de distancia al cuadrdo como el S-stress.

25

• El tercer coeficiente es el RSQ=1 y se puede interpretar como la proporción de la

varianza de los valores originales de la matriz linealmente transformados explicada por

le modelo. Obviamente el ajuste será tanto mejor cuanto más se aproxime a la unidad,

siendo éste perfecto según los datos del ejemplo.

A continuación tenemos los valores en las coordenadas para cda una de las 17 comunidades

y que sierven de base para el siguiente gráfico.

Stimulus Coordinates

Dimension

Stimulus Stimulus 1 2Number Name

1 VAR1 1,3134 ,0003 2 VAR2 -,8682 ,0003 3 VAR3 -2,6036 -,0001 4 VAR4 2,0572 ,0016 5 VAR5 -1,9011 -,0047 6 VAR6 ,1813 ,0004 7 VAR7 1,4043 ,0010 8 VAR8 -1,0913 -,0009 9 VAR9 ,6606 ,0008 10 VAR10 -,0831 ,0001 11 VAR11 -1,9673 -,0012 12 VAR12 1,1978 ,0010 13 VAR13 2,5447 ,0020 14 VAR14 ,2061 ,0003 15 VAR15 -,9508 -,0008 16 VAR16 -,5624 -,0005 17 VAR17 ,4623 ,0005

En el ejemplo, la interpretación de los ejes y , por tanto, de las dos dimensiones pedidas a la

solución debería realizarse de acuerdo con características económicas, sociológicas,

geográficas, demográficas, etc., que caracterizan a las comunidades de la muestre y que

serían de alguna manera las que nos permitirían interpretar la situación de las mismas en el

plano bidimensional. No es el ejemplo más adecuada para éste si se tiene en cuenta que un

única dimensión sería suficiente para explicar la variabilidad de los datos. A continuación

tenemos la matriz de datos escalados de modo óptimo y que recibe este nombre debido al

hecho de que la transformación lineal nos genera unos valores que optimizan el coeficiente

S-stress. Tradicionalmente a esta matriz se la conoce como “Disparities”.

26

Optimally scaled data (disparities) for subject 1

1 2 3 4 5

1 ,000 2 2,182 ,000 3 3,917 1,735 ,000 4 ,744 2,925 4,661 ,000 5 3,215 1,033 ,702 3,958 ,000 6 1,132 1,049 2,785 1,876 2,082 7 ,091 2,273 4,008 ,653 3,305 8 2,405 ,223 1,512 3,148 ,810

9 ,653 1,529 3,264 1,397 2,562 10 1,397 ,785 2,520 2,140 1,818 11 3,281 1,099 ,636 4,024 ,066 12 ,116 2,066 3,801 ,859 3,099 13 1,231 3,413 5,148 ,488 4,446 14 1,107 1,074 2,810 1,851 2,107 15 2,264 ,083 1,653 3,008 ,950 16 1,876 ,306 2,041 2,620 1,339 17 ,851 1,330 3,066 1,595 2,363

6 7 8 9 10

6 ,000 7 1,223 ,000 8 1,273 2,496 ,000 9 ,479 ,744 1,752 ,000 10 ,264 1,487 1,008 ,744 ,000 11 2,149 3,372 ,876 2,628 1,884

12 1,016 ,207 2,289 ,537 1,281 13 2,363 1,140 3,636 1,884 2,628 14 ,025 1,198 1,297 ,455 ,289 15 1,132 2,355 ,140 1,611 ,868 16 ,744 1,967 ,529 1,223 ,479 17 ,281 ,942 1,554 ,198 ,545

11 12 13 14 15

11 ,000 12 3,165 ,000 13 4,512 1,347 ,000 14 2,173 ,992 2,339 ,000 15 1,016 2,149 3,496 1,157 ,000 16 1,405 1,760 3,107 ,769 ,388 17 2,430 ,735 2,082 ,256 1,413

16 17

16 ,000 17 1,025 ,000

27

El gráfico de la figura siguiente también conocido como mapa perceptual, recoge la

posición de las 17 comunidades de acuerdo con sus valores en las dos dimensiones del

modelo:

-3 -2 -1 0 1 2 3

Dimensión 1

-0,004

-0,002

0,000

0,002

Dim

ensi

ón 2 VAR1VAR2

VAR3

VAR4

VAR5

VAR6

VAR7

VAR8

Modelo de distancia euclídea

Configuración de estímulos derivada

El siguiente gráfico conocido como diagrama de Shepard o gráfico de ajuste lineal,

representa en qué medida el ajuste es o no bueno. En abscisas tenemos los valores de la

matriz de disparidades y en ordenadas las distancias entre sujetos, de modo que las

diferencias entre comunidades en la variable tasnat está reflejada en el gráfico a través de

las distancias entre puntos. El gráfico no hace sino reflejar hasta qué punto las distancias

entre las comunidades de la muestra relejan, en qué medida, las diferencias en la variable

tasnat considerada.

28

0 1 2 3 4 5 6

Disparidades

0

1

2

3

4

5

6

Dis

tanc

ias

Modelo de distancia euclídea

Gráfico de ajuste lineal

escalamiento multidimensional

Documents