escalamiento multidimensional
DESCRIPTION
matematicasTRANSCRIPT
1
ESCALAMIENTO MULTIDIMENSIONAL
1. INTRODUCCIÓN.
El escalamiento multidimensional, más conocido como MultiDimensional Scaling (MDS),
tiene sus orígenes a principios de siglo XX en el campo de la Psicología. Surge cuando se
pretendía estudiar la relación que existía entre la intensidad física de ciertos estímulos con
su intensidad subjetiva.
El MDS es una técnica de representación espacial que trata de visualizar sobre un mapa un
conjunto de estímulos (firmas, productos, candidatos políticos, ideas u otros artículos) cuya
posición relativa se desea analizar. El propósito del MDS es transformar los juicios de
similitud o preferencia llevados a cabo por una serie de individuos sobre un conjunto de
objetos o estímulos en distancias susceptibles de ser representadas en un espacio
multidimensional. El MDS está basado en la comparación de objetos o de estímulos, de
forma que si un individuo juzga a los objetos A y B como los más similares entonces las
técnicas de MDS colocarán a los objetos A y B en el gráfico de forma que la distancia entre
ellos sea más pequeña que la distancia entre cualquier otro par de objetos.
Así, por ejemplo, imaginemos que estamos interesados en conocer las preferencias de una
muestra de consumidores por cinco productos de limpieza que llamaremos A, B, C, D y E.
Un modelo de escalamiento unidimensional nos proporcionaría una escala sobre la que
situar estos cinco productos, de tal modo que sus posiciones sobre la misma representarían
una medida de preferencia que suscitan en los consumidores:
A C B E D
2
El escalamiento unidimensional ha situado los cinco productos de limpieza sobre una escala
que va de izquierda (menos preferido) a derecha (más preferido). La información que nos
proporciona esta escala es muy importante para la valoración de los cinco productos. Así,
vemos que el producto A es el menos preferido por los consumidores, seguido, a bastante
distancia por el producto C. Por su parte, el producto B se encuentra en una posición
intermedia de preferencia. Finalmente, los productos E y D son los más preferidos, aunque
el producto D muestra una ligera ventaja sobre el E.
Si analizamos los factores que utilizan los consumidores para evaluar los productos de
limpieza (eficacia y precio), la representación que obtenemos es bastante distinta de la
inicial. Ahora los productos están representados simultáneamente sobre dos escalas: el
grado de eficacia y el precio. Si atendemos a la eficacia, A y B son los más ineficaces,
mientras que C y D tienen un grado alto de eficacia, siendo E el más eficaz de todos. Por
precios, A y C son los productos más caros, mientras que B y E tienen un precio similar y
más barato que los dos anteriores, siendo D el mejor en esta característica.
La posibilidad de tener en cuenta más de una dimensión supone un avance de capital
importancia para la teoría del escalamiento. En definitiva, el MDS es una técnica
A C
D
E
Caro
Barato
Ineficaz Eficaz
B
3
multivariante que crea un gráfico aproximado a partir de las similitudes o preferencias de
un conjunto de objetos.
En la actualidad, el MDS puede ser apto para gran cantidad de tipos diferentes de datos de
entrada (tablas de contingencia, matrices de proximidad, datos de perfil, correlaciones,
etc.).
El MDS puede ayudar a determinar:
• qué dimensiones utilizan los encuestados a la hora de evaluar a los objetos.
• cuántas dimensiones utilizan.
• la importancia relativa de cada dimensión.
• cómo se relacionan perceptualmente los objetos.
Existen otras técnicas multivariantes, como son el análisis factorial y el análisis cluster, que
persiguen objetivos muy similares al MDS pero que difieren en una serie de aspectos. Sin
embargo, la utilización de alguna de estas técnicas no supone que no se pueda utilizar el
escalamiento multidimensional, sino que esta última técnica puede servir como alternativa
o bien como complemento a las otras técnicas multivariantes.
2. EL MODELO GENERAL DE ESCALAMIENTOMULTIDIMENSIONAL.
Los datos que se utilizan como entrada para los análisis MDS son las proximidades ( ij )
existentes entre los objetos, tal y como han sido juzgadas por un sujeto o por una muestra
de sujetos. El MDS representa estas proximidades de forma que aparezcan como distancias
( ijd ) entre los objetos en un espacio de varias dimensiones. La relación entre proximidades
y distancias se establece mediante una transformación o función de representación (f), que
permite obtener la distancia ( ijd ) a partir de la proximidad ( ij ).
( )ijij δfd →
4
Las proximidades pueden representarse a partir de la matriz ∆ cuadrada de n x n donde n
es el número de objetos. Así, cada elemento ij de la matriz ∆ representa la proximidad
entre el objeto i y el objeto j. La matriz ∆ será una matriz simétrica, esto es, jiij = .
=∆
nnnn
n
n
21
22221
11211
No obstante, esta matriz de proximidades es de difícil interpretación, por lo que a través del
análisis MDS transformamos los datos que ésta nos proporciona en otra matriz1nxmX ,
donde n, al igual que antes, es el número de objetos, mientras que m es el número de
dimensiones en el que se evalúa cada uno de los objetos. Así, cada valor ijx representa la
coordenada del objeto i en la dimensión j.
=
nmnn
m
m
xxx
xxx
xxx
X
21
22221
11211
A partir de esta matriz X es posible calcular la distancia existente entre dos objetos
cualesquiera i y j, simplemente aplicando la fórmula general de la distancia:
( ) pm
a
pjaiaij xxd
1
1
−= ∑
=
donde ijd es la distancia entre los estímulos i y j, iax y jax son, respectivamente, las
coordenadas de los estímulos i y j en la dimensión a-ésima, y p es un valor que puede
1 Más adelante veremos el procedimiento para obtener esta matriz.
5
oscilar entre 1 e infinito (para el caso de la distancia euclídea, p valdrá 2). A partir de estas
distancias dij construimos la matriz cuadrada de distancias D entre n estímulos:
=
nnnn
n
n
ddd
ddd
ddd
D
21
22221
11211
La matriz de distancias D así obtenidas a partir de la matriz X, será similar a la de
proximidades ∆. También será una matriz simétrica. De hecho, la solución proporcionada
por el análisis MDS debe ser tal que haya la máxima correspondencia entre la matriz de
proximidades ∆ de partida y la matriz de distancias obtenidas D. Existen varias medidas
que nos informan sobre la bondad del modelo MDS.
3. OBTENCIÓN DE DATOS DE PROXIMIDAD
Las proximidades son estimaciones del grado de parecido o diferencias entre los distintos
pares de los n objetos considerados en el análisis MDS. Existen diversas maneras de
generar estos valores, aunque las dos maneras típicas son
(1) preguntar a los sujetos acerca de la proximidad (similaridad) entre todos los pares
de objetos
(2) pedir a los sujetos que clasifiquen los objetos sobre la base de descriptores tales
como adjetivos.
De la primera manera se obtienen las llamadas similaridades directas, mientras que de la
segunda manera se tienen las similaridades derivadas.
6
Similaridades directas
El término similaridad directa se refiere al caso en el que a los sujetos se les presentan pares
de objetos y se les pide que emitan un juicio de su similaridad (proximidad). Los juicios de
similaridad se pueden obtener de maneras muy diferentes:
- Hacer una marca sobre una recta.
- Estimación de la magnitud directa.
- Colocar o clasificar.
- Ordenar parejas.
- Ternas.
- Determinar el orden de los rangos.
Nótese que la dificultad de la recolección de datos de similaridad está determinada por el
número de objetos considerados. Si el número de objetos es grande, el número de
comparaciones será todavía más grande. Aunque para evitar tener que recoger un número
demasiado grande de juicios se pudiera limitar el número de objetos, es deseable incluir
tantos objetos como prácticamente sea posible. El uso de un número muy pequeño de
objetos hace que las soluciones en pocas dimensiones sean inestables. Algunos autores
recomiendan tener de 9 a 12 objetos para soluciones bidimensionales y de 13 a 18 objetos
para soluciones tridimensionales.
Similaridades derivadas
En este caso los datos de similaridades se construyen o derivan de los rangos que los
sujetos dan a cada objeto según un conjunto de descriptores verbales (por ejemplo,
adjetivos). Hay que señalar que los descriptores verbales son altamente subjetivos y
también, a menudo, conceptualmente incompletos, puesto que es bastante improbable que
todas las dimensiones relevantes contenidas en las diferencias entre los estímulos puedan
lograrse usando adjetivos que las describan.
7
Típicamente, se le pide a cada sujeto que indique la magnitud en que cada adjetivo describe
el objeto que está siendo evaluado, asignando, digamos un número entre 1 (describe el
objeto muy bien) y 100 (no describe en nada el objeto). Por ejemplo, se pudieran usar las
siguientes frases adjetivas para evaluar marcas de café: sabor fuerte, para personas
sociables, imprescindible después de comer, bajo en cafeína, un lindo envase, etc.
El uso de datos de adjetivos con rangos supone que el conjunto de frases adjetivas
seleccionadas brinda conceptualmente una lista completa de descriptores verbales que dan
razón de las principales causas de las diferencias entre estímulos. Una práctica
recomendada es hacer entrevistas, previas al experimento, a grupos de personas típicas para
identificar las dimensiones importantes de la comparación.
Una variante del método anterior, conocida con el nombre de bipolar, es pedirle al sujeto
que le ponga un valor, generalmente en una escala de -10 a 10, a cada estímulo con
respecto a un número de atributos. Esto resulta en un arreglo de tres entradas de los datos:
estímulo, atributo y sujeto y tiene la propiedad que los atributos pueden incluirse en el
gráfico de los estímulos.
Existen muchas otras técnicas, que tratan de ordenar los estímulos de una u otra manera.
Como puede apreciarse el componente metodológico de la investigación va a determinar
ciertas características de la matriz de similaridades o de disimilaridades inicial.
4. MODELOS DE ESCALAMIENTO MULTIDIMENSIONAL.
Existen dos modelos básicos de MDS que son: el modelo de escalamiento métrico y el
modelo de escalamiento no métrico. En el primero de ellos consideramos que los datos
están medidos en escala de razón o de intervalo, mientras que en el segundo consideramos
que los datos están medidos en una escala ordinal.
8
El modelo de escalamiento métrico
Todo modelo de escalamiento parte de la idea de que las distancias son una función de las
proximidades, es decir, ( )ijij fd = . En el modelo de escalamiento métrico partimos del
supuesto de que la relación entre las proximidades y las distancias es de tipo lineal:
ijij bad += . El primer procedimiento de escalamiento métrico se debió a Torgerson
(1952, 1958) quién se basó, a su vez, en un teorema de Young y Householder (1938) según
el cual a partir de una matriz de distancias, nxnD , se puede derivar una matriz nxnB de
productos escalares entre vectores. El procedimiento consiste en transformar la matriz de
proximidades nxn∆ en una matriz de distancias nxnD , de tal forma que verifique los tres
axiomas de la distancia euclídea:
1. No negatividad iiij dd =≥ 0
2. Simetría jiij dd =
3. Desigualdad triangular jkikij ddd +≤
Los dos primeros axiomas son fáciles de cumplir, pero no así el tercero. Para lograr que la
distancia que utilicemos en el MDS cumpla el axioma de la desigualdad triangular, se
utiliza lo que se conoce con el nombre de estimación de la constante aditiva. El problema
fue solucionado por Torgerson estimando el valor mínimo de c que verifica la desigualdad
triangular de la siguiente forma:
( )( )kjikij
kjic −−=
,,min max
De esta forma las distancias se obtienen sumando a las proximidades ij la constante c, es
decir, cd ijij += . Por ejemplo, supongamos que tenemos la siguiente matriz de
proximidades:
9
=∆
025
201
510
Esta matriz no verifica la desigualdad triangular puesto que no se cumple que
231213 +≤ (5>1+2). Para calcular el valor mínimo de la constante aditiva c tendríamos
que calcular todas las diferencias tal como se ha señalado anteriormente. En este caso se
tendría que calcular 5-1-2=2. Estas diferencias las haríamos para todos los subíndices,
obteniéndose que el valor mínimo de c es 2. La matriz de distancias sería en este caso:
=
047
403
730
D
Una vez obtenida la matriz Dnxn es necesario transformarla en una matriz Bnxn de productos
escalares entre vectores mediante la siguiente transformación:
( )2··
2.
2·
2
21
ddddb jiijij +−−−=
Donde,
• ∑=
=n
jiji d
nd
1
22·
1
• ∑=
=n
iijj d
nd
1
22·
1
• ∑∑= =
=n
i
n
jijd
nd
1 1
22
2··
1
Una vez llegados a este punto, lo único que queda es transformar la matriz Bnxn en una
matriz Xnxm tal que B=X·X’, siendo X la matriz que nos da las coordenadas de cada uno de
los n objetos en cada una de las m dimensiones. Cualquier método de factorización (por
ejemplo componentes principales) permite transformar B en X·X’.
10
En resumen el procedimiento consiste en transformar:
∆ (Proximidades) → D (Distancias) → B (Productos escalares) → X (coordenadas)
El modelo de escalamiento no métrico
A diferencia del escalamiento métrico, el modelo de escalamiento no métrico no presupone
una relación lineal entre las proximidades y las distancias, sino que establece una relación
monótona creciente entre ambas, es decir, si klijklij dd ≤⇒< . Su desarrollo se debe a
Shepard (1962) quién demostró que es posible obtener soluciones métricas asumiendo
únicamente una relación ordinal entre proximidades y distancias. Posteriormente Kruskal
(1964) mejoró el modelo. El procedimiento se basa en los siguientes apartados:
1) Transformación de la matriz de proximidades en una matriz de rangos, desde 1
hasta ( )( )2
1−nn .
2) Obtención de una matriz Xnxm de coordenadas aleatorias, que nos da la distancia
entre los estímulos.
3) Comparación de las proximidades con las distancias, obteniéndose las disparidades
( ijd ′ ).
4) Definición del Stress.
5) Minimización del Stress.
5. BONDAD DEL AJUSTE.
Un aspecto de gran importancia cuando aplicamos un modelo estadístico a nuestro datos es
evaluar hasta qué punto el modelo se ajusta a los mismos. Los índices de ajuste nos
permiten evaluar la calidad de nuestro modelo, así como decidir entre varios modelos
alternativos.
La mayoría de los modelos de MDS no trabajan directamente con las proximidades
originales, sino que previamente transforman éstas en disparidades ( ijd ) para que cumplan
11
ciertas propiedades de las distancias. Un índice de ajuste parecido a aquellos utilizados en
el análisis de regresión o el análisis factorial basados en la cantidad de varianza explicada,
es el que llamamos coeficiente de correlación al cuadrado (RSQ), que se calcula hallando
las correlaciones cuadráticas entre las disparidades y las distancias derivadas por el modelo.
( )( )
( ) ( )
−
−
−−
=
∑∑∑∑
∑∑
i jij
i jij
i jijij
dddd
dddd
RSQ2
··2
··
2
····
ˆˆ
ˆˆ
que nos informa de la proporción de variabilidad de los datos de partida que es explicada
por el modelo. Los valores que puede tomar oscilan entre 0 y 1, al ser un coeficiente de
correlación al cuadrado. Valores cercanos a 1 indican un ajuste casi perfecto y valores
cercanos a 0 indican que el modelo es malo.
Sin embargo, este índice de ajuste no ayuda a encontrar la solución en el MDS. La mayoría
de programas de MDS actuales utilizan procedimientos iterativos para encontrar sus
soluciones Estos procedimientos obligan a utilizar un índice de error que se minimice en
cada paso, hasta que se alcance un criterio de convergencia . Este índice se conoce como
Stress bruto que es el error cuadrático contenido en el modelo, y cuya expresión es:
( )∑∑ −==ji
ijijji
ij ddee,
2
,
2 ˆ
Como medida que nos informa de la bondad del modelo podemos utilizar el Stress que
Kruskal definió como el Stress bruto estandarizado para favorecer las comparaciones, y
para facilitar la discriminación entre distintos valores, se utiliza la raíz cuadrada de este
valor normalizado:
12
( )∑
∑ −
=
jiij
jiijij
d
dd
Stress
,
2
,
2ˆ
El Stress no es propiamente una medida de la bondad del ajuste, sino una medida de la no
bondad o “maldad” del ajuste. Su valor mínimo es 0, mientras que su límite superior para n
estímulos es ( )n21− .
Kruskal, en sus análisis, estableció las siguientes clasificaciones para los diversos valores
del Stress:
- 0,2 → Pobre
- 0,1 → Aceptable
- 0,05 → Bueno
- 0,025 → Excelente
- 0,0 → Perfecto
También se suele utilizar una variante del Stress que se denomina S-Stress, definida como
el cuadrado de las distancias, por lo que tiende a justar mejor para distancias grandes que
para pequeñas:
La mayoría de los paquetes estadísticos tienen implementados tanto los algoritmos para
obtener soluciones con MDS así como las medidas para determinar si el modelo es
adecuado o no2. En la actualidad todo los algoritmos implementados en los paquetes
estadísticos son reiterativos, de forma que se alcance la mejor solución posible.
2 El procedimiento de MDS implementado en SPSS es el programa ALSCAL (Alternating Least SquaresSCALing), que fue desarrollado por Takane, Young y De Leew (1977) basándose en el algoritmo de mínimoscuadrados alternantes.
13
5. RELACIÓN ENTRE MDS Y OTRAS TÉCNICAS MULTIVARIANTES.
El MDS puede ser utilizado en muchas investigaciones junto a otras técnicas
multivariantes, bien como una alternativa a dichas técnicas o bien como un complemento a
las mismas. La utilización de cada una de ellas va a depender de los objetivos que se
persigan en la investigación. Por tanto, no hay una técnica mejor que otra, sino que en
algunos casos será más apropiado utilizar una técnica que en otros. Entre las ventajas de
utilizar el MDS en comparación con otras técnicas multivariantes están:
- Los datos en MDS pueden estar medidos en cualquier escala, mientras que en el
análisis factorial deben estar medidos en escala de razón o intervalo.
- El MDS proporciona soluciones para cada individuo, lo cual no es posible con el
análisis factorial ni con el análisis cluster.
- En el MDS el investigador no necesita especificar cuáles son las variables a
emplear en la comparación de objetos, algo que es fundamental en el análisis
factorial y en el análisis cluster, con lo que se evita la influencia del investigador
en el análisis.
- Las soluciones proporcionadas por MDS suelen ser de menor dimensionalidad
que las proporcionadas por el análisis factorial (Schiffman, Reynolds y Young,
1981).
- En MDS pueden ser interpretados directamente las distancias entre todos los
puntos, mientras que en el análisis de correspondencias solamente pueden ser
interpretadas directamente las distancias entre filas o bien entre columnas.
6. INTERPRETACIÓN DE LOS RESULTADOS.
Una de las posibles formas de interpretar las soluciones MDS es la interpretación
dimensional, Esta forma de interpretación, la más utilizada, supone ordenar los objetos y/o
los sujetos a lo largo de continuos (dimensiones) que se interpretan como escalas de medida
de alguna característica o atributo, esto es lo que se entiende como “escalamiento”.
14
Estas escalas no siempre coinciden en orientación con las dimensiones originalmente
proporcionadas por el EMS. Esto se debe a que, en términos de distancias entre objetos, la
orientación de los ejes es arbitraria. Por tanto, si alguna orientación alternativa de los
mismos facilita la interpretación, podemos rotar la solución a los nuevos ejes y utilizar
éstos para interpretar los resultados.
Pero, además de la interpretación dimensional, existen otras muchas formas de interpretar
las soluciones proporcionadas por el MDS dependiendo de los intereses de nuestra
investigación. Veamos algunas de ellas
Interpretación dimensional
Busca continuos o vectores a lo largo de los cuales interpretar las posiciones de los objetos.
Una forma directa de interpretar la solución MDS en forma dimensional consiste en utilizar
datos externos. Para llevar a cabo este procedimiento debemos obtener medidas de los
objetos en una serie de atributos, y utilizar cada una de estas medidas como variable
dependiente en un análisis de regresión múltiple, mientras que como variables
independientes utilizaremos las coordenadas de los objetos en la matriz X. Si alguno de los
atributos puede ser expresado como una combinación lineal de una o más de las
coordenadas de los objetos, entonces eses atributo está relacionado con la solución
proporcionada por el análisis. En el caso de que el atributo venga explicado por una sola
dimensión, podremos interpretar ésta en función de aquél.
Interpretación por agrupamientos
En ocasiones puede ocurrir que efectuamos un análisis MDS sobre un conjunto de objetos
con fines clasificatorios. Es decir que, aunque puedan interesarnos los criterios en función
de los cuales puedan expresarse las proximidades existentes entre los objetos, también
puede interesarnos ver si existe agrupamientos de objetos que san muy similares entre sí, y
diferentes del resto. Imaginemos que pedimos a una muestra de sujetos que evalúen una
serie de productos de consumo. Podríamos analizar las similaridades entre estos productos
mediante MDS, pero también podría interesarnos ver si existen agrupamientos de sujetos en
15
función de sus hábitos de consumo. En este caso, analizaríamos las similaridades entre
sujetos mediante MDS. Aquellos sujetos con hábitos de consumo muy similares se
encontrarán muy próximos entres sí, y aquellos grupos de sujetos con hábitos muy
diferentes se encontrarán alejados entere sí. Esto nos permitiría identificar a qué segmentos
de la población se deben dirigir determinados productos.
Una técnica utilizada habitualmente cuando queramos llevar a cabo agrupamientos es el
análisis de conglomerados. A diferencia del MDS, que proporciona soluciones continuas, el
análisis de conglomerados proporciona soluciones discretas y (generalmente) jerárquicas.
Utilizando ambas técnicas en conjunción resultará más sencillo identificar agrupamientos
de objetos.
7. EL SPSS Y EL ESCALADO MULTIDIMENSIONAL
Escalamiento multidimensional es un procedimiento que a partir de las distancias
(desemejanzas o disimilitudes) o de las proximidades (semejanzas o similitudes) entre pares
de sujetos/objetos tiene como objetivo fundamental encontrar un espacio métrico con un
número determinado de dimensiones que represente la posición de estos sujetos/objetos en
el mismo y de acuerdo con sus distancias o proximidades.
Vamos a trabajar en un ejemplo ilustrativo con una única variable que es tasnat (tasa de
natalidad), esta variable correspóndela número de nacimientos por cada 1.000 habitantes en
el año 2000 para cada una de las diversas comunidades autónomas del estado español.
Podemos observar en la base de datos que la comunidad con un tasa de natalidad más baja
ese año era Asturias (6,39/1.000) y la más alta, Murcia (12,2/1.000).
Previamente cargado el archivo ccaa2000.sav entramos en Analizar-Escala-Escalamiento
Multidimensional (ALSCAL) y obtenemos el cuadro de diálogo principal del escalamiento
multidimensional clásico.
16
El cuadro de diálogo principal muestra las siguientes opciones:
• Matrices individuales para
Entraríamos en este campo la variable criterio de clasificación o división de la muestre en
diferentes subgrupos, de modo que el EMD se realiza para cada grupo por separado. No es
el caso en el ejemplo pero podrían ser empresas por sectores, individuos por sexo, hábitat,
etc. Este campo no está activo si los datos de partida y avienen en forma de matriz (Los
datos son distancias).
• Distancias
Tenemos en este apartado dos opciones correspondientes a los botones:
o Los datos son distancias
o Crear distancias a partir de datos
La primera opción se utiliza si los datos de partida ya vienen dados en una matriz de
distancias. En el ejemplo y con la variable “tasnat”, esa matriz de distancias no sería otra
cosa que la matriz de diferencias en tasa de natalidad entre las diferentes comunidades del
estado español. En concreto, el valor en esta matriz para las comunidades Andalucía-
Aragón sería de 2,64 puntos (11,13-8,49) y que correspondería a 2,64/1.000 nacimientos de
diferencia entre ambas comunidades. Obviamente la diagonal es 0 en todos los casos y
conviene señalar que la misma debe ser al menos una matriz 4x4-
Con la segunda opción (Crear distancias a partir de datos) y que es la que vamos a utilizar
en el ejemplo, la estamos pidiendo al sistema que sea él mismo el que genera la matriz de
distancias a partir de una base de datos determinada.
17
Vamos a revisar cada una de estas opciones a continuación
• Forma...Cuadrada simétrica
Si pulamos el botón del comando Forma accedemos al subcuadro de diálogo de la siguiente
figura (es la opción por defecto).
Observamos en este cuadro que la matriz de partida puede ser o cuadrada simétrica, o
cuadrada asimétrica o rectangular. En el primer caso, y que corresponde a la opción por
defecto, filas y columnas representa los mismos individuos y los valores correspondientes
del triángulo superior e inferior de la matriz son iguales.
El segundo caso (cuadrada asimétrica) también filas y columnas representan los mismos
individuos pero los valores por encima y debajo de la diagonal no tienen por qué ser iguales
(datos de una matriz sociométrica, distancia social percibida, etc.)
En el tercer caso (rectangular) las filas y comunas representa diferentes series de individuos
18
• Medida...Distancia Euclídea
Seleccionada previamente esta opción a través del botón Crear distancias a partir de datos
y pulsando el botón de comando Medida accederemos al subcuadro de diálogo de la
siguiente figura.
En este subcuado de diálogo deberemos especificar al sistema qué tipo de medida queremos
que calcule, si queremos que lleve a cabo o no algún tipo de transformación y , muy
importante, si la matriz que debe genera ha de ser una matriz de distancias por variables o
por individuos. Si es por variables (opción por defecto), éstas deberán ser cuatro o más, en
tanto que si es por individuos (como es el caso del ejemplo) es suficiente con una única
variable de carácter numérico.
19
• Modelo
Si pulsamos el botón Modelo , obtendremos el subcuadro de diálogo de la siguiente figura
que pasamos a comentar.
La primera decisión a tomar hace referencia al nivel de medida de los datos de partida para
realizar el EMD. Éstos pueden ser ordinales, en cuyo caso realizaremos un EMD no
métrico. Se puede seleccionar la opción contraria. Si los datos están medidos en una escala
de intervalo o de cociente, realicemos un EMD métrico. En el ejemplo utilizaremos este
último.
La segunda decisión en este cuadro de diálogo hace referencia a la “condicionalidad”. Se
trata de definir el sentido y significado que queremos dar a los datos de partida y si la
comparación que quiere establecerse está condicionada a un sujeto/objeto o matriz
determinada, a las filas de la matriz o matrices, o bien no condicionada y válida por tanto
para todos los valores de la matriz o matrices de entrada. En el primer caso, que es la que
vamos a establecer en nuestro ejemplo, partimos por lo general de una matriz simétrica de
datos. La segunda opción (fila) es aplicable únicamente a matrices asimétricas o
rectangulares.
20
La tercera decisión hace referencia al número de dimensiones que queremos para la
solución. El sistema coge por defecto dos dimensiones, que suele ser un número bastante
razonable para la mayoría de situaciones y bastante bien interpretable desde el punto de
vista gráfico. A pesar de ello, también en el EMD existen criterio objetivos que nos
ayudarán en esta decisión y que son : el Stress, el S-stress o el RQS, indicadores todos
ellos de la bondad de ajuste del modelo a los datos y cuyos valores pueden cambiar en
función del número de dimensiones seleccionadas. El número de dimensiones debe estar
comprendido entre uno y seis y si queremos una solución única deberemos entrar el mismo
valor como mínimo y como máximo
La cuarta y última decisión hace referencia a la escala del modelo. La opción por defecto es
la distancia euclídea, válida para cualquier tipo de matriz
• Opciones
Si pulsamos el botón Opciones tendremos acceso al subcuadro de la siguiente figura.
Tenemos en primera instancia la posibilidad de pedir o no al sistem aque en el output del
procedimiento aparezca:
-Gráficos para todo el grupo
-Gráficos para los sujetos individualmente considerados
21
-La matriz de datos de partida
-Un resumen del modelo y de las opciones selccionadas
En segundo lugar, en el subcuadro de diálogo de esta figura deberemos fijar los criterios:
-Convergencia S-stress
-S-stress valor mínimo
-Número máximo de iteraciones
SPSS utiliza un algoritmo iterativo tendente amenizar el criterio de ajuste del modelo S-
stress, de modelo que el proceso iterativo no se detiene hasta que: o la disminución que se
producen en el coeficiente S-stress es menor que el valor de convergencia, o hasta que el
coeficiente S-stress desciende del mínimo fijado, o hasta que el número de iteraciones llega
al límite fijado.
Interpretación resultados
A continuación tenemos un resumen de las diversas pociones utilizadas por el SPSS para
llevar a cabo al análisis del escalamiento multidimensional . ALSCAL es un acrónimo para
designar este procedimiento utilizado por el SPSS (Multidimensional Scaling):
22
Alscal Procedure Options
Data Options-
Number of Rows (Observations/Matrix). 17Number of Columns (Variables) . . . 17Number of Matrices . . . . . . 1Measurement Level . . . . . . . RatioData Matrix Shape . . . . . . . SymmetricType . . . . . . . . . . . DissimilarityApproach to Ties . . . . . . . Leave TiedConditionality . . . . . . . . MatrixData Cutoff at . . . . . . . . ,000000
Model Options-
Model . . . . . . . . . . . EuclidMaximum Dimensionality . . . . . 2Minimum Dimensionality . . . . . 2Negative Weights . . . . . . . Not Permitted
Output Options-
Job Option Header . . . . . . . PrintedData Matrices . . . . . . . . PrintedConfigurations and Transformations . PlottedOutput Dataset . . . . . . . . Not CreatedInitial Stimulus Coordinates . . . Computed
Algorithmic Options-
Maximum Iterations . . . . . . 30Convergence Criterion . . . . . ,00100Minimum S-stress . . . . . . . ,00000Missing Data Estimated by . . . . Ulbounds
Como podemos observar estas opciones están clasificadas en cuatro bloques (Datos-
Modelo-Output y Algoritmo) y reflejan exactamente lo seleccionado en los respectivos
cuadros y subcuadros de diálogo.
La siguiente tabla recoge la matriz de distancias en la variable “tasnat” entre las 17
comunidades de la muestra, generada por el sistema y que sirve como punto de partida para
el análisis
23
Raw (unscaled) Data for Subject 1
1 2 3 4 5
1 ,000 2 2,640 ,000 3 4,740 2,100 ,000 4 ,900 3,540 5,640 ,000 5 3,890 1,250 ,850 4,790 ,000
6 1,370 1,270 3,370 2,270 2,520 7 ,110 2,750 4,850 ,790 4,000 8 2,910 ,270 1,830 3,810 ,980 9 ,790 1,850 3,950 1,690 3,100 10 1,690 ,950 3,050 2,590 2,200 11 3,970 1,330 ,770 4,870 ,080 12 ,140 2,500 4,600 1,040 3,750 13 1,490 4,130 6,230 ,590 5,380 14 1,340 1,300 3,400 2,240 2,550 15 2,740 ,100 2,000 3,640 1,150 16 2,270 ,370 2,470 3,170 1,620 17 1,030 1,610 3,710 1,930 2,860
6 7 8 9 10
6 ,000 7 1,480 ,000 8 1,540 3,020 ,000 9 ,580 ,900 2,120 ,000 10 ,320 1,800 1,220 ,900 ,000 11 2,600 4,080 1,060 3,180 2,280 12 1,230 ,250 2,770 ,650 1,550 13 2,860 1,380 4,400 2,280 3,180 14 ,030 1,450 1,570 ,550 ,350 15 1,370 2,850 ,170 1,950 1,050 16 ,900 2,380 ,640 1,480 ,580 17 ,340 1,140 1,880 ,240 ,660
11 12 13 14 15
11 ,000 12 3,830 ,000 13 5,460 1,630 ,000 14 2,630 1,200 2,830 ,000 15 1,230 2,600 4,230 1,400 ,000 16 1,700 2,130 3,760 ,930 ,470 17 2,940 ,890 2,520 ,310 1,710
16 17
16 ,000 17 1,240 ,000
24
En la siguiente tabla aparecen los tres coeficientes que calcula el sistema como criterio de
ajuste del modelo a los datos. Vamos a comentarlos separadamente
Iteration history for the 2 dimensional solution (in squared distances)
Young's S-stress formula 1 is used.
Iteration S-stress Improvement
1 ,00000 2 ,00000 ,00000
Iterations stopped because S-stress improvement is less than ,001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data(disparities) in the partition (row, matrix, or entire data) which isaccounted for by their corresponding distances. Stress values are Kruskal's stress formula 1.
For matrix Stress = ,00000 RSQ = 1,00000_
Configuration derived in 2 dimensions
• En primer lugar tenemos el S-stress de Young, sus valores oscilan entre “0” (ajuste
perfecto) y “1” (ajuste nulo). De acuerdo con los criterios de convergencia
especificados el sistema se ha pardo en la primera iteración puesto que el incremento
respecto a la segundo es inferior a 0,001. Podemos, por tanto, concluir a la vista de los
resultados que estamos delante de un ajuste prácticamente perfecto entre la matriz de
datos originales linealmente transformada (estamos en un EMD métrico) y la matriz de
distancias euclídeas al cuadrado.
• El segundo valor de Stress que aparece en la tabla (Stress=0,00000) hace referencia al
Stress de Kruskal. Se trata de un coeficiente similar al anterior, con valore e
interprtación idénticoso y con la única diferencia de que está calculado en unidades de
distancia y no en unidades de distancia al cuadrdo como el S-stress.
25
• El tercer coeficiente es el RSQ=1 y se puede interpretar como la proporción de la
varianza de los valores originales de la matriz linealmente transformados explicada por
le modelo. Obviamente el ajuste será tanto mejor cuanto más se aproxime a la unidad,
siendo éste perfecto según los datos del ejemplo.
A continuación tenemos los valores en las coordenadas para cda una de las 17 comunidades
y que sierven de base para el siguiente gráfico.
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2Number Name
1 VAR1 1,3134 ,0003 2 VAR2 -,8682 ,0003 3 VAR3 -2,6036 -,0001 4 VAR4 2,0572 ,0016 5 VAR5 -1,9011 -,0047 6 VAR6 ,1813 ,0004 7 VAR7 1,4043 ,0010 8 VAR8 -1,0913 -,0009 9 VAR9 ,6606 ,0008 10 VAR10 -,0831 ,0001 11 VAR11 -1,9673 -,0012 12 VAR12 1,1978 ,0010 13 VAR13 2,5447 ,0020 14 VAR14 ,2061 ,0003 15 VAR15 -,9508 -,0008 16 VAR16 -,5624 -,0005 17 VAR17 ,4623 ,0005
En el ejemplo, la interpretación de los ejes y , por tanto, de las dos dimensiones pedidas a la
solución debería realizarse de acuerdo con características económicas, sociológicas,
geográficas, demográficas, etc., que caracterizan a las comunidades de la muestre y que
serían de alguna manera las que nos permitirían interpretar la situación de las mismas en el
plano bidimensional. No es el ejemplo más adecuada para éste si se tiene en cuenta que un
única dimensión sería suficiente para explicar la variabilidad de los datos. A continuación
tenemos la matriz de datos escalados de modo óptimo y que recibe este nombre debido al
hecho de que la transformación lineal nos genera unos valores que optimizan el coeficiente
S-stress. Tradicionalmente a esta matriz se la conoce como “Disparities”.
26
Optimally scaled data (disparities) for subject 1
1 2 3 4 5
1 ,000 2 2,182 ,000 3 3,917 1,735 ,000 4 ,744 2,925 4,661 ,000 5 3,215 1,033 ,702 3,958 ,000 6 1,132 1,049 2,785 1,876 2,082 7 ,091 2,273 4,008 ,653 3,305 8 2,405 ,223 1,512 3,148 ,810
9 ,653 1,529 3,264 1,397 2,562 10 1,397 ,785 2,520 2,140 1,818 11 3,281 1,099 ,636 4,024 ,066 12 ,116 2,066 3,801 ,859 3,099 13 1,231 3,413 5,148 ,488 4,446 14 1,107 1,074 2,810 1,851 2,107 15 2,264 ,083 1,653 3,008 ,950 16 1,876 ,306 2,041 2,620 1,339 17 ,851 1,330 3,066 1,595 2,363
6 7 8 9 10
6 ,000 7 1,223 ,000 8 1,273 2,496 ,000 9 ,479 ,744 1,752 ,000 10 ,264 1,487 1,008 ,744 ,000 11 2,149 3,372 ,876 2,628 1,884
12 1,016 ,207 2,289 ,537 1,281 13 2,363 1,140 3,636 1,884 2,628 14 ,025 1,198 1,297 ,455 ,289 15 1,132 2,355 ,140 1,611 ,868 16 ,744 1,967 ,529 1,223 ,479 17 ,281 ,942 1,554 ,198 ,545
11 12 13 14 15
11 ,000 12 3,165 ,000 13 4,512 1,347 ,000 14 2,173 ,992 2,339 ,000 15 1,016 2,149 3,496 1,157 ,000 16 1,405 1,760 3,107 ,769 ,388 17 2,430 ,735 2,082 ,256 1,413
16 17
16 ,000 17 1,025 ,000
27
El gráfico de la figura siguiente también conocido como mapa perceptual, recoge la
posición de las 17 comunidades de acuerdo con sus valores en las dos dimensiones del
modelo:
-3 -2 -1 0 1 2 3
Dimensión 1
-0,004
-0,002
0,000
0,002
Dim
ensi
ón 2 VAR1VAR2
VAR3
VAR4
VAR5
VAR6
VAR7
VAR8
Modelo de distancia euclídea
Configuración de estímulos derivada
El siguiente gráfico conocido como diagrama de Shepard o gráfico de ajuste lineal,
representa en qué medida el ajuste es o no bueno. En abscisas tenemos los valores de la
matriz de disparidades y en ordenadas las distancias entre sujetos, de modo que las
diferencias entre comunidades en la variable tasnat está reflejada en el gráfico a través de
las distancias entre puntos. El gráfico no hace sino reflejar hasta qué punto las distancias
entre las comunidades de la muestra relejan, en qué medida, las diferencias en la variable
tasnat considerada.
28
0 1 2 3 4 5 6
Disparidades
0
1
2
3
4
5
6
Dis
tanc
ias
Modelo de distancia euclídea
Gráfico de ajuste lineal