1
DISEDISEÑÑO EXPERIMENTALO EXPERIMENTAL(Modelos Multivariados)(Modelos Multivariados)
Universidad Nacional de La PlataUniversidad Nacional de La Plata
Facultad de Ciencias Agrarias y ForestalesFacultad de Ciencias Agrarias y Forestales
UNIDAD 3: Técnicas Multivariadas de Agrupamiento y
Ordenación. Problemas de interpretación de muchas
variables con gran volumen de datos. Principales
estrategias descriptivas del análisis multivariado de datos.
Medidas de similaridad (asociación) y de disimilaridad
(distancias). Criterios de reducción de la dimensión original
del problema. Métodos de ordenación: análisis de
componentes principales y análisis de coordenadas
principales. Criterios de agrupamiento de datos: análisis de
conglomerados jerárquicos (análisis de cluster -
dendogramas). Estrategias de ligamiento (linkage).
CLASE FECHA TEMA DOCENTES
13 Martes
03 Nov
Introducción al Análisis Multivariado. Medidas de
similaridad (asociación) y de disimilaridad (distancias).
Propiedades. Análisis de conglomerados jerárquicos:
clusters. Estrategias de ligamiento (linkage).
14 Viernes
06 Nov Práctica
15 Martes
10 Nov PARCIAL 2: REGRESION
16 Viernes
13 Nov
Métodos para la reducción de la dimensión de los
datos o de ordenación. Análisis de Componentes
Principales. Representación de individuos y variables
en el plano factorial. Interpretación de gradientes.
17 Martes
17 Nov
Análisis de Coordenadas principales. Finalización
práctica
18 Viernes
27 Nov PARCIAL 3: MULTIVARIADO
Sergio BRAMARDI
Sarah BURNS
2
Introducción al Análisis Multivariado
Datos Multivariados
Estudio Descriptivo de Variables
Estudio Descriptivo de Individuos
Distancias Estadísticas
Métodos de Clasificación (Cluster)
Métodos de Ordenación (ACP y ACoordP)
TEMARIO MODULO IIITEMARIO MODULO III
Bibliografía de Referencia
CUADRAS, C. M. (1996). Métodos de análisis multivariante. Barcelona : EUB, S.L
JOHNSSON, D. E. (2000). Métodos multivariados aplicados al análisis de datos. México: International Thomson Editores.
PEÑA, D. (2002). Análisis de Datos Multivariantes. Madrid: McGraw Hills/Interamericana de España.
Definición Análisis Multivariado
El Análisis Multivariado puede definirse como el
conjunto de técnicas cuyo objetivo es el análisis
descriptivo y/o la realización de inferencias a
partir de datos de naturaleza multivariada, es
decir, en los que cada observación está
constituida por los valores de varias variables
interrelacionadas
3
Orígenes 1901 (Pearson) - 1904 (Spearman)
Gran desarrollo a partir del uso generalizado de las computadoras
Aplicación en los más diversos ámbitos
Carácter desestructurado, desarrollo de técnicas y métodos a través de tres escuelas (enfoques)
Gran cantidad y variedad de métodos con un origen teórico distinto puede producir una sensación de confusión al que se
introduce por primera vez a estas técnicas
Introducción al Análisis Multivariado
Datos Multivariados
Estudio Descriptivo de Variables
Estudio Descriptivo de Individuos
Distancias Estadísticas
Métodos de Clasificación (Cluster)
Métodos de Ordenación (ACP y ACoordP)
TEMARIO MODULO IIITEMARIO MODULO III
Datos Multivariados
Se presentan en forma de matriz nxp
X = xij i = 1, 2, .... , n
j = 1, 2, .... , p
====
444241
333231
232221
131211
xxx
xxx
xxx
xxx
X [[[[ ]]]]321 xxxrrr
====
4
TAMFLOR LONGPET ANCHOPET SUPHOJA LONANCHO PECLIMBO PESOF LONGF ANCHOF ESPESORF PESOEND LONGEND ANCHOEND
--------------------------------------------------------------------------------------------------------------------
BLANCO | 33.26 13.90 18.32 44.09 1.05 0.41 49.29 46.34 44.93 45.40 4.31 31.07 24.18
BULIDA | 26.84 13.44 15.88 36.67 1.11 0.39 49.00 44.58 45.09 43.38 2.57 25.26 20.34
CURROT.T | 28.84 12.68 15.44 51.72 0.91 0.39 43.04 40.06 43.54 42.97 1.62 20.13 17.62
CANINO | 27.52 12.32 14.28 36.04 1.00 0.45 66.79 51.30 50.80 49.10 3.42 23.77 21.21
CANINO.T | 33.88 14.40 16.40 38.97 1.06 0.31 63.11 50.70 49.22 46.82 3.34 29.09 22.86
CHIRIVEL | 26.32 13.36 15.04 41.28 0.99 0.41 43.80 40.29 42.51 44.55 3.46 23.90 22.52
CORBATO | 30.63 13.79 17.04 42.06 0.99 0.38 39.63 39.71 41.06 40.79 1.88 19.66 20.31
CRISTALI | 27.60 13.68 17.40 53.33 1.08 0.34 44.98 40.10 42.25 46.89 2.58 20.76 19.13
CURROT | 28.80 12.32 15.24 50.01 0.88 0.41 40.77 42.54 39.94 41.77 1.52 17.97 17.57
GABACHET | 29.60 12.28 14.40 40.14 0.99 0.41 21.44 29.63 33.16 32.84 1.20 15.32 14.28
GANDIA | 24.68 10.68 12.36 39.31 1.00 0.44 38.75 37.00 41.40 40.46 1.49 18.29 16.99
GINESTA | 25.04 11.32 12.24 33.53 1.04 0.37 40.96 37.38 41.97 42.66 1.97 19.40 18.98
MANRI | 24.08 13.20 15.48 36.88 1.02 0.42 39.39 36.14 41.05 41.62 2.02 20.01 19.36
MARTINET | 35.00 14.40 18.24 36.94 1.02 0.44 54.70 49.33 47.54 47.00 4.55 31.34 22.83
PALABRAS | 27.36 12.00 13.84 34.13 0.99 0.38 44.65 42.37 41.30 44.12 1.40 17.12 17.66
PALAU | 29.34 12.56 14.63 42.03 1.02 0.40 39.65 37.40 41.39 41.43 1.53 18.49 17.73
R.CARLET | 30.49 13.29 16.49 41.55 0.99 0.41 47.16 39.42 44.13 43.61 2.25 21.41 20.19
TADEO | 31.72 13.43 17.08 38.51 1.16 0.40 74.16 51.55 55.54 54.34 2.78 23.16 20.45
18 variedades de damasco (Prunus armeniaca)
Fuente: Badenes et al (1993). Caracterización pomológica de variedades y clones de albaricoquero. Investigación Agraria, Producción y Protección Vegetales, 8: 55-65.
Introducción al Análisis Multivariado
Datos Multivariados
Estudio Descriptivo de Variables
Estudio Descriptivo de Individuos
Distancias Estadísticas
Métodos de Clasificación (Cluster)
Métodos de Ordenación (ACP y ACoordP)
TEMARIO MODULO IIITEMARIO MODULO III
OPERACIONES CON MATRICES
Producto:
Sea M = y N =
El producto M*N es:
3231
2221
1211
aa
aa
aa
2221
1211
bb
bb
3231
2221
1211
cc
cc
cc
3x22x2
∑∑∑∑====
⋅⋅⋅⋅====p
kkjjkij bac
1
5
Estudio descriptivo de las variables
Vector de medias:
144x343332313
42322212
41312111
1
1
1
1
1
x
xxxx
xxxx
xxxx
n
••••
====1X'.1 rr
nx ====
====
∑∑∑∑
∑∑∑∑
∑∑∑∑
====
====
====
n
ii
n
ii
n
ii
x
x
x
n
13
12
11
1
====
3
2
1
x
x
x
Para datos cuantitativos importante relación entrevariables matriz de varianzas-covarianzas (pxp)
2
2
2
S
SS
SSS
z
yzy
xzxyx
S =
pxp
Matriz de varianzas-covarianzas:
11
)(S 1
2
12
1
2
2
−−−−
−−−−
====−−−−
−−−−
====∑∑∑∑
∑∑∑∑∑∑∑∑
====
====
====
n
n
x
x
n
xxn
i
n
ii
i
n
ii
x
1
.
1
)).((S 1
11
1
−−−−
⋅⋅⋅⋅
−−−−
====−−−−
−−−−−−−−
====∑∑∑∑
∑∑∑∑∑∑∑∑∑∑∑∑
====
========
====
n
n
yx
yx
n
yyxxn
i
n
ii
n
ii
ii
n
iii
xy
1
r1
rr1
yz
xzxy
r =
pxp
Matriz de correlaciones:
22 SS
Sr
yx
xy
xy
⋅⋅⋅⋅====
Si en lugar de trabajar con los datos estadarizados por las medias, estandarizamos por media y desvío
estándar Matriz de Correlación
6
Sea el vector ‘variable’
====
4
3
2
1
x
x
x
x
xr
4x1
Si estandarizamos el vector por su media (centrar)
Obtención matricial de matriz de variazas-covarianzas
[[[[ ]]]] ∑∑∑∑====
====
∗∗∗∗====∗∗∗∗4
1
2
4
3
2
1
4321'i
ix
x
x
x
x
xxxxxxrr
−−−−
−−−−
−−−−
−−−−
====
xx
xx
xx
xx
x
4
3
2
1
cr
xxn
xxxx xi
i
rrrr∗∗∗∗
−−−−====⇒⇒⇒⇒−−−−====∗∗∗∗ ∑∑∑∑
====
'1
1S)(' 2
4
1
2
yxn
yyxxyx xyi
ii
rrrr∗∗∗∗
−−−−====⇒⇒⇒⇒−−−−−−−−====∗∗∗∗ ∑∑∑∑
====
'1
1S)).(('
4
1
x33X
2XXX
2XXXXX
2
3
322
31211
S
SS
SSS
11
====−−−−
X'.Xn
3x4343242141
333232131
323222121
313212111
4x3243233223213
242232222212
141131121111
−−−−−−−−−−−−
−−−−−−−−−−−−
−−−−−−−−−−−−
−−−−−−−−−−−−
••••
−−−−−−−−−−−−−−−−
−−−−−−−−−−−−−−−−
−−−−−−−−−−−−−−−−
====
xxxxxx
xxxxxx
xxxxxx
xxxxxx
xxxxxxxx
xxxxxxxx
xxxxxxxx
X'.X
Si en lugar de trabajar con los datos estadarizados por las medias, estandarizamos por media y desvío
estándar Matriz de Correlación
7
TAMFLOR LONGPET ANCHOPET SUPHOJA LONANCHO PECLIMBO PESOF LONGF ANCHOF ESPESORF PESOEND LONGEND ANCHOEND
TAMFLOR 1,00 0,69 0,73 0,12 0,15 -0,17 0,40 0,53 0,40 0,31 0,54 0,62 0,47
LONGPET 0,69 1,00 0,92 0,18 0,34 -0,31 0,40 0,48 0,40 0,40 0,66 0,71 0,70
ANCHOPET 0,73 0,92 1,00 0,35 0,29 -0,14 0,37 0,47 0,38 0,42 0,61 0,65 0,60
SUPHOJA 0,12 0,18 0,35 1,00 -0,37 -0,19 -0,21 -0,15 -0,21 -0,07 -0,13 -0,12 -0,15
LONANCHO 0,15 0,34 0,29 -0,37 1,00 -0,26 0,51 0,38 0,54 0,52 0,38 0,40 0,37
PECLIMBO -0,17 -0,31 -0,14 -0,19 -0,26 1,00 -0,07 -0,06 -0,02 -0,10 0,09 -0,03 -0,06
PESOF 0,40 0,40 0,37 -0,21 0,51 -0,07 1,00 0,94 0,99 0,94 0,62 0,62 0,65
LONGF 0,53 0,48 0,47 -0,15 0,38 -0,06 0,94 1,00 0,90 0,87 0,71 0,74 0,72
ANCHOF 0,40 0,40 0,38 -0,21 0,54 -0,02 0,99 0,90 1,00 0,93 0,62 0,64 0,65
ESPESORF 0,31 0,40 0,42 -0,07 0,52 -0,10 0,94 0,87 0,93 1,00 0,62 0,57 0,65
PESOEND 0,54 0,66 0,61 -0,13 0,38 0,09 0,62 0,71 0,62 0,62 1,00 0,94 0,91
LONGEND 0,62 0,71 0,65 -0,12 0,40 -0,03 0,62 0,74 0,64 0,57 0,94 1,00 0,91
ANCHOEND 0,47 0,70 0,60 -0,15 0,37 -0,06 0,65 0,72 0,65 0,65 0,91 0,91 1,00
Matriz de Correlación archivo Damasco
TAMFLOR
LONGPET
ANCHOPET
SUPHOJA
LONANCHO
PECLIMBO
PESOF
LONGF
ANCHOF
ESPESORF
PESOEND
LONGEND
ANCHOEND
TA
MF
LO
R
LO
NG
PE
T
AN
CH
OP
ET
SU
PH
OJA
LO
NA
NC
HO
PE
CLIM
BO
PE
SO
F
LO
NG
F
AN
CH
OF
ES
PE
SO
RF
PE
SO
EN
D
LO
NG
EN
D
AN
CH
OE
ND
-03
-02
-01
00
01
02
03
8
Introducción al Análisis Multivariado
Datos Multivariados
Estudio Descriptivo de Variables
Estudio Descriptivo de Individuos
Distancias Estadísticas
Métodos de Clasificación (Cluster)
Métodos de Ordenación (ACP y ACoordP)
TEMARIO MODULO IIITEMARIO MODULO III
Representación mediante figuras: figuras planas asociando el valor de cada variable a una característica del gráfico (gráficos de estrellas, caras de Chernoff)
Métodos Multivariados de Caracterización
Estudio descriptivo de los individuos
Clockwise:
TAMFLOR
LONGPET
ANCHOPET
SUPHOJA
LONANCHO
PECLIMBO
PESOF
LONGF
ANCHOF
ESPESORF
PESOEND
LONGEND
ANCHOEND
BLANCO BULIDA CANINO CANINO.T CHIRIVEL
CORBATO CRISTALI CURROT CURROT.T GABACHET
GANDIA GINESTA MANRI MARTINET PALABRAS
PALAU R.CARLET TADEO
FLOR
HOJA
FRUTO
CAROZO
9
npnk2n1n
ipik2i1i
p2k22221
1pk11211
......
......
......
......
xxxx
xxxx
xxxx
xxxx
MMMM
MMMM
nxp
0
...0
......0
......0
in
n2i2
1ni112
O
MO
d
dd
ddd
nxn
1
...1
......1
......1
kp
p2k2
1pk112
O
MO
r
rr
rrr
pxp
0
...0
......0
......0
in
n2i2
1ni112
O
MO
d
dd
ddd
Métodos de Ordenación
Permiten la representación geométrica de los individuos en dimensión reducida de modo que se expresen sus diferencias y analogías de la mejor forma posible.
Métodos de Clasificación
Se persigue la búsqueda de grupos similares, lo más homogéneos posibles, en los cuales se clasificarán los individuos a analizar.
METODOS DE CARACTERIZACION
Introducción al Análisis Multivariado
Datos Multivariados
Estudio Descriptivo de Variables
Estudio Descriptivo de Individuos
Distancias Estadísticas
Métodos de Clasificación (Cluster)
Métodos de Ordenación (ACP y ACoordP)
TEMARIO MODULO IIITEMARIO MODULO III
10
DISTANCIAS ESTADDISTANCIAS ESTADÍÍSTICASSTICAS
Semejanza entre individuos
Similaridad, proximidad, disimilaridad, distancia, asociación
Distancia dij Similaridad sij
Matriz de datos Xnxp
Matriz de asociación (nxn)
dij = 1 - sij
dij = (1 - sij)1/2
dij = -log sij
dij = 1/sij - 1
DATOS CUANTITATIVOSDATOS CUANTITATIVOS
1. Distancia Euclidea
∑∑∑∑====
−−−−====p
1kjkikij xxd 2)(
X
Y
yj
yi
xi xj
Pi
Pj
22 )()( jijiij yyxxd −−−−++++−−−−====
Importancia de la estandarización de datos
Individuo Altura (Mts) Peso (Kgs)
1 1.55 62 . . . .
. . . . . . . .
i 1.80 80 j 1.77 78 k 1.62 79 . . . .
. . . . . . . .
n 1.86 90
dij
djk
0002.2203.0)7880()77.180.1( 2222 ====++++====−−−−++++−−−−====ijd
0111.1115.0)7978()62.177.1( 2222 ====++++====−−−−++++−−−−====jkd
11
Individuo Altura (cm) Peso (kg)
1 155 62 . . . .
. . . . . . . .
i 180 80 j 177 78 k 162 79 . . . .
. . . . . . . .
n 186 90
Individuo Altura Stan. Peso Stan.
1 5.00 2.21 . . . .
. . . . . . . .
i 5.81 2.86 j 5.71 2.79 k 5.23 2.82 . . . .
. . . . . . . .
n 6.00 3.21
60.323)7880()177180( 2222 ====++++====−−−−++++−−−−====ijd
03.15115)7978()162177( 2222 ====++++====−−−−++++−−−−====jkd
122.007.010.0)79.286.2()71.581.5( 2222 ====++++====−−−−++++−−−−====ijd
481.003.048.0)82.279.2()23.571.5( 2222 ====++++====−−−−++++−−−−====jkd
2. Distancia de Manhattan
∑∑∑∑====
−−−−====p
kjkikij xxd
1
||
∑∑∑∑====
−−−−====
p
k k
jkik
ijr
xx
pd
1
||1
∑∑∑∑====
−−−−====
p
k k
jkik
ij
xx
pd
12
2
r
)(1∑∑∑∑
====
−−−−====
p
1k k
jkik
ij
xxd 2
2
s
)(
1 0
1 a b
0 c d
Individuo j
Individuo i
a + b + c + d = p
sij = 1 si a + d = p
sij = 0 si c + b = p
DATOS BINARIOS
Sexo - Presencia/ausencia de manchas en frutos – Es fumador -
Resistencia a enfermedades – Mayor de edad
1. Coeficiente de similaridad de Emparejamiento Simple(Sokal y Michener, 1958)
Con simetría entre a y d
dcba
dasij
++++++++++++
++++====
12
2. Coeficiente de Jaccard (1908)
Nacionalidad argentina – Presencia de especies
cba
asij
++====
Sin simetría entre a y d
DATOS CUALITATIVOSDATOS CUALITATIVOS
Extensión Coeficiente Similaridad S.M.
Nº caracteres coincidentes
Nº total de caracteresSij =
¿ Qué sucede cuando tenemos para un mismo conjunto de individuos variables cuanti y cualitativas ?
13
Coeficiente de similaridad general de Gower (1971)
En la situación más simple cuando se comparan los individuos i y j para el carácter k, si éste se trata de una variable binaria o cualitativa, se asigna valor uno a sijk si xik y xjk son iguales, y cero si son diferentes.
Si la variable es cuantitativa la similaridad entre los individuos estará dada por:
k
jkik
ijk
xx
r
||1s
−−−−−−−−====
∑∑∑∑====
====p
kijkij s
ps
1
1
321
p
k k
jkik
jppp
daxx
s++++++++
++++++++++++
−−−−−−−−
====
∑∑∑∑====
1
1i
r
||1 αααα
p1 es el número de variables continuasrk rango de la k-ésima variable continuap2 número de variables binarias a número de coincidencias en 1 de las variables binariasd número de coincidencias en 0 de las variables binarias (p2 - d)p3 número de variables cualitativas
αααα número de coincidencias de las variables cualitativas
BLANCO BULIDA CURROT.T CANINO CANINO.T CHIRIVEL CORBATO CRISTALI CURROT GABACHET GANDIA GINESTA MANRI MARTINET PALABRAS PALAU R.CARLET TADEO
------------------------------------------------------------------------------------------------------------------------------------------------------------------
BLANCO | 0.00
BULIDA | 4.04 0.00
CURROT.T | 5.86 4.67 0.00
CANINO | 4.93 3.88 5.58 0.00
CANINO.T | 3.94 4.35 6.33 5.46 0.00
CHIRIVEL | 3.86 2.74 3.77 3.88 5.13 0.00
CORBATO | 4.55 3.27 2.92 5.49 5.16 2.98 0.00
CRISTALI | 4.90 3.83 3.59 6.10 5.06 3.95 3.32 0.00
CURROT | 6.39 5.19 1.41 5.77 7.14 4.11 3.29 4.56 0.00
GABACHET | 8.60 6.50 5.07 8.51 9.34 6.25 4.84 6.60 4.66 0.00
GANDIA | 7.73 5.09 4.35 5.62 8.47 4.71 5.06 6.24 3.98 4.30 0.00
GINESTA | 7.06 3.95 4.69 5.35 6.82 4.06 4.51 5.40 4.82 5.04 2.85 0.00
MANRI | 5.74 2.96 3.78 5.00 6.59 2.63 2.83 4.38 3.87 4.55 3.41 3.15 0.00
MARTINET | 2.00 4.61 6.62 4.62 4.16 4.64 5.30 6.15 7.03 9.23 8.24 7.64 6.32 0.00
PALABRAS | 6.61 3.69 3.69 4.87 6.28 3.88 3.48 4.87 3.64 4.73 3.11 2.07 2.84 6.95 0.00
PALAU | 5.81 3.44 2.65 5.24 6.32 3.38 2.35 3.92 2.82 3.69 3.03 3.04 2.29 6.46 2.24 0.00
R.CARLET | 3.98 2.75 2.77 4.21 4.89 2.30 1.53 3.47 3.24 5.41 4.58 4.23 2.65 4.55 3.27 2.23 0.00
TADEO | 5.12 4.52 6.98 4.13 4.38 5.92 6.30 5.78 7.67 10.01 8.09 7.15 6.76 4.87 6.50 6.55 5.35 0.00
Distancia Euclidea
CURROT-CURROT.T = 1.41
R.CARLET-CORBATO = 1.53
MARTINET-BLANCO = 2.00
1.41
1.53
2.00
14
0
...0
......0
......0
in
n2i2
1ni112
O
MO
d
dd
ddd
Métodos de Ordenación
Permiten la representación geométrica de los individuos en dimensión reducida de modo que se expresen sus diferencias y analogías de la mejor forma posible.
Métodos de Clasificación
Se persigue la búsqueda de grupos similares, lo más homogéneos posibles, en los cuales se clasificarán los individuos a analizar.
CP 1
CP
2
BLANCO
BULIDA
CANINO
CANINO.T
CHIRIVEL
CORBATOCRISTALI
CURROTCURROT.TGABACHET
GANDIA GINESTA
MANRI
MARTINET
PALABRAS
PALAU
R.CARLET
TADEO
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5
GRUPO 5
GRUPO 1
GRUPO 2GRUPO 4
GRUPO 3
GRUPO 6
BLANCO
CANINO.T
MARTINET
CANINO
TADEO
BULIDA
CHIRIVEL
R.CARLET
CORBATO
PALAU
GANDIA
GINESTA
MANRI
PALABRAS
CURROT.T
CRISTALI
CURROT
GABACHET
0.00|
12.06|
6.03|
18.09|
Grupo 2
Grupo 6
Grupo 1
Gru
po
s 3
, 4
y 5
Introducción al Análisis Multivariado
Datos Multivariados
Estudio Descriptivo de Variables
Estudio Descriptivo de Individuos
Distancias Estadísticas
Métodos de Clasificación (Cluster)
Métodos de Ordenación (ACP y ACoordP)
TEMARIO MODULO IIITEMARIO MODULO III
ARBOLESARBOLES ULTRAMULTRAMÉÉTRICOSTRICOS(Cluster o dendogramas jerárquicos)
Sistema taxonómico de Lineo
Parte de un conjunto ΩΩΩΩ cuyos elementos (los individuos) deben ser clasificados. Se trata de obtener sucesivas
particiones (“clustering”) C0, C1, ....... de ΩΩΩΩ , organizadas en diferentes niveles jerárquicos, estando cada partición formada por clases disjuntas (“cluster”).
15
PASOS:
1) Matriz de distancias o similaridades donde el elemento genérico dij mide el grado de asociación entre dos taxas i y j
2) Inicialmente cada taxón constituye en sí mismo un cluster
3) Unión sucesiva de pares de taxas o grupos de taxas más cercanas
4) Cuando se unen dos taxas, pierden su identidad individual y son referenciados como un cluster simple
5) A medida que el proceso de agrupación avanza, en cada etapa dos cluster se unen en uno solo
6) El proceso se completa cuando se unen los dos últimos cluster en un único conglomerado que contiene todas las taxas originales
A B C D E
2.3
1.8
1.00.8
0.0
Problema: definir distancia de un individuo a un grupo ya constituido o entre grupos
Representación gráfica: dendograma o árbol
A B C D E
2.3
1.8
1.00.8
0.0
C-D
BA
Por esto se denominan árboles ultramétricos
dij ≤≤≤≤ máx dit , djt
Distancia Ultramétrica
16
Si los datos son en sí mismos ultramétricos, entonces la representación del árbol es exacta.
Pero de las distancias/similaridades vistas ninguna cumple con esta propiedad.
Por lo tanto no pueden ser representados exactamente como un árbol jerárquico, introduciéndose un error por la adecuación de una distancia no ultramétrica a un árbol ultramétrico.
Los algoritmos para la obtención de dendrogramas tienen siempre como primer paso transformar la disimilaridad original en ultramétrica.
Existen diversas formas de realizar tal transformación que da origen a diferentes métodos de construcción de árboles ultramétricos conocidos generalmente como Métodos de Agrupación
Problema:
definir la distancia entre un individuo y un grupo,
o entre dos grupos
Método del Mínimo o Simple (Johnson, 1967):
La distancia entre dos grupos es la distancia entre sus puntos más próximos, es decir:
d*(hk , hi ∪∪∪∪ hj) = mín d(hi,hk) , d(hj,hk)
hi hj
hk
17
Método del Máximo o Completo (Johnson, 1967):
Aquí la deformación del triángulo se hace hasta obtener
que los dos lados iguales coincidan con el mayor de los
lados.
d*(hk , hi ∪∪∪∪ hj) = máx d(hi,hk) , d(hj,hk)
Método del mínimo tiende a aproximar los objetos respecto a las distancias originales
espacio contractivo
crea cluster filamentosos
Método del Máximo tiende a alejar los objetos respecto a las distancias originales
espacio dilatante
cluster esféricos y compactos
Método de la Media
Método de la Mediana
Método del Centroide
espacios conservativos
18
Otro ingrediente es ponderar o no por el número de individuos que contiene
cada grupo
Gran cantidad de combinaciones medida de asociación/método de encadenamiento
Método de UPGMA (Sokal y Michener, 1958):
)h,h(d)h,h(d)hh,h(d*kj
ji
j
ki
ji
ijik
nn
n
nn
n
++++++++
++++====∪∪∪∪
X
AC
B
m
M
c
CORRELACION ENTRE MATRICESCORRELACION ENTRE MATRICES
Estadístico de corr. lineal de Pearson
Matrices de similaridad o distancia
n(n-1)/2
Correlación cofenética caso particular
CRITERIOS DE COMPARACION DE TECNICAS Y/O ESTRATEGIAS
19
Matriz de valores cofenéticos
vs
Matriz de dist/simil que dio origen al dendograma
Mide coherencia del criterio de agrupamiento jerárquico
Comparar matrices cofenéticas correspondiente a distintos criterios de ligamiento
0 ≤≤≤≤ rc ≤≤≤≤ 1
2.3
1.8
1.00.8
0.0
A B C D E
A B C D E
A 0 B 0.8 0C 1.8 1.8 0D 1.8 1.8 1.0 0E 2.3 2.3 2.3 2.3 0
BLANCO
CANINO.T
MARTINET
CANINO
TADEO
BULIDA
CHIRIVEL
R.CARLET
CORBATO
PALAU
GANDIA
GINESTA
MANRI
PALABRAS
CURROT.T
CRISTALI
CURROT
GABACHET
0.00|
12.06|
6.03|
18.09|
Linkage: UPGMADistancia: euclidea estandarizada
20
Ejemplo:
X
Y
A B
C D
0
1
2
3
4
5
0 1 2 3 4 5 6
Ind. X Y
A 1 1 B 2 1 C 3 4 D 5 4
dAB=1
d BC=3
.16
dCD=2
A B C D
Matriz de distancias Euclideasentre individuos
A B C D
A 0,00
B 1,00 0,00
C 3,61 3,16 0,00
D 5,00 4,24 2,00 0,00
====
50.2
75.2xr
====∑∑∑∑
35.2
5.29167.2
0
00.20
24.416.30
00.560.300.10
Método del mínimo
A
B
C
D
A B C D
0
00.20
24.416.30AB
C
D
AB C D
3
2
1
0
A B C D
0
16.30AB
CD
AB CD
0
00.20
16.316.30
16.316.300.10A
B
C
D
A B C D
ORIGINAL MÍNIMO
1.00 3.60 5.00 3.16 4.24 2.00
1.00 3.16 3.16 3.16 3.16 2.00
R=0.9004
Introducción al Análisis Multivariado
Datos Multivariados
Estudio Descriptivo de Variables
Estudio Descriptivo de Individuos
Distancias Estadísticas
Métodos de Clasificación (Cluster)
Métodos de Ordenación (ACP y ACoordP)
TEMARIO MODULO IIITEMARIO MODULO III
21
DEFINICIONES DE ALGEBRA MATRICIAL:
I: Matriz identidad tiene unos en la diagonal y restantes elementos igual a cero. Equivale al 1 del algebra escalar.
A-1: Matriz inversa es aquella que multiplicada por A da la matriz identidad. A*A-1=I
A’: Matriz transpuesta, resulta de intercambiar las filas por las columnas.
|A|: Determinante es una función específica de los elementos de una matriz cuadrada. Para caso de 2x2 es igual a (a11*a22)-(a12*a21)
tr(A): Traza, es la suma de los elementos de la diagonal
Matriz de Rotación:
−−−− θθθθθθθθ
θθθθθθθθ
cos
cos
sen
senAθθθθ = Rθθθθ(X) = X.Aθθθθ
Ind. X Y
A 1 1 B 2 1 C 3 4 D 5 4
45
43
12
11
*
− 01
10 =
−
−
−
−
54
34
21
11
Rotación 90º
Rotación 135º
X
Y
-2
-1
0
1
2
3
4
5
-8 -6 -4 -2 0 2 4 6
90º
* =
45
43
12
11
−−
−
707.0707.0
707.0707.0
−
−−
−
−
707.0364.6
707.0949.4
707.0121.2
0414.1
Matrices Ortonormales
AUTOVALORES Y AUTOVECTORESAUTOVALORES Y AUTOVECTORES
11 pxpxpxp eerr
⋅⋅⋅⋅====⋅⋅⋅⋅ λλλλA
⋅⋅⋅⋅====
⋅⋅⋅⋅
ppppp
p
e
e
e
e
e
e
aa
aa
MMMM
2
1
2
1
1
111
λ
...
...
Raíces de ecuación característica: |A-λλλλI|=0
Autovalores invariantes a transformaciones lineales
Traza y determinante son funciones de los autovalores
Si matriz es simétrica autovectores ortogonales
Autovalores medida de dispersión
Autovectores matrices de rotación
22
ANANÁÁLISIS DE COMPONENTES PRINCIPALESLISIS DE COMPONENTES PRINCIPALES
El objetivo de esta técnica es condensar la información contenida en una variable cuantitativa p-dimensional de respuesta, en un número reducido de nuevas variables no correlacionadas entre si, que son combinación lineal de las variables primitivas y explican el máximo de la inercia o variabilidad total
Se ponen en evidencias agrupamientos detectándose las principales variables responsables.
Supongamos que se cuenta con p mediciones asociadas a igual número de variables o caracteres X1 , X2 , ...... , Xp
sobre un total de n individuos o unidades experimentales presentados en forma de matriz Xnxp con elemento xik que corresponde a la k-ésima característica observada sobre el individuo i .
(i = 1, 2, ..... , n; k = 1, 2, .... , p)
Algebraicamente, las componentes principales serán una combinación lineal de estas p variables aleatorias.
Geométricamente, estas combinaciones lineales representaran un nuevo sistema de coordenadas obtenido por rotación del sistema original.
Las componentes principales dependerán únicamente de
la matriz de covarianzas ΣΣΣΣ (o de la matriz de correlaciones ρρρρ) de X1 , X2 , ...... , Xp.
Su desarrollo no requiere de supuestos acerca de normalidad multivariada de la población, pero esta se requerirá al momento de hacer inferencia a partir de componentes muestrales.
Sea el vector aleatorio X´ = [X1, X2,......,Xp] cuya matriz de
covarianzas ΣΣΣΣ tiene valores propios λλλλ1 ≥≥≥≥ λλλλ2 ≥≥≥≥ . . . . . ≥≥≥≥ λλλλp ≥≥≥≥
0 .
Consideremos las combinaciones lineales:
23
Y1 = l1´ X = l11 X1 + l21 X2 + . . . + lp1 Xp
Y2 = l2´ X = l12 X1 + l22 X2 + . . . + lp2 Xp
. .
. .
. .Yp = lp´ X = l1p X1 + l2p X2 + . . . + lpp Xp
Var (Yk) = lk´ ΣΣΣΣ lk
Cov (Yk ,Yk’ ) = lk´ ΣΣΣΣ lk’
k,k’ = 1, 2, ... , p
Primera componente principal :
aquella combinación l1´ X que maximiza Var (Y1) = l1´ ΣΣΣΣ l1
sujeto a l1´l1 = 1
Segunda componente principal:
aquella combinación l2´ X que maximiza Var (Y2 ) = l2´ ΣΣΣΣ l2
sujeto a l2´l2 = 1 y Cov (l1´ X , l2´ X = 0)
k-ésima componente principal:
aquella combinación lk´ X que maximiza Var (Yk ) = lk´ ΣΣΣΣ lk
sujeto a lk´lk = 1 y Cov (lk´ X , lk’´ X ) = 0 para k’ < k
Resultado 1Resultado 1 :: sea ΣΣΣΣ la matriz de covarianza asociada con el
vector aleatorio X´ = [X1, X2,......,Xp] (ΣΣΣΣ = 1/n Xc´Xc donde Xc
matriz centrada por la media de las columnas) con los
pares autovalores-autovectores (λλλλ1 , e1), (λλλλ2 , e2), ..... , (λλλλp ,
ep) donde λλλλ1 ≥≥≥≥ λλλλ2 ≥≥≥≥ ...... ≥≥≥≥ λλλλp ≥≥≥≥ 0.
El k-ésimo componente principal está dado por:
Yk = lk´ X = e1k X1 + e2k X2 + . . . + epk Xp
Con: Var (Yk) = ek´ ΣΣΣΣ ek = λλλλk y Cov (Yk , Yk’ ) = ek´ ΣΣΣΣ ek’ = 0
Es decir, llamando P a la matriz de autovectores, la matriz
de c.p. viene dada por Ynxp = Xnxp . Ppxp
24
Resultado 2Resultado 2 :: sea X´ = [X1, X2,......,Xp] con matriz de
covarianza ΣΣΣΣ y pares valor propio-vector propio (λλλλ1 , e1),
(λλλλ2 , e2), ....... , (λλλλp , ep) donde λλλλ1 ≥≥≥≥ λλλλ2 ≥≥≥≥ ...... ≥≥≥≥ λλλλp ≥≥≥≥ 0 y sean
Y1 = e1 X ; Y2 = e2 X ;...... ; Yp = ep X las componentes
principales correspondientes, entonces :
σσσσ11 + σσσσ22 + .... + σσσσpp = = λλλλ1 + λλλλ2 + .... + λλλλp =∑∑∑∑p
=1i
i )Var(X ∑∑∑∑p
=1i
i )Var(Y
p
kλλλλλλλλλλλλ
λλλλ
++++++++++++====
....I
21
k
• Representación gráfica de autovalores
• Probar la hipótesis que a partir de la cp m+1 las dimensiones son esféricas (Test de Anderson)
• Hallar intervalos de confianza de autovalores (SPAD)
• Descomponer la variabilidad total en forma aleatoria. Las m primeras cp son significativas si explican mayor varianza acumulada (Test del bastón roto, NTSYS)
Resultado 3Resultado 3 :: si Y1 = e1 X , Y2 = e2 X , ...... , Yp = ep X son las componentes principales obtenidas de la matriz de
covarianzas ΣΣΣΣ, entonces:
ρρρρYk,Xk’ = k , k’ = 1, 2, .... , p
son los coeficientes de correlación entre las componentes
Yk y las variables Xk’ . Donde (λλλλ1 , e1), (λλλλ2 , e2), ....... , (λλλλp , ep) son los pares autovalores-autovectores de la matriz ΣΣΣΣ
Esto permite analizar la importancia del aporte de cada variable original a las distintas cp gradientes
2'
'
k
kkke
σσσσ
λλλλ
25
El ACP también puede realizarse a partir de variables
estandarizadas Z esto equivale a trabajar sobre la matriz
de correlaciones ρρρρ en lugar de la matriz de covarianzas ΣΣΣΣ.
Resultados son diferentes.
Cuando conjunto de variables originales es heterogéneo
en cuanto a las magnitudes que representan.
Tres aspectos son importantes de resaltar en el caso de
utilizar la matriz de correlaciones:
∑∑∑∑p
=1k
k )Var(Z ∑∑∑∑p
=1k
)Var( kY ∑∑∑∑p
j=1
Jλλλλ== = p
pk
kλλλλ====I
kkkZY ekk
λλλλρρρρ ''====
Ejemplo:
X
Y
A B
C D
0
1
2
3
4
5
0 1 2 3 4 5 6
Ind. X Y
A 1 1 B 2 1 C 3 4 D 5 4
dAB=1
d BC=3
.16
dCD=2
A B C D
A B C D
Según eje X: A B C D
Según eje Y: AB CD
26
====
50.2
75.2xr
====∑∑∑∑
35.2
5.29167.2
Análisis de Componentes Principales
1) Hallar matriz de varianzas-covarianzas (correlación)
2) Hallar autovalores
Raíces de ecuación característica: |A-λλλλI|=0
−−−−
−−−−====
−−−−
λλλλ
λλλλ
λλλλ
λλλλ
35,2
5,29167,2
0
0
35.2
5.29167.2
025,6)3).(9167,2(I.A ====−−−−−−−−−−−−====−−−− λλλλλλλλλλλλ
2) Hallar autovectores
11 pxpxpxp eerr
⋅⋅⋅⋅====⋅⋅⋅⋅ λλλλA
====
−−−−
12
111
12
11
35.2
5.29167.2
e
e
e
eλλλλ Sujeto a la restricción que |e1| = 1
3) Obtener las coordenadas de los individuos en el nuevo espacio dado por los autovectores
Ynxp = Xnxp . Ppxp
CP1
CP
2
A
B
C
D
-1
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
Ind. CP1 CP1
A 1.4142 0.0118
B 2.1154 0.7248
C 4.9556 -0.6658
D 6.3580 0.7602
Análisis de Componentes Principales
0 A B C D
0.7012 2.8402 1.4024
% de explicación:
CP1 92.26 %
CP2 7.74 %A B C D
27
EigenvaluesEigenvaluesEigenvaluesEigenvalues ofofofof thethethethe CorrelationCorrelationCorrelationCorrelation MatrixMatrixMatrixMatrix
EigenvalueEigenvalueEigenvalueEigenvalue DifferenceDifferenceDifferenceDifference ProportionProportionProportionProportion CumulativeCumulativeCumulativeCumulative
PRIN1 7.13205 5.06989 PRIN1 7.13205 5.06989 PRIN1 7.13205 5.06989 PRIN1 7.13205 5.06989 0.5486190.5486190.5486190.548619 0.5486190.5486190.5486190.548619
PRIN2 2.06216 0.83534 PRIN2 2.06216 0.83534 PRIN2 2.06216 0.83534 PRIN2 2.06216 0.83534 0.1586280.1586280.1586280.158628 0.7072470.7072470.7072470.707247
PRIN3 1.22683 0.21542 0.0943PRIN3 1.22683 0.21542 0.0943PRIN3 1.22683 0.21542 0.0943PRIN3 1.22683 0.21542 0.094371 0.80161871 0.80161871 0.80161871 0.801618
PRIN4 1.01140 0.46089 0.0778PRIN4 1.01140 0.46089 0.0778PRIN4 1.01140 0.46089 0.0778PRIN4 1.01140 0.46089 0.077800 0.87941900 0.87941900 0.87941900 0.879419
PRIN5 0.55051 . 0.0423PRIN5 0.55051 . 0.0423PRIN5 0.55051 . 0.0423PRIN5 0.55051 . 0.042347 0.92176647 0.92176647 0.92176647 0.921766
EigenvectorsEigenvectorsEigenvectorsEigenvectors
PRIN1 PRIN2 PRIN3 PRIN1 PRIN2 PRIN3 PRIN1 PRIN2 PRIN3 PRIN1 PRIN2 PRIN3 PRIN4 PRIN5PRIN4 PRIN5PRIN4 PRIN5PRIN4 PRIN5
TAMFLOR 0.243872 0.330149 0.050559 TAMFLOR 0.243872 0.330149 0.050559 TAMFLOR 0.243872 0.330149 0.050559 TAMFLOR 0.243872 0.330149 0.050559 0.007045 0.007045 0.007045 0.007045 ----.752103.752103.752103.752103
LONGPET 0.280155 0.386948 LONGPET 0.280155 0.386948 LONGPET 0.280155 0.386948 LONGPET 0.280155 0.386948 ----.051192 .051192 .051192 .051192 ----.192619 0.041976.192619 0.041976.192619 0.041976.192619 0.041976
ANCHOPET 0.266897 0.426974 0.010109 ANCHOPET 0.266897 0.426974 0.010109 ANCHOPET 0.266897 0.426974 0.010109 ANCHOPET 0.266897 0.426974 0.010109 ----.000630 0.019258.000630 0.019258.000630 0.019258.000630 0.019258
SUPHOJA SUPHOJA SUPHOJA SUPHOJA ----.037729 0.481380 .037729 0.481380 .037729 0.481380 .037729 0.481380 ----.169932 0.586039 0.391447.169932 0.586039 0.391447.169932 0.586039 0.391447.169932 0.586039 0.391447
LONANCHO 0.203116 LONANCHO 0.203116 LONANCHO 0.203116 LONANCHO 0.203116 ----.215375 .215375 .215375 .215375 ----.365132 .365132 .365132 .365132 ----.476528 0.158226.476528 0.158226.476528 0.158226.476528 0.158226
PECLIMBO PECLIMBO PECLIMBO PECLIMBO ----.048029 .048029 .048029 .048029 ----.198243 0.759026 0.199564 0.012081.198243 0.759026 0.199564 0.012081.198243 0.759026 0.199564 0.012081.198243 0.759026 0.199564 0.012081
PESOF 0.322579 PESOF 0.322579 PESOF 0.322579 PESOF 0.322579 ----.272575 .272575 .272575 .272575 ----.135722 0.253979 .135722 0.253979 .135722 0.253979 .135722 0.253979 ----.107331.107331.107331.107331
LONGF 0.335538 LONGF 0.335538 LONGF 0.335538 LONGF 0.335538 ----.161639 .161639 .161639 .161639 ----.009013 0.251496 .009013 0.251496 .009013 0.251496 .009013 0.251496 ----.190213.190213.190213.190213
ANCHOF 0.321516 ANCHOF 0.321516 ANCHOF 0.321516 ANCHOF 0.321516 ----.278051 .278051 .278051 .278051 ----.108757 0.235796 .108757 0.235796 .108757 0.235796 .108757 0.235796 ----.076056.076056.076056.076056
ESPESORF 0.312375 ESPESORF 0.312375 ESPESORF 0.312375 ESPESORF 0.312375 ----.231736 .231736 .231736 .231736 ----.189800 0.305931 0.169229.189800 0.305931 0.169229.189800 0.305931 0.169229.189800 0.305931 0.169229
PESOEND 0.327209 0.043442 0.312993 PESOEND 0.327209 0.043442 0.312993 PESOEND 0.327209 0.043442 0.312993 PESOEND 0.327209 0.043442 0.312993 ----.140426 0.247572.140426 0.247572.140426 0.247572.140426 0.247572
LONGEND 0.334962 0.084390 0.233786 LONGEND 0.334962 0.084390 0.233786 LONGEND 0.334962 0.084390 0.233786 LONGEND 0.334962 0.084390 0.233786 ----.179597 0.102962.179597 0.102962.179597 0.102962.179597 0.102962
ANCHOEND 0.330091 0.033250 0.193461 ANCHOEND 0.330091 0.033250 0.193461 ANCHOEND 0.330091 0.033250 0.193461 ANCHOEND 0.330091 0.033250 0.193461 ----.153549 .153549 .153549 .153549 ----.153549.153549.153549.153549
CP 1
CP
2
BLANCO
BULIDA
CANINO
CANINO.T
CHIRIVEL
CORBATOCRISTALI
CURROTCURROT.TGABACHET
GANDIA GINESTA
MANRI
MARTINET
PALABRAS
PALAU
R.CARLET
TADEO
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
GRUPO 5
GRUPO 1
GRUPO 2GRUPO 4
GRUPO 3
GRUPO 6
Tamaño de la
flor
Tamaño del fruto
Tam
año
d
e l
a h
oja
Tamaño endocarpio
ACP: representación de variedades en plano principal
% variabilidad explicada: 54.86 y 15.86 %
Frutos muy grandes
Endocarpios grandesFlores medianas
Hojas pequeñas
Aplicando ACP antes de un ANOVA
PROBLEMAS AL APLICAR ANOVA
Falta de homocedasticidad para algunas variables
Resultados dispares según variable de respuesta
17 VARIABLES DE RESPUETADARDOS0 DARDOS1 DARDOS2 DARDOS3 DARDOS4 FRUTCM1 FRUTRAM FRUTCM2 DIFRUTPESO2 PESO3 LARGO DIAM LARDIAM PRESION SS SEM
24 INDIVIDUOS (4 tratamientos: 1 testigo y 3 raleadores)
28
% total Cumul. Cumul.
Value Eigenval Variance Eigenval %
1 8.193095 48.19467 8.19309 48.19467
2 3.435072 20.20631 11.62817 68.40098
3 1.561161 9.18330 13.18933 77.58428
Variable CP1 CP2 CP3
DARDOS0 .109720 .096119 .005036
DARDOS1 -.079654 .104822 .268857
DARDOS2 -.106932 -.097685 -.086394
DARDOS3 -.063827 -.224304 -.157574
DARDOS4 -.030442 -.236048 -.175028
FRUTCM1 -.106776 -.065498 .050377
FRUTRAM -.074096 -.077875 -.304150
FRUTCM2 -.104133 .077411 -.120704
PESO2 .097530 -.046629 -.168220
DIFRUT -.009910 -.209302 .362950
PESO3 .108212 -.076287 -.083136
LARGO .108983 -.093621 -.018494
DIAM .103472 -.090323 -.178730
LARDIAM .062825 -.048158 .352233
PRESION .069652 .043021 -.095199
SS .082453 -.102391 .005068
SEM -.000417 .235774 -.251618
Factor 1
Fa
cto
r 2
DARDOS0DARDOS1
DARDOS2
DARDOS3 DARDOS4
FRUTCM1 FRUTRAM
FRUTCM2
PESO2
DIFRUT
PESO3LARGODIAM
LARDIAM
PRESION
SS
SEM
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2
Representacion de variables en Plano Principal
29
FACTOR1
FA
CT
OR
2
ANACY
ANACY
ANACY
ANACY
ANACY
ANACY
C140C140C140
C140
C140 C140
C180 C180
C180
C180
C180
C180Testigo
Testigo
TestigoTestigo
Testigo
Testigo
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Representacion de individuos en Plano Principal
RALEO
CALIDAD FRUTO (presión, tamaño, forma, SS)
CA
IDA
TA
RD
IA
SE
MIL
LA
ANANÁÁLISIS DE COORDENADAS PRINCIPALESLISIS DE COORDENADAS PRINCIPALES
Así como el análisis de componentes principales es adecuado para variables cuantitativas, cuando las variables son cualitativas es apropiado un tipo de análisis diferente, tal como el de Coordenadas Principales
En estos casos es necesario construir un equivalente a las matrices de covarianza o correlación entre individuos, y estas son las matrices de similaridad
El análisis de coordenadas principales no es más que un Análisis de Componentes Principales aplicado a una tabla de datos compatibles con la distancia
d2ij = sii + sjj - 2 sij
La representación geométrica de los n indviduos es a través de esta distancia que respeta la estructura de la matriz de similaridades.
Aquí el nuevo sistema de ejes no representa direcciones dado el carácter cualitativo de las variables originales.
30