Download - Universidad Nacional de La Plata - Aula Virtual · 2009-10-30 · PEÑA, D. (2002). Análisis de Datos Multivariantes. Madrid: McGraw Hills/Interamericana de España. Definición

1

DISEDISEÑÑO EXPERIMENTALO EXPERIMENTAL(Modelos Multivariados)(Modelos Multivariados)

Universidad Nacional de La PlataUniversidad Nacional de La Plata

Facultad de Ciencias Agrarias y ForestalesFacultad de Ciencias Agrarias y Forestales

UNIDAD 3: Técnicas Multivariadas de Agrupamiento y

Ordenación. Problemas de interpretación de muchas

variables con gran volumen de datos. Principales

estrategias descriptivas del análisis multivariado de datos.

Medidas de similaridad (asociación) y de disimilaridad

(distancias). Criterios de reducción de la dimensión original

del problema. Métodos de ordenación: análisis de

componentes principales y análisis de coordenadas

principales. Criterios de agrupamiento de datos: análisis de

conglomerados jerárquicos (análisis de cluster -

dendogramas). Estrategias de ligamiento (linkage).

CLASE FECHA TEMA DOCENTES

13 Martes

03 Nov

Introducción al Análisis Multivariado. Medidas de

similaridad (asociación) y de disimilaridad (distancias).

Propiedades. Análisis de conglomerados jerárquicos:

clusters. Estrategias de ligamiento (linkage).

14 Viernes

06 Nov Práctica

15 Martes

10 Nov PARCIAL 2: REGRESION

16 Viernes

13 Nov

Métodos para la reducción de la dimensión de los

datos o de ordenación. Análisis de Componentes

Principales. Representación de individuos y variables

en el plano factorial. Interpretación de gradientes.

17 Martes

17 Nov

Análisis de Coordenadas principales. Finalización

práctica

18 Viernes

27 Nov PARCIAL 3: MULTIVARIADO

Sergio BRAMARDI

Sarah BURNS

2

Introducción al Análisis Multivariado

Datos Multivariados

Estudio Descriptivo de Variables

Estudio Descriptivo de Individuos

Distancias Estadísticas

Métodos de Clasificación (Cluster)

Métodos de Ordenación (ACP y ACoordP)

TEMARIO MODULO IIITEMARIO MODULO III

Bibliografía de Referencia

CUADRAS, C. M. (1996). Métodos de análisis multivariante. Barcelona : EUB, S.L

JOHNSSON, D. E. (2000). Métodos multivariados aplicados al análisis de datos. México: International Thomson Editores.

PEÑA, D. (2002). Análisis de Datos Multivariantes. Madrid: McGraw Hills/Interamericana de España.

Definición Análisis Multivariado

El Análisis Multivariado puede definirse como el

conjunto de técnicas cuyo objetivo es el análisis

descriptivo y/o la realización de inferencias a

partir de datos de naturaleza multivariada, es

decir, en los que cada observación está

constituida por los valores de varias variables

interrelacionadas

3

Orígenes 1901 (Pearson) - 1904 (Spearman)

Gran desarrollo a partir del uso generalizado de las computadoras

Aplicación en los más diversos ámbitos

Carácter desestructurado, desarrollo de técnicas y métodos a través de tres escuelas (enfoques)

Gran cantidad y variedad de métodos con un origen teórico distinto puede producir una sensación de confusión al que se

introduce por primera vez a estas técnicas


Datos Multivariados







Datos Multivariados

Se presentan en forma de matriz nxp

X = xij i = 1, 2, .... , n

j = 1, 2, .... , p

====

444241

333231

232221

131211

xxx

xxx

xxx

xxx

X [[[[ ]]]]321 xxxrrr

====

4

TAMFLOR LONGPET ANCHOPET SUPHOJA LONANCHO PECLIMBO PESOF LONGF ANCHOF ESPESORF PESOEND LONGEND ANCHOEND

--------------------------------------------------------------------------------------------------------------------

BLANCO | 33.26 13.90 18.32 44.09 1.05 0.41 49.29 46.34 44.93 45.40 4.31 31.07 24.18

BULIDA | 26.84 13.44 15.88 36.67 1.11 0.39 49.00 44.58 45.09 43.38 2.57 25.26 20.34

CURROT.T | 28.84 12.68 15.44 51.72 0.91 0.39 43.04 40.06 43.54 42.97 1.62 20.13 17.62

CANINO | 27.52 12.32 14.28 36.04 1.00 0.45 66.79 51.30 50.80 49.10 3.42 23.77 21.21

CANINO.T | 33.88 14.40 16.40 38.97 1.06 0.31 63.11 50.70 49.22 46.82 3.34 29.09 22.86

CHIRIVEL | 26.32 13.36 15.04 41.28 0.99 0.41 43.80 40.29 42.51 44.55 3.46 23.90 22.52

CORBATO | 30.63 13.79 17.04 42.06 0.99 0.38 39.63 39.71 41.06 40.79 1.88 19.66 20.31

CRISTALI | 27.60 13.68 17.40 53.33 1.08 0.34 44.98 40.10 42.25 46.89 2.58 20.76 19.13

CURROT | 28.80 12.32 15.24 50.01 0.88 0.41 40.77 42.54 39.94 41.77 1.52 17.97 17.57

GABACHET | 29.60 12.28 14.40 40.14 0.99 0.41 21.44 29.63 33.16 32.84 1.20 15.32 14.28

GANDIA | 24.68 10.68 12.36 39.31 1.00 0.44 38.75 37.00 41.40 40.46 1.49 18.29 16.99

GINESTA | 25.04 11.32 12.24 33.53 1.04 0.37 40.96 37.38 41.97 42.66 1.97 19.40 18.98

MANRI | 24.08 13.20 15.48 36.88 1.02 0.42 39.39 36.14 41.05 41.62 2.02 20.01 19.36

MARTINET | 35.00 14.40 18.24 36.94 1.02 0.44 54.70 49.33 47.54 47.00 4.55 31.34 22.83

PALABRAS | 27.36 12.00 13.84 34.13 0.99 0.38 44.65 42.37 41.30 44.12 1.40 17.12 17.66

PALAU | 29.34 12.56 14.63 42.03 1.02 0.40 39.65 37.40 41.39 41.43 1.53 18.49 17.73

R.CARLET | 30.49 13.29 16.49 41.55 0.99 0.41 47.16 39.42 44.13 43.61 2.25 21.41 20.19

TADEO | 31.72 13.43 17.08 38.51 1.16 0.40 74.16 51.55 55.54 54.34 2.78 23.16 20.45

18 variedades de damasco (Prunus armeniaca)

Fuente: Badenes et al (1993). Caracterización pomológica de variedades y clones de albaricoquero. Investigación Agraria, Producción y Protección Vegetales, 8: 55-65.


Datos Multivariados







OPERACIONES CON MATRICES

Producto:

Sea M = y N =

El producto M*N es:

3231

2221

1211

aa

aa

aa

2221

1211

bb

bb

3231

2221

1211

cc

cc

cc

3x22x2

∑∑∑∑====

⋅⋅⋅⋅====p

kkjjkij bac

1

5

Estudio descriptivo de las variables

Vector de medias:

144x343332313

42322212

41312111

1

1

1

1

1

x

xxxx

xxxx

xxxx

n

••••

====1X'.1 rr

nx ====

====

∑∑∑∑

∑∑∑∑

∑∑∑∑

====

====

====

n

ii

n

ii

n

ii

x

x

x

n

13

12

11

1

====

3

2

1

x

x

x

Para datos cuantitativos importante relación entrevariables matriz de varianzas-covarianzas (pxp)

2

2

2

S

SS

SSS

z

yzy

xzxyx

S =

pxp

Matriz de varianzas-covarianzas:

11

)(S 1

2

12

1

2

2

−−−−

−−−−

====−−−−

−−−−

====∑∑∑∑

∑∑∑∑∑∑∑∑

====

====

====

n

n

x

x

n

xxn

i

n

ii

i

n

ii

x

1

.

1

)).((S 1

11

1

−−−−

⋅⋅⋅⋅

−−−−

====−−−−

−−−−−−−−

====∑∑∑∑

∑∑∑∑∑∑∑∑∑∑∑∑

====

========

====

n

n

yx

yx

n

yyxxn

i

n

ii

n

ii

ii

n

iii

xy

1

r1

rr1

yz

xzxy

r =

pxp

Matriz de correlaciones:

22 SS

Sr

yx

xy

xy

⋅⋅⋅⋅====

Si en lugar de trabajar con los datos estadarizados por las medias, estandarizamos por media y desvío

estándar Matriz de Correlación

6

Sea el vector ‘variable’

====

4

3

2

1

x

x

x

x

xr

4x1

Si estandarizamos el vector por su media (centrar)

Obtención matricial de matriz de variazas-covarianzas

[[[[ ]]]] ∑∑∑∑====

====

∗∗∗∗====∗∗∗∗4

1

2

4

3

2

1

4321'i

ix

x

x

x

x

xxxxxxrr

−−−−

−−−−

−−−−

−−−−

====

xx

xx

xx

xx

x

4

3

2

1

cr

xxn

xxxx xi

i

rrrr∗∗∗∗

−−−−====⇒⇒⇒⇒−−−−====∗∗∗∗ ∑∑∑∑

====

'1

1S)(' 2

4

1

2

yxn

yyxxyx xyi

ii

rrrr∗∗∗∗

−−−−====⇒⇒⇒⇒−−−−−−−−====∗∗∗∗ ∑∑∑∑

====

'1

1S)).(('

4

1

x33X

2XXX

2XXXXX

2

3

322

31211

S

SS

SSS

11

====−−−−

X'.Xn

3x4343242141

333232131

323222121

313212111

4x3243233223213

242232222212

141131121111

−−−−−−−−−−−−

−−−−−−−−−−−−

−−−−−−−−−−−−

−−−−−−−−−−−−

••••

−−−−−−−−−−−−−−−−

−−−−−−−−−−−−−−−−

−−−−−−−−−−−−−−−−

====

xxxxxx

xxxxxx

xxxxxx

xxxxxx

xxxxxxxx

xxxxxxxx

xxxxxxxx

X'.X

Si en lugar de trabajar con los datos estadarizados por las medias, estandarizamos por media y desvío

estándar Matriz de Correlación

7

TAMFLOR LONGPET ANCHOPET SUPHOJA LONANCHO PECLIMBO PESOF LONGF ANCHOF ESPESORF PESOEND LONGEND ANCHOEND

TAMFLOR 1,00 0,69 0,73 0,12 0,15 -0,17 0,40 0,53 0,40 0,31 0,54 0,62 0,47

LONGPET 0,69 1,00 0,92 0,18 0,34 -0,31 0,40 0,48 0,40 0,40 0,66 0,71 0,70

ANCHOPET 0,73 0,92 1,00 0,35 0,29 -0,14 0,37 0,47 0,38 0,42 0,61 0,65 0,60

SUPHOJA 0,12 0,18 0,35 1,00 -0,37 -0,19 -0,21 -0,15 -0,21 -0,07 -0,13 -0,12 -0,15

LONANCHO 0,15 0,34 0,29 -0,37 1,00 -0,26 0,51 0,38 0,54 0,52 0,38 0,40 0,37

PECLIMBO -0,17 -0,31 -0,14 -0,19 -0,26 1,00 -0,07 -0,06 -0,02 -0,10 0,09 -0,03 -0,06

PESOF 0,40 0,40 0,37 -0,21 0,51 -0,07 1,00 0,94 0,99 0,94 0,62 0,62 0,65

LONGF 0,53 0,48 0,47 -0,15 0,38 -0,06 0,94 1,00 0,90 0,87 0,71 0,74 0,72

ANCHOF 0,40 0,40 0,38 -0,21 0,54 -0,02 0,99 0,90 1,00 0,93 0,62 0,64 0,65

ESPESORF 0,31 0,40 0,42 -0,07 0,52 -0,10 0,94 0,87 0,93 1,00 0,62 0,57 0,65

PESOEND 0,54 0,66 0,61 -0,13 0,38 0,09 0,62 0,71 0,62 0,62 1,00 0,94 0,91

LONGEND 0,62 0,71 0,65 -0,12 0,40 -0,03 0,62 0,74 0,64 0,57 0,94 1,00 0,91

ANCHOEND 0,47 0,70 0,60 -0,15 0,37 -0,06 0,65 0,72 0,65 0,65 0,91 0,91 1,00

Matriz de Correlación archivo Damasco

TAMFLOR

LONGPET

ANCHOPET

SUPHOJA

LONANCHO

PECLIMBO

PESOF

LONGF

ANCHOF

ESPESORF

PESOEND

LONGEND

ANCHOEND

TA

MF

LO

R

LO

NG

PE

T

AN

CH

OP

ET

SU

PH

OJA

LO

NA

NC

HO

PE

CLIM

BO

PE

SO

F

LO

NG

F

AN

CH

OF

ES

PE

SO

RF

PE

SO

EN

D

LO

NG

EN

D

AN

CH

OE

ND

-03

-02

-01

00

01

02

03

8


Datos Multivariados







Representación mediante figuras: figuras planas asociando el valor de cada variable a una característica del gráfico (gráficos de estrellas, caras de Chernoff)

Métodos Multivariados de Caracterización

Estudio descriptivo de los individuos

Clockwise:

TAMFLOR

LONGPET

ANCHOPET

SUPHOJA

LONANCHO

PECLIMBO

PESOF

LONGF

ANCHOF

ESPESORF

PESOEND

LONGEND

ANCHOEND

BLANCO BULIDA CANINO CANINO.T CHIRIVEL

CORBATO CRISTALI CURROT CURROT.T GABACHET

GANDIA GINESTA MANRI MARTINET PALABRAS

PALAU R.CARLET TADEO

FLOR

HOJA

FRUTO

CAROZO

9

npnk2n1n

ipik2i1i

p2k22221

1pk11211

......

......

......

......

xxxx

xxxx

xxxx

xxxx

MMMM

MMMM

nxp

0

...0

......0

......0

in

n2i2

1ni112

O

MO

d

dd

ddd

nxn

1

...1

......1

......1

kp

p2k2

1pk112

O

MO

r

rr

rrr

pxp

0

...0

......0

......0

in

n2i2

1ni112

O

MO

d

dd

ddd

Métodos de Ordenación

Permiten la representación geométrica de los individuos en dimensión reducida de modo que se expresen sus diferencias y analogías de la mejor forma posible.

Métodos de Clasificación

Se persigue la búsqueda de grupos similares, lo más homogéneos posibles, en los cuales se clasificarán los individuos a analizar.

METODOS DE CARACTERIZACION


Datos Multivariados







10

DISTANCIAS ESTADDISTANCIAS ESTADÍÍSTICASSTICAS

Semejanza entre individuos

Similaridad, proximidad, disimilaridad, distancia, asociación

Distancia dij Similaridad sij

Matriz de datos Xnxp

Matriz de asociación (nxn)

dij = 1 - sij

dij = (1 - sij)1/2

dij = -log sij

dij = 1/sij - 1

DATOS CUANTITATIVOSDATOS CUANTITATIVOS

1. Distancia Euclidea

∑∑∑∑====

−−−−====p

1kjkikij xxd 2)(

X

Y

yj

yi

xi xj

Pi

Pj

22 )()( jijiij yyxxd −−−−++++−−−−====

Importancia de la estandarización de datos

Individuo Altura (Mts) Peso (Kgs)

1 1.55 62 . . . .

. . . . . . . .

i 1.80 80 j 1.77 78 k 1.62 79 . . . .

. . . . . . . .

n 1.86 90

dij

djk

0002.2203.0)7880()77.180.1( 2222 ====++++====−−−−++++−−−−====ijd

0111.1115.0)7978()62.177.1( 2222 ====++++====−−−−++++−−−−====jkd

11

Individuo Altura (cm) Peso (kg)

1 155 62 . . . .

. . . . . . . .

i 180 80 j 177 78 k 162 79 . . . .

. . . . . . . .

n 186 90

Individuo Altura Stan. Peso Stan.

1 5.00 2.21 . . . .

. . . . . . . .

i 5.81 2.86 j 5.71 2.79 k 5.23 2.82 . . . .

. . . . . . . .

n 6.00 3.21

60.323)7880()177180( 2222 ====++++====−−−−++++−−−−====ijd

03.15115)7978()162177( 2222 ====++++====−−−−++++−−−−====jkd

122.007.010.0)79.286.2()71.581.5( 2222 ====++++====−−−−++++−−−−====ijd

481.003.048.0)82.279.2()23.571.5( 2222 ====++++====−−−−++++−−−−====jkd

2. Distancia de Manhattan

∑∑∑∑====

−−−−====p

kjkikij xxd

1

||

∑∑∑∑====

−−−−====

p

k k

jkik

ijr

xx

pd

1

||1

∑∑∑∑====

−−−−====

p

k k

jkik

ij

xx

pd

12

2

r

)(1∑∑∑∑

====

−−−−====

p

1k k

jkik

ij

xxd 2

2

s

)(

1 0

1 a b

0 c d

Individuo j

Individuo i

a + b + c + d = p

sij = 1 si a + d = p

sij = 0 si c + b = p

DATOS BINARIOS

Sexo - Presencia/ausencia de manchas en frutos – Es fumador -

Resistencia a enfermedades – Mayor de edad

1. Coeficiente de similaridad de Emparejamiento Simple(Sokal y Michener, 1958)

Con simetría entre a y d

dcba

dasij

++++++++++++

++++====

12

2. Coeficiente de Jaccard (1908)

Nacionalidad argentina – Presencia de especies

cba

asij

++====

Sin simetría entre a y d

DATOS CUALITATIVOSDATOS CUALITATIVOS

Extensión Coeficiente Similaridad S.M.

Nº caracteres coincidentes

Nº total de caracteresSij =

¿ Qué sucede cuando tenemos para un mismo conjunto de individuos variables cuanti y cualitativas ?

13

Coeficiente de similaridad general de Gower (1971)

En la situación más simple cuando se comparan los individuos i y j para el carácter k, si éste se trata de una variable binaria o cualitativa, se asigna valor uno a sijk si xik y xjk son iguales, y cero si son diferentes.

Si la variable es cuantitativa la similaridad entre los individuos estará dada por:

k

jkik

ijk

xx

r

||1s

−−−−−−−−====

∑∑∑∑====

====p

kijkij s

ps

1

1

321

p

k k

jkik

jppp

daxx

s++++++++

++++++++++++

−−−−−−−−

====

∑∑∑∑====

1

1i

r

||1 αααα

p1 es el número de variables continuasrk rango de la k-ésima variable continuap2 número de variables binarias a número de coincidencias en 1 de las variables binariasd número de coincidencias en 0 de las variables binarias (p2 - d)p3 número de variables cualitativas

αααα número de coincidencias de las variables cualitativas

BLANCO BULIDA CURROT.T CANINO CANINO.T CHIRIVEL CORBATO CRISTALI CURROT GABACHET GANDIA GINESTA MANRI MARTINET PALABRAS PALAU R.CARLET TADEO

------------------------------------------------------------------------------------------------------------------------------------------------------------------

BLANCO | 0.00

BULIDA | 4.04 0.00

CURROT.T | 5.86 4.67 0.00

CANINO | 4.93 3.88 5.58 0.00

CANINO.T | 3.94 4.35 6.33 5.46 0.00

CHIRIVEL | 3.86 2.74 3.77 3.88 5.13 0.00

CORBATO | 4.55 3.27 2.92 5.49 5.16 2.98 0.00

CRISTALI | 4.90 3.83 3.59 6.10 5.06 3.95 3.32 0.00

CURROT | 6.39 5.19 1.41 5.77 7.14 4.11 3.29 4.56 0.00

GABACHET | 8.60 6.50 5.07 8.51 9.34 6.25 4.84 6.60 4.66 0.00

GANDIA | 7.73 5.09 4.35 5.62 8.47 4.71 5.06 6.24 3.98 4.30 0.00

GINESTA | 7.06 3.95 4.69 5.35 6.82 4.06 4.51 5.40 4.82 5.04 2.85 0.00

MANRI | 5.74 2.96 3.78 5.00 6.59 2.63 2.83 4.38 3.87 4.55 3.41 3.15 0.00

MARTINET | 2.00 4.61 6.62 4.62 4.16 4.64 5.30 6.15 7.03 9.23 8.24 7.64 6.32 0.00

PALABRAS | 6.61 3.69 3.69 4.87 6.28 3.88 3.48 4.87 3.64 4.73 3.11 2.07 2.84 6.95 0.00

PALAU | 5.81 3.44 2.65 5.24 6.32 3.38 2.35 3.92 2.82 3.69 3.03 3.04 2.29 6.46 2.24 0.00

R.CARLET | 3.98 2.75 2.77 4.21 4.89 2.30 1.53 3.47 3.24 5.41 4.58 4.23 2.65 4.55 3.27 2.23 0.00

TADEO | 5.12 4.52 6.98 4.13 4.38 5.92 6.30 5.78 7.67 10.01 8.09 7.15 6.76 4.87 6.50 6.55 5.35 0.00

Distancia Euclidea

CURROT-CURROT.T = 1.41

R.CARLET-CORBATO = 1.53

MARTINET-BLANCO = 2.00

1.41

1.53

2.00

14

0

...0

......0

......0

in

n2i2

1ni112

O

MO

d

dd

ddd

Métodos de Ordenación

Permiten la representación geométrica de los individuos en dimensión reducida de modo que se expresen sus diferencias y analogías de la mejor forma posible.

Métodos de Clasificación

Se persigue la búsqueda de grupos similares, lo más homogéneos posibles, en los cuales se clasificarán los individuos a analizar.

CP 1

CP

2

BLANCO

BULIDA

CANINO

CANINO.T

CHIRIVEL

CORBATOCRISTALI

CURROTCURROT.TGABACHET

GANDIA GINESTA

MANRI

MARTINET

PALABRAS

PALAU

R.CARLET

TADEO

-2.5

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5

GRUPO 5

GRUPO 1

GRUPO 2GRUPO 4

GRUPO 3

GRUPO 6

BLANCO

CANINO.T

MARTINET

CANINO

TADEO

BULIDA

CHIRIVEL

R.CARLET

CORBATO

PALAU

GANDIA

GINESTA

MANRI

PALABRAS

CURROT.T

CRISTALI

CURROT

GABACHET

0.00|

12.06|

6.03|

18.09|

Grupo 2

Grupo 6

Grupo 1

Gru

po

s 3

, 4

y 5


Datos Multivariados







ARBOLESARBOLES ULTRAMULTRAMÉÉTRICOSTRICOS(Cluster o dendogramas jerárquicos)

Sistema taxonómico de Lineo

Parte de un conjunto ΩΩΩΩ cuyos elementos (los individuos) deben ser clasificados. Se trata de obtener sucesivas

particiones (“clustering”) C0, C1, ....... de ΩΩΩΩ , organizadas en diferentes niveles jerárquicos, estando cada partición formada por clases disjuntas (“cluster”).

15

PASOS:

1) Matriz de distancias o similaridades donde el elemento genérico dij mide el grado de asociación entre dos taxas i y j

2) Inicialmente cada taxón constituye en sí mismo un cluster

3) Unión sucesiva de pares de taxas o grupos de taxas más cercanas

4) Cuando se unen dos taxas, pierden su identidad individual y son referenciados como un cluster simple

5) A medida que el proceso de agrupación avanza, en cada etapa dos cluster se unen en uno solo

6) El proceso se completa cuando se unen los dos últimos cluster en un único conglomerado que contiene todas las taxas originales

A B C D E

2.3

1.8

1.00.8

0.0

Problema: definir distancia de un individuo a un grupo ya constituido o entre grupos

Representación gráfica: dendograma o árbol

A B C D E

2.3

1.8

1.00.8

0.0

C-D

BA

Por esto se denominan árboles ultramétricos

dij ≤≤≤≤ máx dit , djt

Distancia Ultramétrica

16

Si los datos son en sí mismos ultramétricos, entonces la representación del árbol es exacta.

Pero de las distancias/similaridades vistas ninguna cumple con esta propiedad.

Por lo tanto no pueden ser representados exactamente como un árbol jerárquico, introduciéndose un error por la adecuación de una distancia no ultramétrica a un árbol ultramétrico.

Los algoritmos para la obtención de dendrogramas tienen siempre como primer paso transformar la disimilaridad original en ultramétrica.

Existen diversas formas de realizar tal transformación que da origen a diferentes métodos de construcción de árboles ultramétricos conocidos generalmente como Métodos de Agrupación

Problema:

definir la distancia entre un individuo y un grupo,

o entre dos grupos

Método del Mínimo o Simple (Johnson, 1967):

La distancia entre dos grupos es la distancia entre sus puntos más próximos, es decir:

d*(hk , hi ∪∪∪∪ hj) = mín d(hi,hk) , d(hj,hk)

hi hj

hk

17

Método del Máximo o Completo (Johnson, 1967):

Aquí la deformación del triángulo se hace hasta obtener

que los dos lados iguales coincidan con el mayor de los

lados.

d*(hk , hi ∪∪∪∪ hj) = máx d(hi,hk) , d(hj,hk)

Método del mínimo tiende a aproximar los objetos respecto a las distancias originales

espacio contractivo

crea cluster filamentosos

Método del Máximo tiende a alejar los objetos respecto a las distancias originales

espacio dilatante

cluster esféricos y compactos

Método de la Media

Método de la Mediana

Método del Centroide

espacios conservativos

18

Otro ingrediente es ponderar o no por el número de individuos que contiene

cada grupo

Gran cantidad de combinaciones medida de asociación/método de encadenamiento

Método de UPGMA (Sokal y Michener, 1958):

)h,h(d)h,h(d)hh,h(d*kj

ji

j

ki

ji

ijik

nn

n

nn

n

++++++++

++++====∪∪∪∪

X

AC

B

m

M

c

CORRELACION ENTRE MATRICESCORRELACION ENTRE MATRICES

Estadístico de corr. lineal de Pearson

Matrices de similaridad o distancia

n(n-1)/2

Correlación cofenética caso particular

CRITERIOS DE COMPARACION DE TECNICAS Y/O ESTRATEGIAS

19

Matriz de valores cofenéticos

vs

Matriz de dist/simil que dio origen al dendograma

Mide coherencia del criterio de agrupamiento jerárquico

Comparar matrices cofenéticas correspondiente a distintos criterios de ligamiento

0 ≤≤≤≤ rc ≤≤≤≤ 1

2.3

1.8

1.00.8

0.0

A B C D E

A B C D E

A 0 B 0.8 0C 1.8 1.8 0D 1.8 1.8 1.0 0E 2.3 2.3 2.3 2.3 0

BLANCO

CANINO.T

MARTINET

CANINO

TADEO

BULIDA

CHIRIVEL

R.CARLET

CORBATO

PALAU

GANDIA

GINESTA

MANRI

PALABRAS

CURROT.T

CRISTALI

CURROT

GABACHET

0.00|

12.06|

6.03|

18.09|

Linkage: UPGMADistancia: euclidea estandarizada

20

Ejemplo:

X

Y

A B

C D

0

1

2

3

4

5

0 1 2 3 4 5 6

Ind. X Y

A 1 1 B 2 1 C 3 4 D 5 4

dAB=1

d BC=3

.16

dCD=2

A B C D

Matriz de distancias Euclideasentre individuos

A B C D

A 0,00

B 1,00 0,00

C 3,61 3,16 0,00

D 5,00 4,24 2,00 0,00

====

50.2

75.2xr

====∑∑∑∑

35.2

5.29167.2

0

00.20

24.416.30

00.560.300.10

Método del mínimo

A

B

C

D

A B C D

0

00.20

24.416.30AB

C

D

AB C D

3

2

1

0

A B C D

0

16.30AB

CD

AB CD

0

00.20

16.316.30

16.316.300.10A

B

C

D

A B C D

ORIGINAL MÍNIMO

1.00 3.60 5.00 3.16 4.24 2.00

1.00 3.16 3.16 3.16 3.16 2.00

R=0.9004


Datos Multivariados







21

DEFINICIONES DE ALGEBRA MATRICIAL:

I: Matriz identidad tiene unos en la diagonal y restantes elementos igual a cero. Equivale al 1 del algebra escalar.

A-1: Matriz inversa es aquella que multiplicada por A da la matriz identidad. A*A-1=I

A’: Matriz transpuesta, resulta de intercambiar las filas por las columnas.

|A|: Determinante es una función específica de los elementos de una matriz cuadrada. Para caso de 2x2 es igual a (a11*a22)-(a12*a21)

tr(A): Traza, es la suma de los elementos de la diagonal

Matriz de Rotación:

−−−− θθθθθθθθ

θθθθθθθθ

cos

cos

sen

senAθθθθ = Rθθθθ(X) = X.Aθθθθ

Ind. X Y

A 1 1 B 2 1 C 3 4 D 5 4

45

43

12

11

*

− 01

10 =

−

−

−

−

54

34

21

11

Rotación 90º

Rotación 135º

X

Y

-2

-1

0

1

2

3

4

5

-8 -6 -4 -2 0 2 4 6

90º

* =

45

43

12

11

−−

−

707.0707.0

707.0707.0

−

−−

−

−

707.0364.6

707.0949.4

707.0121.2

0414.1

Matrices Ortonormales

AUTOVALORES Y AUTOVECTORESAUTOVALORES Y AUTOVECTORES

11 pxpxpxp eerr

⋅⋅⋅⋅====⋅⋅⋅⋅ λλλλA

⋅⋅⋅⋅====

⋅⋅⋅⋅

ppppp

p

e

e

e

e

e

e

aa

aa

MMMM

2

1

2

1

1

111

λ

...

...

Raíces de ecuación característica: |A-λλλλI|=0

Autovalores invariantes a transformaciones lineales

Traza y determinante son funciones de los autovalores

Si matriz es simétrica autovectores ortogonales

Autovalores medida de dispersión

Autovectores matrices de rotación

22

ANANÁÁLISIS DE COMPONENTES PRINCIPALESLISIS DE COMPONENTES PRINCIPALES

El objetivo de esta técnica es condensar la información contenida en una variable cuantitativa p-dimensional de respuesta, en un número reducido de nuevas variables no correlacionadas entre si, que son combinación lineal de las variables primitivas y explican el máximo de la inercia o variabilidad total

Se ponen en evidencias agrupamientos detectándose las principales variables responsables.

Supongamos que se cuenta con p mediciones asociadas a igual número de variables o caracteres X1 , X2 , ...... , Xp

sobre un total de n individuos o unidades experimentales presentados en forma de matriz Xnxp con elemento xik que corresponde a la k-ésima característica observada sobre el individuo i .

(i = 1, 2, ..... , n; k = 1, 2, .... , p)

Algebraicamente, las componentes principales serán una combinación lineal de estas p variables aleatorias.

Geométricamente, estas combinaciones lineales representaran un nuevo sistema de coordenadas obtenido por rotación del sistema original.

Las componentes principales dependerán únicamente de

la matriz de covarianzas ΣΣΣΣ (o de la matriz de correlaciones ρρρρ) de X1 , X2 , ...... , Xp.

Su desarrollo no requiere de supuestos acerca de normalidad multivariada de la población, pero esta se requerirá al momento de hacer inferencia a partir de componentes muestrales.

Sea el vector aleatorio X´ = [X1, X2,......,Xp] cuya matriz de

covarianzas ΣΣΣΣ tiene valores propios λλλλ1 ≥≥≥≥ λλλλ2 ≥≥≥≥ . . . . . ≥≥≥≥ λλλλp ≥≥≥≥

0 .

Consideremos las combinaciones lineales:

23

Y1 = l1´ X = l11 X1 + l21 X2 + . . . + lp1 Xp

Y2 = l2´ X = l12 X1 + l22 X2 + . . . + lp2 Xp

. .

. .

. .Yp = lp´ X = l1p X1 + l2p X2 + . . . + lpp Xp

Var (Yk) = lk´ ΣΣΣΣ lk

Cov (Yk ,Yk’ ) = lk´ ΣΣΣΣ lk’

k,k’ = 1, 2, ... , p

Primera componente principal :

aquella combinación l1´ X que maximiza Var (Y1) = l1´ ΣΣΣΣ l1

sujeto a l1´l1 = 1

Segunda componente principal:

aquella combinación l2´ X que maximiza Var (Y2 ) = l2´ ΣΣΣΣ l2

sujeto a l2´l2 = 1 y Cov (l1´ X , l2´ X = 0)

k-ésima componente principal:

aquella combinación lk´ X que maximiza Var (Yk ) = lk´ ΣΣΣΣ lk

sujeto a lk´lk = 1 y Cov (lk´ X , lk’´ X ) = 0 para k’ < k

Resultado 1Resultado 1 :: sea ΣΣΣΣ la matriz de covarianza asociada con el

vector aleatorio X´ = [X1, X2,......,Xp] (ΣΣΣΣ = 1/n Xc´Xc donde Xc

matriz centrada por la media de las columnas) con los

pares autovalores-autovectores (λλλλ1 , e1), (λλλλ2 , e2), ..... , (λλλλp ,

ep) donde λλλλ1 ≥≥≥≥ λλλλ2 ≥≥≥≥ ...... ≥≥≥≥ λλλλp ≥≥≥≥ 0.

El k-ésimo componente principal está dado por:

Yk = lk´ X = e1k X1 + e2k X2 + . . . + epk Xp

Con: Var (Yk) = ek´ ΣΣΣΣ ek = λλλλk y Cov (Yk , Yk’ ) = ek´ ΣΣΣΣ ek’ = 0

Es decir, llamando P a la matriz de autovectores, la matriz

de c.p. viene dada por Ynxp = Xnxp . Ppxp

24

Resultado 2Resultado 2 :: sea X´ = [X1, X2,......,Xp] con matriz de

covarianza ΣΣΣΣ y pares valor propio-vector propio (λλλλ1 , e1),

(λλλλ2 , e2), ....... , (λλλλp , ep) donde λλλλ1 ≥≥≥≥ λλλλ2 ≥≥≥≥ ...... ≥≥≥≥ λλλλp ≥≥≥≥ 0 y sean

Y1 = e1 X ; Y2 = e2 X ;...... ; Yp = ep X las componentes

principales correspondientes, entonces :

σσσσ11 + σσσσ22 + .... + σσσσpp = = λλλλ1 + λλλλ2 + .... + λλλλp =∑∑∑∑p

=1i

i )Var(X ∑∑∑∑p

=1i

i )Var(Y

p

kλλλλλλλλλλλλ

λλλλ

++++++++++++====

....I

21

k

• Representación gráfica de autovalores

• Probar la hipótesis que a partir de la cp m+1 las dimensiones son esféricas (Test de Anderson)

• Hallar intervalos de confianza de autovalores (SPAD)

• Descomponer la variabilidad total en forma aleatoria. Las m primeras cp son significativas si explican mayor varianza acumulada (Test del bastón roto, NTSYS)

Resultado 3Resultado 3 :: si Y1 = e1 X , Y2 = e2 X , ...... , Yp = ep X son las componentes principales obtenidas de la matriz de

covarianzas ΣΣΣΣ, entonces:

ρρρρYk,Xk’ = k , k’ = 1, 2, .... , p

son los coeficientes de correlación entre las componentes

Yk y las variables Xk’ . Donde (λλλλ1 , e1), (λλλλ2 , e2), ....... , (λλλλp , ep) son los pares autovalores-autovectores de la matriz ΣΣΣΣ

Esto permite analizar la importancia del aporte de cada variable original a las distintas cp gradientes

2'

'

k

kkke

σσσσ

λλλλ

25

El ACP también puede realizarse a partir de variables

estandarizadas Z esto equivale a trabajar sobre la matriz

de correlaciones ρρρρ en lugar de la matriz de covarianzas ΣΣΣΣ.

Resultados son diferentes.

Cuando conjunto de variables originales es heterogéneo

en cuanto a las magnitudes que representan.

Tres aspectos son importantes de resaltar en el caso de

utilizar la matriz de correlaciones:

∑∑∑∑p

=1k

k )Var(Z ∑∑∑∑p

=1k

)Var( kY ∑∑∑∑p

j=1

Jλλλλ== = p

pk

kλλλλ====I

kkkZY ekk

λλλλρρρρ ''====

Ejemplo:

X

Y

A B

C D

0

1

2

3

4

5

0 1 2 3 4 5 6

Ind. X Y

A 1 1 B 2 1 C 3 4 D 5 4

dAB=1

d BC=3

.16

dCD=2

A B C D

A B C D

Según eje X: A B C D

Según eje Y: AB CD

26

====

50.2

75.2xr

====∑∑∑∑

35.2

5.29167.2

Análisis de Componentes Principales

1) Hallar matriz de varianzas-covarianzas (correlación)

2) Hallar autovalores

Raíces de ecuación característica: |A-λλλλI|=0

−−−−

−−−−====

−−−−

λλλλ

λλλλ

λλλλ

λλλλ

35,2

5,29167,2

0

0

35.2

5.29167.2

025,6)3).(9167,2(I.A ====−−−−−−−−−−−−====−−−− λλλλλλλλλλλλ

2) Hallar autovectores

11 pxpxpxp eerr

⋅⋅⋅⋅====⋅⋅⋅⋅ λλλλA

====

−−−−

12

111

12

11

35.2

5.29167.2

e

e

e

eλλλλ Sujeto a la restricción que |e1| = 1

3) Obtener las coordenadas de los individuos en el nuevo espacio dado por los autovectores

Ynxp = Xnxp . Ppxp

CP1

CP

2

A

B

C

D

-1

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

Ind. CP1 CP1

A 1.4142 0.0118

B 2.1154 0.7248

C 4.9556 -0.6658

D 6.3580 0.7602

Análisis de Componentes Principales

0 A B C D

0.7012 2.8402 1.4024

% de explicación:

CP1 92.26 %

CP2 7.74 %A B C D

27

EigenvaluesEigenvaluesEigenvaluesEigenvalues ofofofof thethethethe CorrelationCorrelationCorrelationCorrelation MatrixMatrixMatrixMatrix

EigenvalueEigenvalueEigenvalueEigenvalue DifferenceDifferenceDifferenceDifference ProportionProportionProportionProportion CumulativeCumulativeCumulativeCumulative

PRIN1 7.13205 5.06989 PRIN1 7.13205 5.06989 PRIN1 7.13205 5.06989 PRIN1 7.13205 5.06989 0.5486190.5486190.5486190.548619 0.5486190.5486190.5486190.548619

PRIN2 2.06216 0.83534 PRIN2 2.06216 0.83534 PRIN2 2.06216 0.83534 PRIN2 2.06216 0.83534 0.1586280.1586280.1586280.158628 0.7072470.7072470.7072470.707247

PRIN3 1.22683 0.21542 0.0943PRIN3 1.22683 0.21542 0.0943PRIN3 1.22683 0.21542 0.0943PRIN3 1.22683 0.21542 0.094371 0.80161871 0.80161871 0.80161871 0.801618

PRIN4 1.01140 0.46089 0.0778PRIN4 1.01140 0.46089 0.0778PRIN4 1.01140 0.46089 0.0778PRIN4 1.01140 0.46089 0.077800 0.87941900 0.87941900 0.87941900 0.879419

PRIN5 0.55051 . 0.0423PRIN5 0.55051 . 0.0423PRIN5 0.55051 . 0.0423PRIN5 0.55051 . 0.042347 0.92176647 0.92176647 0.92176647 0.921766

EigenvectorsEigenvectorsEigenvectorsEigenvectors

PRIN1 PRIN2 PRIN3 PRIN1 PRIN2 PRIN3 PRIN1 PRIN2 PRIN3 PRIN1 PRIN2 PRIN3 PRIN4 PRIN5PRIN4 PRIN5PRIN4 PRIN5PRIN4 PRIN5

TAMFLOR 0.243872 0.330149 0.050559 TAMFLOR 0.243872 0.330149 0.050559 TAMFLOR 0.243872 0.330149 0.050559 TAMFLOR 0.243872 0.330149 0.050559 0.007045 0.007045 0.007045 0.007045 ----.752103.752103.752103.752103

LONGPET 0.280155 0.386948 LONGPET 0.280155 0.386948 LONGPET 0.280155 0.386948 LONGPET 0.280155 0.386948 ----.051192 .051192 .051192 .051192 ----.192619 0.041976.192619 0.041976.192619 0.041976.192619 0.041976

ANCHOPET 0.266897 0.426974 0.010109 ANCHOPET 0.266897 0.426974 0.010109 ANCHOPET 0.266897 0.426974 0.010109 ANCHOPET 0.266897 0.426974 0.010109 ----.000630 0.019258.000630 0.019258.000630 0.019258.000630 0.019258

SUPHOJA SUPHOJA SUPHOJA SUPHOJA ----.037729 0.481380 .037729 0.481380 .037729 0.481380 .037729 0.481380 ----.169932 0.586039 0.391447.169932 0.586039 0.391447.169932 0.586039 0.391447.169932 0.586039 0.391447

LONANCHO 0.203116 LONANCHO 0.203116 LONANCHO 0.203116 LONANCHO 0.203116 ----.215375 .215375 .215375 .215375 ----.365132 .365132 .365132 .365132 ----.476528 0.158226.476528 0.158226.476528 0.158226.476528 0.158226

PECLIMBO PECLIMBO PECLIMBO PECLIMBO ----.048029 .048029 .048029 .048029 ----.198243 0.759026 0.199564 0.012081.198243 0.759026 0.199564 0.012081.198243 0.759026 0.199564 0.012081.198243 0.759026 0.199564 0.012081

PESOF 0.322579 PESOF 0.322579 PESOF 0.322579 PESOF 0.322579 ----.272575 .272575 .272575 .272575 ----.135722 0.253979 .135722 0.253979 .135722 0.253979 .135722 0.253979 ----.107331.107331.107331.107331

LONGF 0.335538 LONGF 0.335538 LONGF 0.335538 LONGF 0.335538 ----.161639 .161639 .161639 .161639 ----.009013 0.251496 .009013 0.251496 .009013 0.251496 .009013 0.251496 ----.190213.190213.190213.190213

ANCHOF 0.321516 ANCHOF 0.321516 ANCHOF 0.321516 ANCHOF 0.321516 ----.278051 .278051 .278051 .278051 ----.108757 0.235796 .108757 0.235796 .108757 0.235796 .108757 0.235796 ----.076056.076056.076056.076056

ESPESORF 0.312375 ESPESORF 0.312375 ESPESORF 0.312375 ESPESORF 0.312375 ----.231736 .231736 .231736 .231736 ----.189800 0.305931 0.169229.189800 0.305931 0.169229.189800 0.305931 0.169229.189800 0.305931 0.169229

PESOEND 0.327209 0.043442 0.312993 PESOEND 0.327209 0.043442 0.312993 PESOEND 0.327209 0.043442 0.312993 PESOEND 0.327209 0.043442 0.312993 ----.140426 0.247572.140426 0.247572.140426 0.247572.140426 0.247572

LONGEND 0.334962 0.084390 0.233786 LONGEND 0.334962 0.084390 0.233786 LONGEND 0.334962 0.084390 0.233786 LONGEND 0.334962 0.084390 0.233786 ----.179597 0.102962.179597 0.102962.179597 0.102962.179597 0.102962

ANCHOEND 0.330091 0.033250 0.193461 ANCHOEND 0.330091 0.033250 0.193461 ANCHOEND 0.330091 0.033250 0.193461 ANCHOEND 0.330091 0.033250 0.193461 ----.153549 .153549 .153549 .153549 ----.153549.153549.153549.153549

CP 1

CP

2

BLANCO

BULIDA

CANINO

CANINO.T

CHIRIVEL

CORBATOCRISTALI

CURROTCURROT.TGABACHET

GANDIA GINESTA

MANRI

MARTINET

PALABRAS

PALAU

R.CARLET

TADEO

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5

GRUPO 5

GRUPO 1

GRUPO 2GRUPO 4

GRUPO 3

GRUPO 6

Tamaño de la

flor

Tamaño del fruto

Tam

año

d

e l

a h

oja

Tamaño endocarpio

ACP: representación de variedades en plano principal

% variabilidad explicada: 54.86 y 15.86 %

Frutos muy grandes

Endocarpios grandesFlores medianas

Hojas pequeñas

Aplicando ACP antes de un ANOVA

PROBLEMAS AL APLICAR ANOVA

Falta de homocedasticidad para algunas variables

Resultados dispares según variable de respuesta

17 VARIABLES DE RESPUETADARDOS0 DARDOS1 DARDOS2 DARDOS3 DARDOS4 FRUTCM1 FRUTRAM FRUTCM2 DIFRUTPESO2 PESO3 LARGO DIAM LARDIAM PRESION SS SEM

24 INDIVIDUOS (4 tratamientos: 1 testigo y 3 raleadores)

28

% total Cumul. Cumul.

Value Eigenval Variance Eigenval %

1 8.193095 48.19467 8.19309 48.19467

2 3.435072 20.20631 11.62817 68.40098

3 1.561161 9.18330 13.18933 77.58428

Variable CP1 CP2 CP3

DARDOS0 .109720 .096119 .005036

DARDOS1 -.079654 .104822 .268857

DARDOS2 -.106932 -.097685 -.086394

DARDOS3 -.063827 -.224304 -.157574

DARDOS4 -.030442 -.236048 -.175028

FRUTCM1 -.106776 -.065498 .050377

FRUTRAM -.074096 -.077875 -.304150

FRUTCM2 -.104133 .077411 -.120704

PESO2 .097530 -.046629 -.168220

DIFRUT -.009910 -.209302 .362950

PESO3 .108212 -.076287 -.083136

LARGO .108983 -.093621 -.018494

DIAM .103472 -.090323 -.178730

LARDIAM .062825 -.048158 .352233

PRESION .069652 .043021 -.095199

SS .082453 -.102391 .005068

SEM -.000417 .235774 -.251618

Factor 1

Fa

cto

r 2

DARDOS0DARDOS1

DARDOS2

DARDOS3 DARDOS4

FRUTCM1 FRUTRAM

FRUTCM2

PESO2

DIFRUT

PESO3LARGODIAM

LARDIAM

PRESION

SS

SEM

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2

Representacion de variables en Plano Principal

29

FACTOR1

FA

CT

OR

2

ANACY

ANACY

ANACY

ANACY

ANACY

ANACY

C140C140C140

C140

C140 C140

C180 C180

C180

C180

C180

C180Testigo

Testigo

TestigoTestigo

Testigo

Testigo

-3,5

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0

Representacion de individuos en Plano Principal

RALEO

CALIDAD FRUTO (presión, tamaño, forma, SS)

CA

IDA

TA

RD

IA

SE

MIL

LA

ANANÁÁLISIS DE COORDENADAS PRINCIPALESLISIS DE COORDENADAS PRINCIPALES

Así como el análisis de componentes principales es adecuado para variables cuantitativas, cuando las variables son cualitativas es apropiado un tipo de análisis diferente, tal como el de Coordenadas Principales

En estos casos es necesario construir un equivalente a las matrices de covarianza o correlación entre individuos, y estas son las matrices de similaridad

El análisis de coordenadas principales no es más que un Análisis de Componentes Principales aplicado a una tabla de datos compatibles con la distancia

d2ij = sii + sjj - 2 sij

La representación geométrica de los n indviduos es a través de esta distancia que respeta la estructura de la matriz de similaridades.

Aquí el nuevo sistema de ejes no representa direcciones dado el carácter cualitativo de las variables originales.

Download - Universidad Nacional de La Plata - Aula Virtual · 2009-10-30 · PEÑA, D. (2002). Análisis de Datos Multivariantes. Madrid: McGraw Hills/Interamericana de España. Definición

Top Related