clasificaciÓn multivariante: una aplicaciÓn a las … - oviedo... · 3 1. introducción a lo...

1

Reservados todos los derechos. Este documento ha sido extraído del CD Rom “Anales de Economía Aplicada. XIV Reunión ASEPELT-España. Oviedo, 22 y 23 de Junio de 2000”. ISBN: 84-699-2357-9

CLASIFICACIÓN MULTIVARIANTE: UNA APLICACIÓN A LAS COMARCAS GALLEGAS

Julio Pallas González - [email protected] Fidel Martínez Roget - [email protected]

Fernando Miranda Torrado - [email protected] Universidad de Santiago de Compostela

2

CLASIFICACIÓN MULTIVARIANTE: UNA APLICACIÓN A

LAS COMARCAS GALLEGAS

JULIO PALLAS GONZÁLEZ, FIDEL MARTÍNEZ ROGET, FERNANDO

MIRANDA TORRADO

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA.

UNIVERSIDAD DE SANTIAGO DE COMPOSTELA

E-Mail: [email protected]

RESUMEN:

En el presente trabajo se pretende elaborar una agrupación de las comarcas de la

Comunidad Autónoma Gallega en base a una serie de indicadores socioeconómicos

suministrados por La Caixa en el Anuario Comercial de España referidos al año 1998 .

El trabajo se realiza en dos etapas:

En la primera se utiliza el análisis clúster para determinar el número idóneo de grupos

a formar a partir de los indicadores disponibles realizando posteriormente una clasificación

partiendo de los datos obtenidos del proceso anterior .

En la segunda fase se utiliza el análisis discriminante con el objeto de evaluar la

bondad de las distintas agrupaciones y de determinar aquellos indicadores mas relevantes

para distinguir entre los diferentes grupos socioeconómicos comarcales .

3

1. Introducción

A lo largo del presente trabajo se intentará agrupar y caracterizar, en base a un

conjunto de ocho variables socioeconómicas suministradas por La Caixa en el Anuario

Comercial de España, a las comarcas gallegas en grupos homogéneos indicando las

variables más importantes de tal agrupación.

Debido a la inexistencia de datos socioeconómicos para aquellos ayuntamientos con

una población no superior a 1000 habitantes, éstos no han sido tenidos en cuenta en el

presente estudio. Cabe indicar que dichos ayuntamientos corresponden principalmente, y por

este orden; a las provincias de Orense (Beade, Chandrexa de Queixa, Larouco, Parada de Sil,

Pontedeva, A Teixeira y Vilariño de Couso), Lugo (Negreira de Muñiz, Ribeira de Piquín y

Triacastela ) y Pontevedra ( Mondariz-Balneario ).

Con el nombre “ análisis cluster” o de conglomerados se hace referencia a toda una

serie de técnicas de clasificación, algoritmos fundamentalmente, cuya finalidad es la partición

de un conjunto de variables o individuos en grupos tales que los individuos pertenecientes a

un mismo grupo sean lo más similares entre sí pero muy diferentes a los pertenecientes a

otros grupos .Para Sokal y Sneath (1963), dos de los autores que más han influído en el

desarrollo del análisis cluster, “la clasificación es uno de los procesos fundamentales de la

ciencia, dada la necesidad de disponer los hechos y los objetos de un modo ordenado antes de

poder descubrir sus principios unificadores y poderlos emplear para predecir acontecimientos.

Y ello es así porque numerosos fenómenos tienen lugar con tal variedad y profusión que si no

se ordenan hacen imposible la obtención de información alguna útil”.

La elaboración de tipologías presenta, por tanto; una serie de potencialidades entre las

que cabe mencionar las siguientes:

Ø Simplifican y reducen la excesiva información que caracteriza los objetos de

estudio facilitando la comprensión de los hechos.

Ø Facilitan la comprobación de hipótesis al abrir nuevas vías para explorar

sistemáticamente principios de relación, similitudes y vinculaciones entre objetos.

Ø La naturaleza coherente de los grupos resultantes de una clasificación posibilita

posteriores desarrollos como pueden ser : investigaciones pormenorizadas sobre

tales grupos (generar y comprobar hipótesis, predecir, etc.) y también aplicaciones

en el mundo real. Así , por ejemplo, las clasificaciones climáticas, la identificación

de formaciones biogeográficas y unidades paisajísticas, la regionalización y o

4

comarcalización sobre criterios homogéneos o funcionales, la delimitación de

comarcas agrarias, barrios homogéneos, etc se elaboran muchas veces para

sustentar políticas de desarrollo regional, comarcal, urbano, de protección del

medio físico, de bienestar social, etc.

No obstante debe advertirse que muchas de las técnicas clasificatorias son

procedimientos simples que, a menudo , no están sustentados por una fundamentación

estadística extensa pudiendo los distintos algoritmos conducir a resultados diferentes a partir

de los mismos datos.

2. Metodología y variables clasificadoras

Trataremos a continuación de dar una breve descripción de la metodología utilizada en

el presente trabajo así como de los algoritmos concretos que han sido empleados.

El proceso de clasificación requiere de una serie de fases o etapas :

-Definir el objeto de la clasificación

-seleccionar las variables para identificar los grupos

-elección de la medida de proximidad entre los individuos

- elección del criterio para la formación de grupos, es decir el método para agrupar

individuos en conglomerados.

Así ,el objeto de este trabajo es clasificar a las comarcas gallegas en grupos

homogéneos respecto de las variables socioeconómicas empleadas al efecto de tal

forma que tales agrupaciones puedan servir de base para futuros trabajos de los

mismos autores así o de cualquier otras personas o instituciones que pudieran estar

interesados en el tema del desarrollo comarcal.

Los indicadores socioeconómicos seleccionados para realizar la agrupación son:

1. Número de teléfonos de una comarca x 1000 habitantes.

2. Número de automóviles de una comarca x 1000 habitantes.

3. Número de camiones de una comarca x 1000 habitantes.

4. Número de entidades bancarias de una comarca x 1000 habitantes.

5. Número de licencias de actividad industrial de una comarca x 1000 habitantes.

6. Número de licencias de actividad comercial mayorista de una comarca x 1000

habitantes.

5

7. Número de licencias de actividad comercial minorista de una comarca x 1000

habitantes.

8. Número de licencias de actividad de restauración de una comarca x 1000

habitantes.

Todas estos indicadores, que originalmente recogen datos municipales siendo

posteriormente transformados en datos comarcales por los autores del presente estudio, se han

obtenido del Anuario Comercial de España publicado por La Caixa y están referidos al año

1998 .

La formación de clases se sustenta sobre la existencia de unas relaciones entre los

individuos u objetos ( en nuestro caso comarcas) y que se son establecidas sobre la base de

la similitud o parecido en ciertos rasgos (relaciones fenéticas).

Para poder medir por tanto estas relaciones fenéticas (relaciones de similitud) es

necesario calcular un índice entre cada par de objetos (en nuestro caso comarcas) de tal modo

que , comparándolos en los diversos atributos o variables , se mida su grado de semejanza o

proximidad. Existe una gran cantidad de índices cuya idoneidad , en general, depende de la

escala de medida de las variables clasificadoras. Así para variables de tipo cuantitativo suelen

usarse índices de distancia y, en menor medida, de correlación. En este trabajo se ha utilizado

la distancia euclídea al cuadrado.

En cuanto a los métodos de aglomeración cabe indicar que existe una gran variedad

de ellos pero que pueden clasificarse en dos grandes categorías:

1. los métodos no jerárquicos

2. los métodos jerárquicos

Estos últimos pueden subdividirse a su vez en:

q aglomerativos o ascendentes.: en los que se parte de tantos grupos como individuos

existan y en cada paso se va agrupando a los individuos en un número cada vez menor

de grupos de mayor tamaño hasta formar un solo grupo al final de todo el proceso.

q disociativos , divisivos o descendentes : en los que el proceso es inverso ; es decir se parte

inicialmente de un solo grupo formado por todos los individuos y en cada paso se va

dividiendo en un número mayor de grupos de menor tamaño hasta obtener al final del

proceso tantos grupos como individuos.

En los métodos aglomerativos a partir de la matriz de distancias se va agrupando a los

individuos más parecidos, es decir aquellos más relacionados .Lo único que varía entre ellos

es el criterio para medir dicho parecido o relación entre grupos: Por haber sido utilizado el

6

método de Ward en este trabajo y ser éste un método jerárquico aglomerativo vamos a

describir brevemente los principales algoritmos de este tipo:

q En el método de la similitud máxima, distancia mínima ó “del vecino más

próximo” la distancia entre dos grupos se mide como la distancia entre sus dos

puntos más cercanos.

q En el método de la similitud mínima , de las distancia máxima o “del vecino más

lejano” la relación de parecido o distancia entre dos clusters vendrá determinada

por la distancia entre sus dos puntos más alejados.

q En el método de la media o del promedio entre grupos la distancia entre dos

grupos vendrá determinada por la media de las distancias entre todos los pares de

individuos que se puedan formar tomando un individuo de cada conglomerado.

q En el método centroide la distancia entre dos agrupaciones vendrá dada por la

distancia entre sus medias para todas las variables.

q El método de la mediana es similar al anterior pero sustituyendo la media por la

mediana.

q El método de Ward ó de mínima variación intragrupo, también llamado a veces

“momento central de orden dos o pérdida de inercia mínima”.

Este método que es precisamente el usado en este trabajo, se basa en el principio de

minimizar en cada etapa de fusión la heterogeneidad dentro de cada cluster para ello, y en

cada fase , se evalúan todas las posibles fusiones realizándose aquella que provoque un menor

incremento en la suma total de las variaciones intragrupo definidas dichas variaciones como

la suma de las distancias euclídeas al cuadrado entre cada uno de los individuos y su media

de grupo.

En los métodos jerárquicos la secuencia de formación de grupos ofrece un orden o

jerarquía que puede ser representada gráficamente bajo la forma de un árbol o dendograma.

3. Resultados del análisis

A continuación vamos a comentar brevemente los resultados, tanto del análisis cluster

como del discriminante.

3.1 Análisis cluster

Uno de los problemas que se plantea en el análisis cluster es determinar el número de

grupos a formar. A este respecto no hay un procedimiento óptimo, siendo los procedimientos

heurísticos mediante la inspección de los distintos niveles del árbol los más utilizados para

decidir el punto de corte en un dendograma .

7

En la figura 1 se representa el dendograma correspondiente a la agrupación jerárquica

de las comarcas gallegas utilizando el método de Ward y la distancia euclídea al cuadrado

(medida que debe usarse de forma obligatoria para este método).

Se ha trabajado con dos posibles niveles de corte en el dendograma uno que sugiere la

formación de 8 grupos y otro que sugiere la formación de 6 grupos. Por los inmejorables

resultados obtenidos en el análisis discriminante con la primera agrupación ésta fue la elegida

para trabajar.

En base a lo anterior se ha realizado un análisis clúster jerárquico para 8 grupos. Los

grupos resultantes son los siguientes:

Tabla 1: Agrupaciones comarcales gallegas (método de Ward)

GRUPO 1 Xallas, A Barcala, Bergantiños, Ordes, Arzúa, Deza, O Sar, Caldas

GRUPO 2

La Coruña, Ferrol, Santiago de Compostela, Vigo, Lugo y Mariña Oriental.

GRUPO 3

Verín, Viana, A Fonsagrada, A Limia, Ancares, Ulloa, Morrazo, B. Limia, Quiroga, Barbanza, Noia, Muros, Ortegal

GRUPO 4

A Mariña Occidental, A Mariña Central, Meira, Betanzos, Terra de Lemos, Allariz-Maceda, Terra de Caldelas, Tera de Trives y Valdeorras.

GRUPO 5

Eume, Terra Chá, Sarria , Chantada, Tabeirós-Terra de Montes, Terra de Celanova, O Salnés, Pontevedra y Baixo Miño.

GRUPO 6

Soneira, Fisterra, Melide y Paradanta.

GRUPO 7 O Carballiño y O Riveiro.

GRUPO 8

Ourense y O Condado.

8

Gráfico 1: Análisis cluster jerárquico. Dendrograma usando el método de Ward DISTANCIA (A ESCALA) DE AGRUPADION DE CLUSTERS C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ Verín 26 òø Viana 27 òú Fonsagr 15 òú Limia 16 òú Ancares 24 òú Ulloa 17 òú Morrazo 22 òú B-Limia 18 òú Quiroga 25 òôòòòòòø Barban 19 òú ó Noia 21 òú ó Muros 20 òú ó Ortgegal 23 ò÷ ó Barcala 1 òø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø Xallas 8 òú ó ó Arzúa 2 òôòø ó ó Caldas 4 òú ó ó ó Sar 6 òú ó ó ó Deza 5 òú ó ó ó Berganti 3 òú ùòòò÷ ó Ordes 7 ò÷ ó ó Melide 48 òø ó ó Soneira 49 òú ó ó Fisterra 46 òôò÷ ó Parada 47 ò÷ ó Condado 52 òûòø ó Ourense 53 ò÷ ùòòòòòòòòòòòòòòòòòòòòòø ó Carballi 50 òûò÷ ó ó Ribeiro 51 ò÷ ó ó Mariori 10 òø ó ó Santiago 13 òú ó ó Ferrol 11 òôòòòòòø ùòòòòòòòòòòòòòòòòòòòòòòò÷ Coruña 9 òú ó ó Lugo 12 òú ó ó Vigo 14 ò÷ ó ó Eume 37 òø ó ó Celanova 45 òú ùòòòòòòòòòòòòòòòòò÷ Pontev. 40 òú ó Sarria 41 òôòòòø ó T-Chá 44 òú ó ó Salnés 39 òú ó ó B-Miño 38 òú ó ó _ Tabeirós 42 òú ùò÷ CHANT 43 ò÷ ó Trives 35 òø ó Valdeorr 36 òú ó Allariz 30 òôòòò÷ Meira 32 òú Caldelas 33 òú Mariocc 29 òú Betanzos 31 òú Marcentr 28 òú Lemos 34 ò÷

9

3.2. Análisis discriminante

Con el objeto de validar los resultados obtenidos con el análisis cluster se ha realizado

un análisis discriminante.

Éste tiene su origen en los trabajos de Fisher (1936) y Mahalanobis (1936) y se trata

de una técnica de asignación de un individuo del que conocemos varias características a un

grupo.

En el análisis discriminante partiendo de una serie de grupos establecidos previamente

y de las observaciones para cada individuo referidas a una serie de variables se construyen

una o varias funciones discriminantes, que son en realidad combinaciones lineales de las

variables originales, y cuyo objeto es ver si dichas variables nos permiten discriminar bien

entr

e los distintos grupos en cuyo caso podrían ser utilizadas para predecir la pertenencia

de un individuo a uno u otro grupo una vez conocidos los datos de dicho individuo relativos a

dichas variables. Por otra parte también se trata de determinar cuales variables son las que

más contribuyen a discriminar entre los distintos grupos existentes.

La prueba de significación multivariable más frecuentemente empleada es la lambda

de Wilks que somete a comprobación la hipótesis nula de que todas las medias de grupo son

iguales frente a la hipótesis alternativa de que no todas lo son.

El valor de lambda variará entre cero y uno siendo tanto más pequeña cuanto mayor

sea la disparidad entre los grupos estudiados. Un valor de la lambda de Wilks igual a uno se

dará si la media es igual en todos los grupos y no hay variabilidad entre grupos lo que supone

un bajo poder discriminante mientras que el poder discriminante será tanto mayor cuanto más

se aproxime lambda a cero ya que ello supone que la variabilidad intragrupo es muy baja en

comparación con la variabilidad total.

Los Principales resultados del análisis discriminante son los que se exponen a

continuación:

Ø Se ha utilizado un método de inclusión de variables paso a paso en el que se han obtenido

3 funciones discriminantes que explican la totalidad de la varianza intergrupos. La

primera función discriminante es la que explica el mayor porcentaje de varianza con el

77,6 % mientras que la tercera función discriminante sólo explica el 3,3%.

Ø Las variables que más contribuyen a la discriminación entre grupos, son en orden de

importancia:

• Número de teléfonos por cada mil habitantes.

• Número de automóviles por cada mil habitantes.

10

• Número de sucursales bancarias por cada mil habitantes.

Ø El análisis discriminante nos confirma que el 98,1% de las comarcas están bien agrupadas,

habiendo únicamente una comarca mal clasificada. Esta comarca es la de la Mariña

Oriental, incluida en el grupo 2, correspondiente al de las ciudades más importantes como

pueden ser la Coruña, Vigo, Lugo, Ferrol y Santiago, cuando lo más lógico sería que

formase parte del grupo 4, tal y como nos confirman los resultados del análisis

discriminante.

Ø Todos estos resultados pueden verse en los gráficos y tablas que se acompañan en el

Anexo I.

4. Algunos comentarios sobre la agrupación comarcal resultante

Como se ha comentado con anterioridad, el análisis cluster, confirmado con el discriminante,

dio como resultado la agrupación de las comarcas de Galicia en ocho grupos repartidos por el

territorio gallego tal y como se refleja en el siguiente mapa.

11

A continuación se exponen algunos comentarios sobre cada uno de los ocho grupos, en base a

las variables utilizadas en el análisis: Teléfonos, automóviles, Camiones, Bancos, licencias de

actividades industriales, licencias de comercio mayorista, licencias de comercio minorista y

licencias de actividades de restauración por cada 1.000 habitantes, que nos permitirán obtener

una visión socioeconómica de cada uno de ellos y el poder separar áreas claramente

diferenciadas y con distintos grados de desarrollo dentro de la Comunidad Autónoma.

♦ Grupo uno: formado por las comarcas de Xallas, A Barcala, Bergantiños, Ordes, Arzúa,

Deza, O Sar y Caldas, se caracteriza por tener unos valores medios en casi todas las

variables por debajo de la media gallega, con excepción del comercio minorista y la

actividad de restauración, que son superiores a la media, siendo de destacar sobre todo, el

reducido número de entidades bancarias por cada mil habitantes.

Gráfico 2: % de variación de los valores medios de las variables del grupo 1 con respecto a la media de Galicia.

♦ En el cluster número dos se encuentran agrupadas las principales ciudades gallegas, con

las excepciones de Ourense y Pontevedra, a saber: A Coruña, Ferrol, Santiago de Compostela, Vigo, Lugo y A Mariña Oriental. Se caracteriza este grupo por su comercio y especialmente por el mayorista aunque también destaca en restauración, teléfonos y automóviles. Hay que tener en cuenta que al estar las variables relativizadas por la población comarcal sus valores, como es de esperar, dado el tamaño de la misma, no son tan elevados.

-35-30-25-20-15-10

-505

TE

LEF

ON

OS

AU

TO

MO

VIL

ES

CA

MIO

NE

S

BA

NC

OS

LIC

. . IN

D.

LIC

.CO

M.M

AY

LIC

.CO

M. M

IN.

LIC

. RE

ST

GRUPO 1

12


♦ El tercer conglomerado, es el que agrupa a un mayor número de comarcas, entre las que

se encuentran las siguientes: Verín, Viana, A Fonsagrada, A Limia, Ancares, Ulloa,

Morrazo, B. Limia, Quiroga, Barbanza, Noia, Muros, Ortegal.

Este grupo destaca muy especialmente por el número de sucursales bancarias y por su

actividad de restauración, estando por debajo de la media en las demás variables.


-20-10

0102030405060

TE

LEF

ON

OS

AU

TO

MO

VIL

ES

CA

MIO

NE

S

BA

NC

OS

LIC

. . IN

D.

LIC

.CO

M.M

AY

LIC

.CO

M. M

IN.

LIC

. R

ES

T

GRUPO 2

-25-20-15-10

-505

1015

TE

LEF

ON

OS

AU

TO

MO

VIL

ES

CA

MIO

NE

S

BA

NC

OS

LIC

. . IN

D.

LIC

.CO

M.M

AY

LIC

.CO

M. M

IN.

LIC

. R

ES

T

GRUPO 3

13

♦ El grupo número cuatro destaca fundamentalmente por estar por encima de la media en

todos los aspectos considerados y muy especialmente en el número de sucursales

bancarias, licencias industriales y algo menos en comercio.

Forman parte de este grupo las comarcas siguientes: A Mariña Occidental, A Mariña

Central, Meira, Betanzos, Terra de Lemos, Allariz-Maceda, Terra de Caldelas, Tera de

Trives y Valdeorras.

Gráfico 5: % de variación de los valores medios de las variables del grupo 4 con respecto a la media de Galicia

♦ El quinto grupo está constituido por las comarcas de Eume, Terra Chá, Sarria , Chantada,

Tabeirós-Terra de Montes, Terra de Celanova, O Salnés, Pontevedra y Baixo Miño.

En este grupo destaca fundamentalmente su comercio mayorista y los medios de

transporte (camiones y automóviles) y en el polo opuesto, destacan el bajo número de

licencias de restauración.

-505

101520253035

TE

LEF

ON

OS

AU

TO

MO

VIL

ES

CA

MIO

NE

S

BA

NC

OS

LIC

. . IN

D.

LIC

.CO

M.M

AY

LIC

.CO

M. M

IN.

LIC

. R

ES

T

GRUPO 4

14


♦ El conglomerado número seis, puede decirse que se corresponde con aquellas comarcas

más atrasadas económicamente, pues prácticamente en todas las variables presentan

valores muy por debajo de la media.

Este grupo está formado por las comarcas de: Soneira, Fisterra. Melide y Paradanta.


-10-8-6-4-202468

TE

LEF

ON

OS

AU

TO

MO

VIL

ES

CA

MIO

NE

S

BA

NC

OS

LIC

. . IN

D.

LIC

.CO

M.M

AY

LIC

.CO

M. M

IN.

LIC

. R

ES

T

grupo 5

-30

-25-20-15-10

-505

TE

LEF

ON

OS

AU

TO

MO

VIL

ES

CA

MIO

NE

S

BA

NC

OS

LIC

. . IN

D.

LIC

.CO

M.M

AY

LIC

.CO

M. M

IN.

LIC

. R

ES

T

GRUPO 6

15

♦ El séptimo cluster se caracteriza por tener una actividad comercial y de restauración

inferior a la media estando por encima de ésta en todos los demás aspectos sobre todo en

el número de automóviles y también en entidades bancarias y actividad industrial.

Este grupo está formado por : O Carballiño y O Riveiro.


♦ El último grupo, el número ocho, que junto con el anterior son los que están constituídos

por un menor número de comarcas, comprende las comarcas de Ourense y O Condado y

se caracteriza por tener un elevado comercio tanto minorista como y sobre todo,

mayorista; también destaca en medios de transporte y teléfonos siendo, en definitiva, uno

de los más desarrollados en todos los aspectos.

-20-10

0102030405060

TE

LEF

ON

OS

AU

TO

MO

VIL

ES

CA

MIO

NE

S

BA

NC

OS

LIC

. . IN

D.

LIC

.CO

M.M

AY

LIC

.CO

M. M

IN.

LIC

. RE

ST

grupo 7

16


5. Consideraciones finales

A continuación, se exponen algunos de los resultados del trabajo:

Ø Lo primero que se debe decir, es que los resultados del trabajo, deben ser interpretados

como una referencia o aproximación a la realidad socioeconómica de las comarcas de

Galicia, sobre todo debido a que los indicadores utilizados, que por otra parte son los

disponibles, no cubren la totalidad de los sectores de actividad económica.

Ø Algunas de las ramas de actividad económica, entre las que destacan por su importancia

para esta Comunidad la pesca o la agricultura y que no han sido utilizadas para realizar

esta clasificación, deberán ser tenidas en cuenta en una próxima clasificación.

Ø El dendograma obtenido a partir del análisis cluster nos sugería la formación de 6 u 8

grupos, un número menor de grupos supondría cortar el dendograma a una distancia

mucho mayor, lo cual supondría incluir en el mismo grupo comarcas muy diferentes.

Ø Los mejores resultados obtenidos con el análisis discriminante para ocho grupos en vez de

seis hicieron que, finalmente, nos decantásemos por la primera opción, en la que el 98,1%

de las comarcas estarían bien agrupadas (solamente una comarca es asignada a un grupo

diferente al obtenido en el análisis cluster), frente al 96,2% en el caso de utilizar 6 grupos.

Ø Indicar que de las ocho variables utilizadas inicialmente aquellas con un mayor poder

discriminante son, por este orden: Teléfonos, Automóviles y Sucursales Bancarias por

cada mil habitantes, por lo cual son estas tres las únicas utilizadas en dicho análisis. El

-20

-10

0

10

20

30

40

TE

LEF

ON

OS

AU

TO

MO

VIL

ES

CA

MIO

NE

S

BA

NC

OS

LIC

. . IN

D.

LIC

.CO

M.M

AY

LIC

.CO

M. M

IN.

LIC

. R

ES

T

GRUPO 8

17

resto de las variables aunque conseguirían un mejor pronóstico en la asignación de las

comarcas dentro de los grupos, contribuirían de forma escasa en la mejora de la

discriminación.

6. Bibliografía

ALDENDERFER, M.S. y BLASHFIELD RK. (1989): Cluster analysis. Sage University

Paper.

BISQUERRA, R. (1989): Introducción conceptual al análisis multivariable .Edit. PPU.

BOSQUE, J. Y MORENO A.(1994): Prácticas de análisis exploratorio y multivariante de

datos.Edit. Oikos Tau.

CUADRADO, J.R. y SUAREZ-VILLA, L. (1992): Integración económica y evolución de

las disparidades regionales. En: Papeles de Economía española, núm. 51.

DÍAZ, B. CRUCES, E. y MORILLAS A. (1995): Las regiones europeas: una tipología

basada en la aplicación de técnicas multivariantes. En XXII Reunión de estudios

regionales.Pamplona

HAIR, J.F. (1995): Multivariate data analysis with readings. Edit. Prentice Hall International.

URIEL, E. (1995): Análisis de datos. Series temporales y análisis multivariante. Ed AC.

18

ANEXO I: ANALISIS DISCRIMINANTE

Pruebas de igualdad de las medias de los grupos

,095 61,576 7 45 ,000

,103 56,235 7 45 ,000

,710 2,627 7 45 ,023

,549 5,285 7 45 ,000

,627 3,821 7 45 ,002

,611 4,095 7 45 ,001

,753 2,112 7 45 ,062

,892 ,775 7 45 ,611

TELEFONOSCOMARCA X 1.000 hab.

AUTOMOVILESCOMARCAS X 1000HAB.

CAMIONESCOMARCAS X 1000 H.BANCOS COMARCASX 1000 H.LIC. ACTIV. IND. X 1000H.

LIC. ACT. COM. MAY. X1000 H.LIC. ACT. COM. MIN. X1000 H.LIC. ACT. REST. X 1000H.

Lambdade Wilks F gl1 gl2 Sig.

19

Estadísticos Por Pasos

Variables introducidas/eliminadas a,b,c,d

TELEFONOSCOMARCAX 1.000hab.

,095 1 7 45,0 61,6 7 45,0 ,000

AUTOMOVILESCOMARCAS X 1000HAB.

,014 2 7 45,0 47,4 14 88,0 ,000

BANCOSCOMARCAS X 1000 H.

,008 3 7 45,0 26,4 21 124 ,000

Paso1

2

3

Introducidas

Estadístic

o gl1 gl2 gl3

Estadístic

o gl1 gl2 Sig.

F exactaEstadístic

o gl1 gl2 Sig.

F aproximada

Lambda de Wilks

En cada paso se introduce la variable que minimiza la lambda de Wilks global.

El número máximo de pasos es 16.a.

La significación máxima de F para entrar es .05.b.

La significación mínima de F para salir es .10.c.

El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.d.

Variables en el análisis

1,000 ,000

1,000 ,000 ,103

1,000 ,000 ,095

,925 ,000 ,055

,955 ,000 ,055

,885 ,000 ,014


TELEFONOSCOMARCA X 1.000 hab.AUTOMOVILESCOMARCAS X 1000HAB.TELEFONOSCOMARCA X 1.000 hab.AUTOMOVILESCOMARCAS X 1000HAB.BANCOS COMARCASX 1000 H.

Paso1

2

3

ToleranciaSig. de F

que eliminarLambdade Wilks

20

Variables no incluidas en el análisis

1,000 1,000 ,000 ,095

1,000 1,000 ,000 ,103

1,000 1,000 ,023 ,710

1,000 1,000 ,000 ,549

1,000 1,000 ,002 ,627

1,000 1,000 ,001 ,611

1,000 1,000 ,062 ,753

1,000 1,000 ,611 ,892

1,000 1,000 ,000 ,014

,977 ,977 ,270 ,078

,926 ,926 ,001 ,055

,980 ,980 ,005 ,061

,999 ,999 ,113 ,074

,995 ,995 ,350 ,080

,993 ,993 ,629 ,084

,937 ,937 ,273 ,011

,885 ,885 ,000 ,008

,923 ,923 ,007 ,009

,992 ,992 ,145 ,011

,992 ,992 ,360 ,012

,992 ,992 ,908 ,013

,686 ,648 ,754 ,007

,880 ,843 ,067 ,006

,946 ,844 ,551 ,007

,984 ,877 ,488 ,007

,980 ,874 ,868 ,007

TELEFONOSCOMARCA X 1.000 hab.AUTOMOVILESCOMARCAS X 1000HAB.CAMIONESCOMARCAS X 1000 H.

BANCOS COMARCASX 1000 H.LIC. ACTIV. IND. X 1000H.LIC. ACT. COM. MAY. X1000 H.

LIC. ACT. COM. MIN. X1000 H.LIC. ACT. REST. X 1000H.AUTOMOVILESCOMARCAS X 1000HAB.CAMIONESCOMARCAS X 1000 H.


LIC. ACT. COM. MIN. X1000 H.LIC. ACT. REST. X 1000H.CAMIONESCOMARCAS X 1000 H.


LIC. ACT. COM. MIN. X1000 H.LIC. ACT. REST. X 1000H.CAMIONESCOMARCAS X 1000 H.

LIC. ACTIV. IND. X 1000H.LIC. ACT. COM. MAY. X1000 H.LIC. ACT. COM. MIN. X1000 H.

LIC. ACT. REST. X 1000H.

Paso0

1

2

3

ToleranciaTolerancia

mín.Sig. de F que

introducirLambdade Wilks

21

Estadísticos por casos

1 1 ,920 3 ,971 ,494 6 ,029 7,547 -3,872 -2,252 -,7272 2 ,040 3 ,999 8,302 8 ,001 22,06 7,254 3,416 -1,7033 3 ,711 3 ,911 1,376 1 ,053 7,072 -1,896 ,135 ,0663 3 ,745 3 ,948 1,233 5 ,028 8,282 -1,692 ,308 ,8104 4 ,996 3 ,993 ,058 3 ,004 11,15 1,102 1,994 ,8144 4 ,659 3 ,892 1,603 5 ,062 6,947 ,548 1,319 -,2232 4** ,205 3 ,566 4,584 2 ,433 5,120 3,054 1,865 -,0603 3 ,950 3 ,979 ,352 5 ,008 10,09 -1,883 ,711 ,2664 4 ,705 3 ,789 1,403 5 ,199 4,158 ,961 ,665 ,3841 1 ,992 3 ,981 ,102 6 ,017 8,205 -3,506 -1,985 -,6133 3 ,422 3 ,987 2,809 4 ,012 11,66 -2,038 1,267 2,0603 3 ,557 3 ,979 2,073 6 ,014 10,60 -3,124 1,372 -,6391 1 ,426 3 ,812 2,786 5 ,155 6,095 -1,701 -1,461 -,9394 4 ,293 3 ,754 3,724 5 ,201 6,374 ,647 1,037 -,9051 1 ,989 3 ,988 ,123 6 ,008 9,665 -3,225 -1,959 -,2541 1 ,990 3 ,994 ,118 6 ,005 10,76 -3,216 -2,266 -,2855 5 ,328 3 ,943 3,445 4 ,053 9,204 1,952 -,561 -,9452 2 ,350 3 ,994 3,285 4 ,006 13,67 3,386 1,444 -2,0706 6 ,992 3 ,985 ,101 1 ,015 8,444 -5,661 -,547 -,7832 2 ,687 3 1,000 1,479 8 ,000 17,11 6,101 2,131 -1,4434 4 ,324 3 ,817 3,477 5 ,160 6,740 ,578 ,400 1,9943 3 ,222 3 ,999 4,389 4 ,001 18,88 -2,875 3,066 -,3143 3 ,396 3 ,966 2,972 1 ,026 10,20 -2,620 ,981 -1,2445 5 ,662 3 ,997 1,586 1 ,002 13,60 ,455 -2,488 -,3827 7 ,493 3 1,000 2,403 8 ,000 24,91 5,883 -4,372 1,2508 8 ,646 3 1,000 1,658 7 ,000 20,49 8,964 -2,192 -1,0673 3 ,429 3 ,922 2,767 5 ,037 9,203 -1,632 ,505 -1,0237 7 ,493 3 1,000 2,403 8 ,000 35,87 8,306 -6,013 2,2715 5 ,455 3 ,779 2,615 4 ,111 6,507 -,096 ,024 -,6111 1 ,987 3 ,985 ,139 6 ,010 9,371 -3,130 -1,732 -,6641 1 ,746 3 ,970 1,227 5 ,027 8,411 -2,157 -2,267 -,2703 3 ,444 3 ,956 2,678 4 ,044 8,847 -1,552 2,688 -,1213 3 ,510 3 ,991 2,314 4 ,004 13,44 -2,249 ,621 1,7708 8 ,646 3 ,999 1,658 2 ,001 15,96 8,677 ,332 -,6446 6 ,126 3 1,000 5,722 1 ,000 30,24 -8,009 ,503 -1,2485 5 ,101 3 1,000 6,227 4 ,000 24,05 2,525 -2,759 -,471

Númerodecasos123456789101112131415161718192021222324252627282930313233343536

Original

Grupo

real

Grupopronosticad

o p gl

P(D>d |G=g)

P(G=g |

D=d)

Distanciade

Mahalanobis al

cuadrado

hastael

centroide

Grupo mayor

Grupo

P(G=g |

D=d)

Distanciade

Mahalanobis al

cuadrado

hastael

centroide

Segundo grupo mayor

Función1

Función2

Función3

Puntuaciones discriminantes

22

Lambda de Wilks

1 ,095 1 7 45 62 7 45 ,002 ,014 2 7 45 47 14 88 ,003 ,008 3 7 45 26 21 124 ,000

Paso123

Númer

odevariables

Lambda gl1 gl2 gl3

Estadístico gl1 gl2 Sig.

F exacta

Estadístico gl1 gl2 Sig.

F aproximada

Resumen de las funciones canónicas discriminantes Autovalores

15,499a 77,6 77,6 ,969

3,814a 19,1 96,7 ,890

,650a 3,3 100,0 ,628

Función1

2

3

Autovalor % de varianza % acumuladoCorrelacióncanónica

Se han empleado las 3 primeras funciones discriminantescanónicas en el análisis.

a.

Lambda de Wilks

,008 226,724 21 ,000

,126 96,370 12 ,000

,606 23,290 5 ,000

Contraste delas funciones1 a la 3

2 a la 3

3

Lambdade Wilks Chi-cuadrado gl Sig.

Coeficientes estandarizados de las funcionesdiscriminantes canónicas

,770 ,676 -,179

,714 -,727 ,091

-,294 ,154 1,010

TELEFONOSCOMARCA X 1.000 hab.AUTOMOVILESCOMARCAS X 1000HAB.BANCOS COMARCASX 1000 H.

1 2 3Función

23

Matriz de estructura

,704* ,703 ,097

,668 -,682* ,298

,002 ,101* ,099

,065 ,186 ,980*

,100 ,038 ,550*

,198 -,038 ,282*

,096 -,111 -,180*

,044 ,071 -,093*


AUTOMOVILESCOMARCAS X 1000HAB.LIC. ACT. REST. X 1000H.

a

BANCOS COMARCASX 1000 H.CAMIONESCOMARCAS X 1000 H.

a

LIC. ACTIV. IND. X 1000H.

a

LIC. ACT. COM. MAY. X1000 H.

a

LIC. ACT. COM. MIN. X1000 H.

a

1 2 3

Función

Correlaciones intra-grupo combinadas entre las variablesdiscriminantes y las funciones discriminantes canónicastipificadas Variables ordenadas por el tamaño de la correlación con lafunción.

Mayor correlación absoluta entre cada variable ycualquier función discriminante.

*.

Esta variable no se emplea en el análisis.a.

Estadísticos de clasificación

Coeficientes de la función de clasificación

1,120 1,688 1,304 1,478 1,330 1,064 1,462 1,758

,791 ,935 ,716 ,811 ,895 ,640 1,260 1,159

-20,229 -28,970 -16,111 -17,606 -21,511 -16,695 -24,238 -32,997

-271,405 -501,736 -304,444 -390,926 -367,058 -214,719 -572,890 -623,088

TELEFONOSCOMARCA X 1.000 hab.AUTOMOVILESCOMARCAS X 1000HAB.BANCOS COMARCASX 1000 H.(Constante)

1 2 3 4 5 6 7 8

Ward Method

Funciones discriminantes lineales de Fisher

24

Mapa territorial

(Asumiendo que todas las funciones excepto las dos primeras son = 0) Discriminante canónico Función 2 -16,0 -12,0 -8,0 -4,0 ,0 4,0 8,0 12,0 16,0 ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô 16,0 ô 63 34 42 ô ó 63 34 42 ó ó 63 34 42 ó ó 63 34 42 ó ó 63 34 42 2ó ó 63 34 42 28ó 12,0 ô ô 63 ô ô 34 ô 42ô ô ô 228 ô ó 63 34 42 288 ó ó 63 34 42 28 ó ó 63 34 42 28 ó ó 63 34 42 28 ó ó 63 34 42 28 ó 8,0 ô ô ô63 ô 34 ô 42ô ô 228 ô ó 63 34 42 288 ó ó 63 34 42 28 ó ó 63 34 42 28 ó ó 63 34 42 28 ó ó 63 34 42 28 ó 4,0 ô ô ô 63 ô 34ô 42ô ô 28 ô ô ó 63 34 42 228 ó ó 63 34 42 288 ó ó 63 34 * 42 * 28 ó ó 63 * 34 42 28 ó ó 63 3444 42 28 ó ,0 ô ô ô 633 335554444442ô 28 ô ô ô ó * 6113333355 5555552 28 * ó ó 61 11115 * 522 228 ó ó 61 * 15 552288 ó _ ó 61 15 5778888 ó ó 61 15 57 77778888 ó -4,0 ô ô ô 61 ô 15ô 57 77778888 ô ô ó 61 15 57 77778888 ó ó 661 15 57 * 77778888 ó ó 611 15 57 77778888 ó ó 61 15 57 777788ó ó 61 15 57 77ó -8,0 ô ô 61ô ô 15 57 ô ô ô ô ó 61 15 57 ó ó 61 1557 ó ó 61 17 ó ó 61 17 ó ó 61 17 ó -12,0 ô ô 61 ô ô 17 ô ô ô ô ó 61 17 ó ó 61 17 ó ó 61 17 ó ó 661 17 ó ó 611 17 ó -16,0 ô 61 17 ô ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô -16,0 -12,0 -8,0 -4,0 ,0 4,0 8,0 12,0 16,0

Función de discriminante canónico 1

Símbolos usados en el mapa territorial Símbolo Grupo Etiqueta

25

------ ----- --------------------

1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8

* Indica un centroide de grupo

Pasos Variables Lambda de Wilks

1 Teléfonos -

2

Teléfonos

Automóviles

0,103

0,095

3 Teléfonos

Automóviles

Bancos

0,055

0,055

0,014

Resultados de la clasificacióna

8 0 0 0 0 0 0 0 8

0 5 0 1 0 0 0 0 6

0 0 13 0 0 0 0 0 13

0 0 0 9 0 0 0 0 9

0 0 0 0 9 0 0 0 9

0 0 0 0 0 4 0 0 4

0 0 0 0 0 0 2 0 2

0 0 0 0 0 0 0 2 2

100,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 100,0

,0 83,3 ,0 16,7 ,0 ,0 ,0 ,0 100,0

,0 ,0 100,0 ,0 ,0 ,0 ,0 ,0 100,0

,0 ,0 ,0 100,0 ,0 ,0 ,0 ,0 100,0

,0 ,0 ,0 ,0 100,0 ,0 ,0 ,0 100,0

,0 ,0 ,0 ,0 ,0 100,0 ,0 ,0 100,0

,0 ,0 ,0 ,0 ,0 ,0 100,0 ,0 100,0

,0 ,0 ,0 ,0 ,0 ,0 ,0 100,0 100,0

Ward Method1

2

3

4

5

6

7

8

1

2

3

4

5

6

7

8

Recuento

%

Original1 2 3 4 5 6 7 8

Grupo de pertenencia pronosticado

Total

Clasificados correctamente el 98,1% de los casos agrupados originales.a.

clasificaciÓn multivariante: una aplicaciÓn a las … - oviedo... · 3 1. introducción a lo...

Documents