análisis de correlación en el desarrollo económico de las entidades federativas con vocación...

Desarrollo Económico de las Entidades Federativas con Vocación Turística, en México.

UNIVERSIDAD DE GUANAJUATODivisión de Ciencias Económico Administrativas

Proyecto de InvestigaciónLínea de investigación: Turismo y Desarrollo

“Análisis de la Correlación de Variables Económicas en el Proceso de Desarrollo Turístico, en México”

Proponente:Ing. Moisés Uriel Limón Escamilla

Asesor:Dr. Rafael Guerrero Rodríguez

Guanajuato, GTO., 26 de julio de 2013

Moisés Uriel Limón [email protected]


1. INTRODUCCION

Los principios básicos de la administración señalan que “lo que no está medido, no

se puede mejorar”. Esta investigación busca probar nuevas rutas metodológicas

que permitan medir y dimensionar de mejor manera la contribución económica que

tiene el sector turístico en México. La implementación de diferentes estrategias

metodológicas de desagregación, como las que en este reporte se presentan,

tienen el objetivo principal de lograr una mejor comprensión sobre el

comportamiento de las diferentes variables de una actividad económica, para

conocer en qué medida influyen éstas en los niveles de crecimiento a nivel local y

regional. Lo anterior no sólo tiene implicaciones directas en el sector público sino

también en el privado, pues es a través de una ponderación de los factores más

importantes que influyen en el crecimiento de una actividad que se puede

establecer su grado de desarrollo.

Este trabajo de investigación busca ahondar el conocimiento que se tiene sobre el

comportamiento del sector terciario (servicios) a través del estudio de la relación

que guarda el sector turístico con las diferentes variables macroeconómicas. El

análisis concreto que aquí se propone se basa en examinar el comportamiento de

un número determinado de variables y su correlación con el aumento o

disminución en la demanda de productos y servicios turísticos en cada una de las

entidades federativas. Para este objetivo, se utilizaron datos relacionados a la

cuenta de producción del sector turístico en su totalidad, que se encuentran

integrados en la Cuenta Satélite de Turismo en México (2011). Esta información

es generada por el Instituto Nacional de Estadística y Geografía (INEGI) y facilita a

las personas interesadas una base de datos uniforme para poder realizar un

seguimiento o análisis de la actividad turística por entidad federativa, de acuerdo a

su configuración turística representada por un grupo de productos y servicios. .

El presente documento se encuentra dividido en seis secciones principales

incluyendo esta introducción. La segunda sección muestra la justificación y los



conceptos y variables principales que se trabajaron en esta investigación. La

tercera sección se encarga de describir el objetivo principal de este estudio. La

cuarta sección se refiere a la metodología empleada en este estudio y describe a

detalle las pruebas estadísticas empleadas. La quinta sección se encarga en

describir las resultados principales que se obtuvieron a partir de las pruebas que

se realizaron con una breve discusión de los mismos. Finalmente, la sexta sección

muestra las principales conclusiones de este proyecto de investigación.

2. JUSTIFICACIÓN

Uno de los principales problemas para estudiar el fenómeno del turismo es

entender las diferentes relaciones que ocurren entre todos sus componentes. En

los últimos años, ha surgido un interés renovado no solo por cuantificar el valor del

turismo dentro de las economías nacionales, sino también por examinar las

implicaciones que tiene este sector en el desarrollo económico a nivel local y

regional. Prueba de ello es el diseño e implementación de una Cuenta Satélite en

diferentes países bajo una metodología homogénea propuesta por la Organización

Mundial de Turismo desde el año 1996. De esta forma, países como México se

han dado a la tarea de identificar las diferentes actividades económicas que

guardan una relación con el desarrollo de la actividad turística en sus diferentes

fases (preparación, producción, y comercialización) así como a construir diferentes

indicadores que permitan monitorear su comportamiento y evolución a través del

tiempo. Dichos indicadores son identificados por el Comité Técnico Especializado

de Estadísticas Económicas del Sector Turismo (CTEEEST).

A pesar de los avances que se han tenido en este respecto, (ver CSTM, 2007-

2011), también es una realidad que falta mucho trabajo por hacer. Es

precisamente en esta brecha de conocimiento que surge el interés de esta

investigación por poder contribuir al entendimiento de la relación entre estos

indicadores y su impacto en el desarrollo económico a nivel nacional. Se considera

que no es suficiente con el diseño y seguimiento de variables, sino que es



indispensable realizar distintas pruebas para verificar la utilidad de esas variables

en la toma de decisiones y en la formulación de políticas públicas más efectivas.

La estrategia metodológica que aquí se propone, pretende ser una herramienta

que facilite el diagnóstico para conocer si la actividad turística ha contribuido o no

al desarrollo económico con los datos que se han generado en los últimos años.

Lo anterior, sin duda, podría ayudar a sacar algunas conclusiones interesantes y

discutir con distintos argumentos si el turismo es en realidad un factor de

desarrollo para México.

Este trabajo se enfocará en la aplicación directa del método de Análisis

Multivariado, que en los últimos años ha mostrado ser muy efectivo en la

clasificación de datos, incluyendo los métodos conocidos como Análisis de

Componentes Principales (PCA) y Análisis Discriminante Lineal (LDA). Como

ya se mencionó en la parte introductoria de este reporte, se utilizaron datos

recogidos en las diferentes entidades federativas a través de la CSTM,

examinando su actualización más reciente que corresponde a cifras del año 2009.

El PCA es un método estadístico de clasificación de datos ampliamente usado en

otras áreas de trabajo como la biología (clasificando genes), física (clasificación de

espectros), matemáticas (modelos sociales), criminología (reconocimiento de

rostros, huellas digitales y compresión de imágenes), economía (estudio de las

bolsas de valores), entre muchas otras. Además de ser una técnica común para

identificar patrones en datos de alta dimensión, el PCA expresa los datos de tal

manera que se resaltan las similitudes o diferencias de los distintos grupos o

patrones involucrados. Dado que con los patrones en datos de dimensión alta

resultar difícil encontrar patrones con las técnicas estadísticas conocidas (eg.

varianza, covarianza, etc.), el PCA se vuelve una herramienta útil para la

comprensión e interpretación de este tipo de datos.

Una vez aplicado el método del PCA, otro algoritmo puede ser aplicado para

proporcionar una mejor clasificación de los grupos encontrados es el LDA. Esta



investigación utilizó el LDA con el objetivo de lograr una máxima separabilidad

entre las distintas clases, grupos o clústeres formados con el método PCA. Con la

prueba de LDA se puede establecer de mejor manera una región de decisión entre

las diferentes clases dadas. Este método además puede ayudar a entender de

mejor manera las características de los datos distribuidos y obtenidos a través del

PCA.

Por las razones expuestas en los párrafos anteriores, se aplicaron ambos métodos

(PCA y LDA) con las 98 variables de la CSTM, para poder realizar un diagnóstico

a nivel nacional sobre su comportamiento en las diferentes entidades federativas.

Esta estrategia contribuyó a la identificación de patrones o conjuntos de estados y

sectores altamente correlacionados de tal manera que ayudó a mostrar un

panorama de la actividad turística en México y algunas de sus implicaciones

económicas. De esta forma, esta investigación sostiene que el PCA y LDA tienen

el potencial de aportar una mirada diferente al fenómeno del turismo.

3. OBJETIVO

El objetivo general de esta investigación es conocer el grado de interrelación que

guardan las diferentes variables económicas de la CSTM en el proceso de

desarrollo turístico en las 32 entidades federativas de México.

4. METODOLOGIA

Como se mencionó anteriormente, el objetivo principal de trabajo de investigación

es conocer el grado de interrelación que guardan las diferentes variables

económicas de la CSTM en el proceso de desarrollo turístico en las 32 entidades

federativas de México, con un comportamiento económico similar. Para la

elaboración de este trabajo se tomaron las 98 variables o actividades que ofrecen

un panorama de la evolución macroeconómica de las actividades relacionadas con

el turismo contenida en la CSTM.



En esta sección, se da a una breve explicación de cada uno de los métodos de

Análisis Multivariado el cual incluye métodos conocidos como el Análisis de

Componentes Principales (PCA), el Análisis Discriminante Lineal (LDA), y el

Análisis de Jerarquía de Clústeres (HCA). Estos métodos, por separado,

permitieron analizar de manera conjunta, y no individual, las diferencias entre las

diversas variables, que mantienen estrechas relaciones entre sí con base en su

comportamiento económico. Esto permitió ofrecer un diagnóstico rápido, aplicando

los dos algoritmos ya mencionados, para su posterior comparación y

agrupamiento de las diversas entidades federativas de México.

4.1Análisis de Componentes Principales (PCA)

Cuando se recoge información de muestras de datos, lo más factible es tomar el

mayor número de posible de variables. Sin embargo, si se toma demasiadas

variables sobre un conjunto de muestras, es evidente que se vuelve un caso

donde es difícil visualizar las relaciones entre estas variables.

El Análisis de Componentes Principales (PCA) trata de agrupar las variables que

se correlacionan entre sí y separar las que no presentan correlación. Los factores

en el análisis de PCA no son interpretados teóricamente, sino sólo las

agrupaciones de variables. A partir de este proceso, nuevas variables son

calculadas, que son una combinación lineal de las originales y se van

construyendo según el orden de importancia en cuanto a la variabilidad total que

recogen de la muestra. La componente principal que proporciona una mayor

información es la primera, con menor información la segunda y así sucesivamente,

hasta la última que proporciona una menor información.

Es importante mencionar que si las variables originales no están correlacionas de

partida (datos homogéneos: miles de pesos, kilogramos, metros, etc.) entonces no

tiene sentido realizar un análisis de componentes principales.



El objetivo principal de PCA es la representación de las medias numéricas de

varias variables en un espacio de pocas dimensiones, donde se pueden percibir

relaciones, que de otra manera, permanecerían ocultas en dimensiones

superiores. Dicha representación debe ser tal que al desechar dimensiones

superiores, que generalmente es de la cuarta en adelante, la pérdida de

información sea mínima. Sin embargo, la pérdida de información se ve

ampliamente compensada con la simplificación realizada, ya que muchas

relaciones, como la vecindad entre puntos es más evidente cuando éstos se

dibujan sobre un plano que cuando se hace mediante una figura tridimensional.

4.1.1. Conceptos básicos.

Como el objetivo de este análisis es reducir las dimensiones es necesario conocer

los sientes conceptos:

Media aritmética

Es la suma de los productos de los posibles valores que tomen las variables xi,

entre el número de valores que esa variable contenga.

x=1n∙∑i=1

n

( xi−x)

Varianza

Una forma natural de medir la dispersión en torno a la media es calcular la media

de las diferencias x i−x,

1n∑i=1

n

(x i−x)

Se parte del supuesto que habrá valores por encima y por debajo de la media que

se compensarán; por esta razón es más conveniente calcular el cuadrado de las

diferencias. Se define varianza de una variable estadística como la media de los



cuadrados de las desviaciones de sus valores respecto a su media. Esta se

representa por S2,

S2= 1n−1

∑i=1

n

( xi−x)

Hasta ahora, solo se ha considerado una medida o valor, pero cuando se tienen

diferentes variables es necesario manejar otros conceptos para entender la

posible relación entre ellas:

Coeficiente de correlación

Es una medida del grado de asociación lineal entre las variables X y Y. Se

representa por

r=SxySx ∙ S y

donde Sx y Sy son las desviaciones típicas de las variables X e Y respectivamente,

y Sxy es la covarianza muestra de X e Y, que se define como la media de los

productos de las desviaciones correspondientes de X e Y, y sus medias

muéstrales.

Sxy=1n−1

∙∑i=1

n

(x i−x ) ( y i− y )

Matriz de correlación

Cuando se tienen n variables (x1, x2,… xn), se pueden ordenar en una matriz los

diferentes coeficientes de correlación de cada variable con el resto y consigo

misma, obteniendo una matriz con cada elemento igual a,



rij=Sx i x jS xi ∙ Sx j

El resultado es una matriz simétrica, con la diagonal principal debe ser igual a 1.

Matriz de varianza-covarianza

De las n variables, podemos ordenar en una matriz las diferentes covarianzas

entre variables y varianzas de estas.

Sxy=1n−1

∙∑i=1

n

(x i−x ) ( y i− y )

Sxx=Sx2= 1n−1

∙∑i=1

n

(x i−x )2

Relación entre matriz de varianza-covarianza y matriz de correlación

Si las n variables tienen medidas no homogéneas (por ejemplo kg, m, s,…), las

varianzas no pueden ser comparables. Entonces se recurre a la matriz de

correlación. La correlación es la covarianza medida para valores estandarizados.

Por eso la correlación de una variable consigo misma da uno; es la varianza de

cualquier variable estandarizada.

Calculo de la matriz de correlación

El cálculo de la matriz de correlación se puede efectuar de dos formas:

1) Con los datos originales: Por lo cual se aplica la fórmula de cálculo de

coeficiente de correlación lineal entre dos variables.



La matriz de correlación se forma entonces ordenando los distintos coeficientes de

correlación en una matriz de filas y columnas de la forma,

M=[ r11 r12 r 1p

r21 r22 r 2p

r p1 r p2 r pp]

Ya se sabe dos cosas de M; esta será simétrica, ya que rab = rba, y que los

elementos de la diagonal principal serán todos uno, raa= 1.

2) Con los datos normalizados: la otra posibilidad para calcular la matriz de

correlación, es hallando la matriz de varianza-covarianza para datos

normalizados.

Normalización de los datos

Se calculan primeramente las estadísticas básicas de cada variable xa, y media y

desviación estándar, pasamos de la variable xa a la za mediante la ecuación

zai=xai−xaSa

A partir de las variables estandarizadas z1, z2, z3,…, zp, se calculan varianzas y las

covarianzas entre variables, ordenando esos valores en forma de matriz con filas y

columnas representando espectros y en virtud de la relación entre la matriz de

varianza-covarianza y la matriz de correlación, se calcula la matriz de esta última.



S=M=[Sz1 z1 SZ 1Z 2… SZ 1ZP

Sz2 z1 SZ 2Z 2… SZ 2ZP

SZ 3 Z1 SZ 3Z 2… SZ 3ZP

. . .

. . .SZPZ 1 SZPZ 2 SZPZP

]4.1.2. Valores y vectores propios

El siguiente paso es calcular los valores Y de vectores propios de la matriz de

correlación calculada. Los vectores y valores propios (eingenvectores y

eingenvalores) son resultados de la ecuación matricial

MV=λV

Donde V = (v1,V2,…,Vi) son los eigenvectores o vectores propios y λ1, λ2,…, λi

denota los valores propios. Los valores propios son las raíces del polinomio

det (M−λ I )=0

Donde I representa la matriz identidad de la misma dimensión que la matriz M.

esta expresión da como resultado un polionomio cuyas raíces serán los valores

propios de M.

Los vectores propios asociados a esos valores propios, se calculan sustituyendo

los valores propios de la formula

MV=λV

Para cada valor propio de λ i, se obtiene un vector propio Vi, diferente y asociado a

su respectivo λ i.

4.1.3. Componentes principales



Las coordenadas de los vectores propios hallados son los coeficientes de

transformación que hay que realizar para pasar de las variables originales a las

nuevas variables que se denominan “componentes principales”. Los valores

propios dan el orden en el que hay que poner esos vectores propios; el valor

propio mayor está indicando que su vector propio asociado apunta en la dirección

de máxima variabilidad de los datos, es decir, en la primera componente principal;

el segundo valor propio hace lo mismo con su vector propio, indicando que apunta

en la siguiente dirección de máxima variabilidad ortogonal con la anterior, y así

sucesivamente.

4.2Análisis Discriminante Lineal (LDA)

Conocida la distribución de un conjunto de datos entre dos o más grupos, se

busca entender la naturaleza de estas diferencias y a su vez la búsqueda de una

regla de comportamiento que permita la clasificación de nuevos datos para los que

se desconoce su pertenencia a un grupo. Para la solución a este problema, en

este caso se aborda la técnica de Análisis Discriminante Lineal (LDA).

LDA se puede considerar como un análisis de regresión de la variable

dependiente que tiene como categorías las etiquetas de cada uno de los grupos.

El análisis pretende varios objetivos. En primer lugar, calcular la verosimilizad de

que los individuos pertenezcan a uno u otro de los grupos a partir al conjunto de

predictores. Con el LDA se pretende encontrar relaciones lineales entre las

variables continuas que mejor discriminen a los objetos en los grupos dados. En

segundo lugar, determinar cuáles de las variables predictores son realmente útiles

para hacer la predicción. La idea en este caso es que algunos de los predictores

medidos pueden ser irrelevantes para determinar la pertenencia a un grupo.

Los conjuntos de datos propuestos y los vectores de ensayo son formulados en

una representación gráfica de los conjuntos de datos y vectores de prueba. Para



facilitar la comprensión se representan los conjuntos de datos como una matriz

que consta de características en la forma dada a continuación:

Calculando la media de cada conjunto de datos y la media de los mismos. Sean µ1

y µ2 la media del conjunto 1 (SET1) y conjunto 2 (SET2), respectivamente µ3 la

media de los datos completos que se obtienen mediante la fusión de fijar los

conjuntos SET1 y SET2, y dada por la siguiente ecuación,

μ3=p1 μ1+ p2μ2

Donde p1 y p2 son la probabilidad de las clases o conjuntos. En el caso de este

problema dos clases, el factor de probabilidad se supone es 0.5, debido a que se

tienen dos conjuntos. Si se tuviera un tercer conjunto la probabilidad sería de

0.333, debido a que la probabilidad disminuye conforme aumentan los conjuntos.

El LDA trabaja tanto en el interior de las clases o conjuntos, como entre las clases

y se utilizan para formular los criterios de divisibilidad de clases. Dentro de la

clase, dispersión es la covarianza esperada de cada una de las clases.

Por tanto, para el problema de dos clases

Sw=0.5cov1+0.5cov2



Todas la matrices de covarianza son simétricas. Sean cov1 y cov2 la covarianza

del conjunto 1 y conjunto 2, respectivamente. La matriz de covarianza se calcula

utilizando la siguiente ecuación,

cov j=(x j−μ j)(x j−μ j)T

Donde xj = (x1….xn) ósea, el conjunto de datos, µj es la media poblacional del

conjunto y T es la matriz transpuesta.

La dispersión entre las clases es calculada utilizando la siguiente ecuación

Sb=∑j

(μ−μ3)(μ j−μ3)T

Tenga en cuenta que la Sb se puede considerar como la covarianza del conjunto

de datos cuyos miembros son los vectores de medias de cada clase. Tal como se

define anteriormente, el criterio de optimización en LDA es la relación de

dispersión entre la clase a la dispersión dentro de la clase. La solución obtenida

mediante la maximización de este criterio define los ejes del espacio transformado.

5. RESULTADOS Y DISCUSIÓN

Para el análisis económico se utilizaron las 32 entidades federativas de México. El

cuadro 5.1 muestra a las 32 entidades analizadas.



1 AGUASCALIENTES 17 MORELOS

2 BAJA CALIFORNIA 18 NAYARIT

3 BAJA CALIFORNIA SUR 19 NUEVO LEÓN

4 CAMPECHE 20 OAXACA

5 COAHUILA DE ZARAGOZA 21 PUEBLA

6 COLIMA 22 QUERÉTARO

7 CHIAPAS 23 QUINTANA ROO

8 CHIHUAHUA 24 SAN LUIS POTOSÍ

9 DISTRITO FEDERAL 25 SINALOA

10 DURANGO 26 SONORA

11 GUANAJUATO 27 TABASCO

12 GUERRERO 28 TAMAULIPAS

13 HIDALGO 29 TLAXCALA

14 JALISCO 30 VERACRUZ DE IGNACIO DE LA LLAVE

15 MÉXICO 31 YUCATÁN

16 MICHOACÁN DE OCAMPO 32 ZACATECAS

Cuadro 5.1: 32 entidades federativas de México.

La agrupación de las entidades federativas fueron analizadas mediante los

métodos de PCA y LDA.

El parámetro utilizado para hacer el estudio fue el volumen de unidades

económicas de cada uno de los rubros económicos con relación en la actividad

turística. Toda la información recabada de cada rubro fue concentrada en un ente

al que se llamará espectro. El conjunto de todos los espectros conforman una

matriz de datos cuya dimensión es de 98 x 32. Cada columna de esta matriz

representará el comportamiento económico de cada variable. En la figura 5.1 se

muestran los espectros (comportamiento económico) de las 32 entidades

federativas analizadas. En ellos se pueden observar la intermitencia de las

unidades económicas (expresadas en miles de pesos) de las variables turísticas.



Figura 5.1: Indicadores turísticos contra rubros económicos.

De la Figura 5.1 se puede observar que se aplicó un proceso de normalización a

los espectros, para poder llevar acabo la comparación existente entre los rubros

económicos. De igual forma, se puede ver que existe una cierta similitud entre los

espectros de las entidades federativas. Sin embargo, también se aprecian algunas

diferencias que fueron del interés de este equipo de investigación.

Es importante señalar que el PCA nos ofrece una excelente opción para conocer

si dos o más entidades federativas tienen comportamientos económicos similares

y de esta forma, permitir comprender de mejor manera el comportamiento turístico

del país.

Una vez procesada la matriz de datos, se procedió al cálculo de la matriz de

covarianza o correlación. Con la matriz de correlación de dimensión 32 x 32, se

calcularon los 32 eigenvalores y sus respectivos eigenvectores. Con los

eigenvectores se generara el nuevo espacio de coordenadas ortogonales,

conocidas como espacio de las componentes principales. Las primeras

componentes principales, correspondientes a los eigenvalores más grandes,

reflejan la información más relevante respecto de las diferencias existentes entre



distintos espectros o entidades federativas, por tanto, es de interés analizar

únicamente los espectros en el espacio de las primeras componentes principales.

Los grupos apreciables en los resultados de PCA fueron ratificados mediante la

aplicación de LDA. Finalmente se graficaron las componentes principales contra

los indicadores turísticos con la finalidad de determinar que variables o actividades

influyeron en la formación de los grupos mostrados por los métodos de PCA y

LDA.

5.1Aplicación del método de PCA

Con la aplicación de este método se obtuvo una matriz de covarianza y finalmente

las componentes principales. La información principal obtenida del PCA es

descrita por las primeras tres componentes principales: PC1, PC2, PC3;

adicionalmente se muestra en la figura 5.5 la componente PC4 y PC5. Los

resultados del PCA pueden ser observados en las Figuras 5.2, 5.3, 5.4 y 5.5. En

estas graficas los puntos representan los espectros de cada entidad federativa.

Figura 5.2: Grafica PC2 vs PC1 Figura 5.3: Grafica PC3 vs PC1



Figura 5.4: Grafica PC3 vs PC2 Figura 5.5: Grafica PC5 vs PC4

En la Figura 5.2 se puede observar la componente PC2 vs PC1. En esta figura se

ve un grupo masivo de puntos, que representan a las entidades federativas de

México, en la parte central inferior, seguido de otro grupo a su izquierda, además

de varios puntos separados de estos dos grupos, pero cercanos a ellos; esto

representan un comportamiento económicos diferente al resto.

La Figura 5.3 corresponde a las componentes PC3 vs PC1 de todos los espectros.

Claramente en esta figura se aprecian ciertas similitudes con la Figura 5.2, sobre

todo el grupo del centro. Pero claramente existen diferencias entre algunos

puntos, así como algunos puntos externos.

La Figura 5.4 muestra la componente PC3 vs PC2. En ella ya ven que los puntos

se han centrado más en ambos ejes, con algunas excepciones. Pero esto se debe

a la perdida de información de las componentes. La Figura 5.5 muestra a la

componente PC5 vs PC4. En ella ya no se observa la formación de varios grupos,

y los puntos están distribuidos de manera uniforme. Es decir, estas componentes

ya no proporcionan información relevante acerca de la correlación entre las

entidades federativas.

Una vez comparadas las primeras tres componentes principales, se toman

aquellas que contiene mayor información, en este caso las primeras dos



componentes. Sin embargo, la identificación de grupos puede ser relativa por lo

que se procedió a utilizar el método de LDA para definir de mejor manera dichos

grupos o clústeres y sus individuos.

5.2Aplicación del método de LDA y HCA.

Una vez que se obtuvieron los resultados de PCA, el interés e esta investigación

se centró en utilizar un método, basado en una métrica (distancia entre puntos),

que permitiera definir de manera más eficiente los grupos que en una determinada

base de datos existan. Como se explicó en la sección anterior, el método de LDA

maximiza la varianza entre las clases o grupos y minimiza la varianza en el interior

del grupo o clase, permitiendo una mejor definición entre ellos. En resumen, el

LDA es una técnica que ayuda a resolver el problema de la clasificación de un

individuo que puede pertenecer a una de diferentes poblaciones.

En la Figura 5.6 se puede apreciar el resultado de aplicar el LDA al resultado

obtenido con las componentes PC2 y PC1 -ahora nombrados LD2 y LD1-

observándose la formación de seis grupos con diversos comportamientos

económicos, y claramente permite definir la relación existente entre las entidades

federativas del mismo grupo, así como los individuos que los componen. Es

importante mencionar que el número de grupos no es fijo, y se determina de

acuerdo a los intereses de cada investigador. En este caso en particular se

definieron seis grupos siguiendo la división que propone el Sistema Integral de

Información de Mercados Turísticos del Consejo de Promoción Turística de

México (SIIMT). Esta división obedece a la agrupación de estados de la República

Mexicana por región geográfica; las regiones son: Centro de México, Costa del

Pacífico, Golfo y Sur de México, Norte de México, Península de Baja California, y

Península de Yucatán.

Uno de los hallazgos más interesantes de esta investigación es que la agrupación

de PCA y LDA no corresponde con este criterio geográfico, puesto que analiza el



comportamiento económico, y se puede observar una integración de ciertos

estados de acuerdo con la similitud del comportamiento en diferentes variables.

Figura 5.6: LD2 vs LD1.

En la Figura 5.7 se muestra una ampliación en los grupos 5 y 6, así así como los

individuos que los componen.



Figura 5.7: LD2 vs LD1. Ampliación a los grupo 5 y 6.

Los resultados obtenidos con LDA son más precisos en cuanto a los obtenidos

con PCA, sobre todo cuando las condiciones económicas varían entre el conjunto

de entidades federativas, dando más peso a aquellas que tienen un cambio

económico más estable, porque aparentemente son zonas más estables. A

continuación se muestran las variables que tuvieron una mayor correlación en la

mayoría de los diferentes estados de la república así como el comportamiento de

los destinos costeros y fronterizos. De igual forma, se presenta el comportamiento

económico por los grupos identificados en LDA.



Variables Descripción

8 Energía eléctrica

42 Ingresos por prestación de servicio

72 Total de activos fijos

90 Ingresos económicos de turistas

extranjeros

91 Ingresos económicos de turistas

nacionales

Tabla 5.1: Correlación positiva de variables.

Figura 5.8 y 5.9: Comportamiento de destinos costeros y fronterizos, respectivamente.



Figura 5.10: Comportamiento económico de destinos, Grupo 1.




Finalmente, se presenta el resultado del dendograma que se refiere a la

clarificación de jerarquía del cluster analizado. Los rectángulos más grandes

representan las entidades federativas con un desempeño más destacado en las

diferentes variables analizadas por HCA. Los estados señalados en un círculo son

Quintana Roo, Sinaloa y Morelos.

Figura 5.16: Jerarquía de cluster.



6. CONCLUSIONES

Esta investigación ha tratado de experimentar con nuevas rutas metodológicas

que permitan una mejor comprensión de la contribución del sector turístico a la

economía de México. Sin duda herramientas como el PCA y LDA proveen una

visión diferente sobre el comportamiento de diferentes variables económicas en

determinados espacios geográficos. Una de las principales ventajas en estos

métodos es que permite un análisis integrado de una gran cantidad de variables al

mismo tiempo. Esa posibilidad ayuda a mostrar las similitudes y diferencias de una

misma variable con diferentes elementos o individuos de un universo determinado.

Para el caso de este estudio, estas pruebas fueron de mucha utilidad para saber

cómo ciertos estados, a pesar de sus diferencias en lo que se refiere a vocación

turística e infraestructura, se comportan de manera similar en lo que se refiere al

desempeño económico. Esta información abre a la posibilidad a la formación de

nuevas interrogantes sobre los diferentes factores de desarrollo turístico a partir de

los hallazgos obtenidos en esta investigación.

Los resultados confirman que el estado de Quintana Roo lidera el sector turístico

de acuerdo al comportamiento en su desempeño económico con las diferentes

variables estudiadas en esta oportunidad. De igual forma, se confirma que la

actividad turística en México se concentra principalmente en los estados costeros

y fronterizos de la república. Sin embargo, los resultados también mostraron al

estado de Sonora con un comportamiento único a partir de LDA y al estado de

Morelos como un estado con alto desempeño turístico-económico a partir de la

prueba de HCA. Estos datos son sorpresivos dado que se tenía la hipótesis que el

estado de Sonora presentaría un comportamiento similar al de Baja California Sur

y Sinaloa, en tanto que la participación de Morelos no sería del grado de

importancia de Quintana Roo. Todos estos datos ayudan a entender que la

actividad turística va más allá de un simple análisis del flujo de turistas y la

prestación de servicios. Estos resultados muestran que este sector involucra

muchas más actividades y espectros de análisis que podrían explicar con mayor



detalle el desarrollo económico- turístico de cada una de estas entidades. Por esta

razón, estas rutas metodológicas generan nuevos datos que ayudan a develar

algunas causas de ese comportamiento en casos muy focalizados.

Aunque la aplicación de métodos alternativos como los utilizados en esta

investigación sin duda contribuyen a comprender de mejor manera el

desenvolvimiento de una actividad económica, se debe tener cuidado a la hora de

interpretar los resultados. Una de las principales limitaciones que se encontraron

en esta investigación fue la imposibilidad de integrar otros factores al análisis más

allá de los datos normalizados. Esta situación impide darle una dimensión al

contexto así como a la influencia de factores internos y externos en el desempeño

de las variables en su conjunto así como cada caso de manera particular. Se cree

que sin un conocimiento general del contexto que se está estudiando (por ejemplo

cuestiones sociales, políticas, ambientales, culturales, etc.), la interpretación de los

resultados de estas pruebas presenta un panorama complejo. Sería relativamente

sencillo justificar los resultados obtenidos en los estados de Quintana Roo,

Guerrero, y Baja California teniendo una noción básica de los destinos turísticos

principales de México. Sin embargo, esta tarea no sería tan simple a la hora de

explicar las similitudes que se presentan entre Michoacán y el estado de Yucatán.

Por esta razón se sugiere utilizar estas herramientas como una estrategia

introductoria o complementaria al análisis, pero difícilmente única. La importancia

de seguir probando diferentes estrategias radica precisamente en encontrar las

ventajas que éstas ofrecen aunque sin menospreciar sus posibles limitaciones.

Esta investigación ha tratado de experimentar estos nuevos caminos para estudiar

el turismo con el unico objetivo de ampliar nuestro conocimiento de esta

importante actividad. Sin duda, la información contenida en este reporte puede

servir como una plataforma metodológica para la realización de más estudios

similares. Todos los resultados, por muy básicos o complejos que parezcan,

abonaran a la construcción de un panorama más amplio sobre el complejo

fenómeno del turismo.



BIBLIOGRAFÍA

A. Catena, M. Ramos, H. Trujillo (2003). Análisis Multivariado: un Manual para Investigadores. Edward Arnold, Madrid: Biblioteca Nueva.B. S. Everitt, G. Dunn (1991). Applied Multivariate Data Analysis. Edward Arnold, London, 1128-238.http://www.inegi.org.mx/inegi/contenidos/ProductosyServicios/default.aspxINEGI, Producto interno bruto turístico trimestral por entidad federativa. – Disponible en: http://www.inegi.org.mx/sistemas/bie/?idserPadre=1000031000500070#D1000031000500070INEGI, Productos y Servicios. - Disponible en:INEGI, sistema de cuentas nacionales México. - Disponible en: http://www.inegi.org.mx/inegi/contenidos/espanol/prensa/comunicados/itat.pdfINEGI. Cuenta Satélite del Turismo de México 2007- 2011. México: INEGI, 2012.J. L. Pichardo-Molina, C. Frausto-Reyes, O. Barbosa-García, R. Huerta-Franco, J. L. González-Trujillo, C. A. Ramírez-Alvarado, G. Gutiérrez-Juárez, C. Medina-Gutiérrez (2006). Raman spectroscopy and multivariate analysis of serum simples from breast cancer patients. Laser Med Sci, 10103:432{8.J. Shlens. - A Tutorial on Principal Component Analysis. - Disponible en: http://www.snl.salk.edu/~shlens.M.U. Limón Escamilla, C. A. Quiroga Juárez. - Estudio de la correlación entre las bolsas financieras en el mundo, usando el Análisis Multivariado (PCA y LDA). –MATLAB 7 – Escuela Técnica Superior de Ingenieros Industriales, Universidad Politécnica de Madrid. Javier García de Jalón, José Ignacio Rodríguez, Jesús Vidal, Diciembre 2005.S K. Teknomo. - Discriminant Analysis Tutorial – Disponible en: http://people.revoledu.com/kardi/tutorial/LDA/S. Ji. J. Ye. (2008) - A Unified Framework for Generalized Linear Discriminant Analysis - Department of Computer Science and Engineering, University of Louisville October 2 - Disponible en: http://www.public.asu.edu/~jye02/Publications/Papers/Ji_cvpr08.pdf


http://www.public.asu.edu/~jye02/Publications/Papers/Ji_cvpr08.pdf

http://people.revoledu.com/kardi/tutorial/LDA/

http://www.snl.salk.edu/~shlens

http://www.inegi.org.mx/inegi/contenidos/espanol/prensa/comunicados/itat.pdf

http://www.inegi.org.mx/sistemas/bie/?idserPadre=1000031000500070#D1000031000500070

http://www.inegi.org.mx/sistemas/bie/?idserPadre=1000031000500070#D1000031000500070

http://www.inegi.org.mx/inegi/contenidos/ProductosyServicios/default.aspx

análisis de correlación en el desarrollo económico de las entidades federativas con vocación...

Documents