facultad de administracion hotelera, turismo y gastronomÍa carrera de...
Post on 14-May-2020
7 Views
Preview:
TRANSCRIPT
FACULTAD DE ADMINISTRACION HOTELERA,
TURISMO Y GASTRONOMÍA
Carrera de Administración en Turismo
Relación entre Google Trends y el flujo mensual de llegadas
de visitantes a la Reserva Paisajística Nor Yauyos-Cochas en
el período 2011-2015
Monografía para optar por el Título Profesional de
Licenciado en Administración en Turismo
CHRISTY MIRANDA SANCHEZ
Asesora:
Claudia Gil Arroyo
Lima- Perú.
2016.
Contenido
Introducción ........................................................................................................ 3
Problema de investigación ................................................................................. 4
Planteamiento del Problema ................................................................................................. 4
Formulación del problema ..................................................................................................... 5
Marco Referencial .............................................................................................. 8
Antecedentes .......................................................................................................................... 8
Marco teórico ......................................................................................................................... 10
Big Data ............................................................................................................................. 10
Google Trends. ................................................................................................................. 11
Reserva Paisajística Natural Nor Yauyos Cochas. .................................................... 13
Modelo de referencia del flujo de arribos mensuales ................................................. 13
Objetivos ................................................................................................................................ 15
Hipótesis ................................................................................................................................ 16
Método ............................................................................................................. 17
Tipo y diseño de investigación ........................................................................................... 17
Tipo de investigación. ...................................................................................................... 17
Diseño de investigación................................................................................................... 17
Variables ................................................................................................................................ 17
Flujo mensual de visitantes que arriban a la RPNYC. ................................................ 17
Índice de Búsquedas de Google Trends Mensual referido a la RPNYC. ................ 17
Instrumentos de Investigación ............................................................................................ 18
Procedimiento para recolección de datos ........................................................................ 19
Plan de análisis ..................................................................................................................... 19
Resultados ....................................................................................................... 21
Discusión .......................................................................................................... 25
Conclusiones .................................................................................................... 27
Recomendaciones ............................................................................................ 28
Referencias ...................................................................................................... 29
Anexos ............................................................................................................. 33
3
Introducción
La Reserva Paisajística Nor Yauyos Cochas (RPNYC) es un atractivo turístico
ubicado en la Región Lima. En los últimos años ha venido experimentando un
crecimiento en cuanto al flujo de visitas que recibe en forma anual. No obstante,
este crecimiento no ha sido del todo uniforme en cuanto a los arribos mensuales.
A los métodos tradicionales para pronosticar llegadas a un destino turístico que
incluyen datos históricos de años anteriores se ha sumado un nuevo indicador:
la Big Data provista por Google Trends, aplicación cada día más usada para
elaborar pronósticos financieros, macroeconómicos, de salud pública,
comerciales, entre otros. De acuerdo a los aportes de diversos investigadores,
resulta posible adicionar los indicadores numéricos por el buscador a los datos
turísticos en diferentes modelos matemáticos para pronosticar el número de
turistas que arribaran hacia un lugar determinado.
El presente documento tiene por objetivo encontrar si existe una relación entre
los datos provistos por el buscador y el flujo mensual de llegadas turísticas a la
RPNYC. La hipótesis no se basa en una relación causa-efecto, sino en encontrar
una relación entre ambas variables usando como referencia al trabajo de Choi y
Varian (2009), a fin de comprender como se comporta una variable en relación
con la otra.
4
Problema de investigación
Planteamiento del Problema
Las personas revelan información útil acerca de sus necesidades, deseos,
intereses y preocupaciones en la Internet. Esto podría ser una explicación
aceptable del rápido y exitoso crecimiento de Google, el buscador más popular
a nivel global. Choi & Varian (2009) usaron el volumen de búsquedas para
predecir, entre otras cosas, las estadísticas de las llegadas mensuales de turistas
a países Canadá y Estados Unidos mediante el análisis de regresión de series
de tiempo incorporando datos de los índices de búsqueda en combinación con
los flujos de llegada turísticas históricos.
Es a partir de la anterior investigación que los índices de búsqueda electrónica
se convierten en objetos de estudio a tomar en cuenta por los profesionales del
turismo (Gawlik, Kabaria, & Kaur, 2011). Askitas & Zimmermann (2009)
señalaron que se espera que lo que los internautas estén buscando hoy sea
predictivo de lo que harán en un futuro inmediato o muy próximo si es que de
viajar se trata.
El flujo de llegadas de visitantes a la RPNYC ha presentado una tasa de
crecimiento del 20% anual si se analiza desde el año 2010 hasta el 2015
(SERNANP, 2016). Sin embargo, resulta que dicho crecimiento alcanzado en
los últimos años (Ver anexo 1) no ha mantenido un comportamiento regular en
cuanto al número de visitas mensuales para dicho período. Ello se refleja en la
alta variabilidad de los arribos mensuales con respecto a la media de cada año
la cual es medida a través del coeficiente de variación de Pearson (Ver anexo
2). Durante el período mencionado, los coeficientes de variación anuales se
encuentra siempre por encima de 0.80, lo cual significa que la serie de datos es
altamente heterogénea (Moore, 2005). Cuando se encuentran datos de esta
naturaleza resulta más complejo modelar variables como la estacionalidad y el
flujo de llegadas (Nieto, Amate, & Román, 1999).
Esta investigación busca determinar la probable relación entre la actividad de
búsqueda en Internet acerca de la llegada a la RPNYC y la llegada de visitantes
al mismo punto entre enero del 2011 y diciembre del 2015 a fin de establecer si
las búsquedas están relacionadas con las visitas mensuales reales y así
5
considerar la posibilidad de incorporarlas como indicador a tomar en cuenta para
medir el flujo de llegadas a futuro.
Formulación del problema
Este documente tiene como problema de investigación el siguiente:
“¿Qué relación existe en la Big Data provista por Google Trends y el flujo
mensual de llegadas de visitantes a la Reserva Paisajística Nor Yauyos-Cochas
en el período del 2011-2015?”
Justificación de la investigación
Un motivo para explorar los datos de Google en un país como el Perú, en donde
el acceso a internet no alcanza el grado de cobertura que tienen los países
desarrollados, es que dicha variable no resulta del todo limitante. Tal lo
demuestra un estudio en donde se determinó que existe una correlación entre
los índices económicos del mundo real (turismo, ventas minoristas, consumo
privados entre otros) y la actividad de búsquedas electrónicas en Sudáfrica
(Lutz, 2013), país en el que 49 de 100 personas usan internet (Banco Mundial,
2016); mientras que en el Perú dicho ratio es de 50 por cada 100 individuos
(GFK, 2015). Es importante mencionar esto porque los datos de la Big Data
electrónica se consideran más representativos en países con mayor grado de
cobertura de internet (Borba & Akemi, 2014). No obstante, la investigación sobre
los indicadores sudafricanos ha demostrado que sí es posible realizar
investigaciones de este tipo en países en donde el internet todavía no llega a ser
usado por una mayoría de la población.
Basado en el análisis de las búsquedas que realizan los potenciales visitantes
con respecto a la RPNYC, el estudio puede ayudar a obtener información
secundaria: estacionalidad del interés, destinos turístico relacionados,
disposición geográfica del interés electrónico y horas pico en donde se realiza
mayor cantidad de consultas, entre otros (Zeynalov, 2014). Del mismo modo se
conocerá qué distritos o ciudades todavía no buscan información sobre el
recurso. Todos estos datos resultan importantes para que puedan
implementarse estrategias orientadas al marketing electrónico (Borba & Akemi,
6
2014) que tendrán por objetivo incrementar el flujo de visitantes que llega a la
Reserva.
Buscar una relación entre tráfico web y visitas contribuye a la posible predicción
de las tendencias del turismo (Lutz, 2013). Se trata de predicciones de muy corto
plazo o nowcasting (Artola & Galn, 2012), las cuales son muy útiles en variables
con alto grado de volatilidad (Carriere-Swallow & Labbe, 2013), tal como es el
caso de llegadas a la RPNYC.
Con la predicción de tendencias de muy corto se puede ayudar a una variedad
de industrias que dependen directa e indirectamente del turismo. Resultaría
posible ajustar la oferta de habitaciones o el número de restaurantes de
conocerse con mayor precisión si es que vendrán más o menos visitantes en
comparación con un período anterior. Las predicciones turísticas de corto plazo
ayudan a optimizar los recursos que componen la oferta turística (RocaSalvatella
& Telefónica, 2014).
Otro punto a considerar es que cada vez una mayor proporción de turistas
peruanos y extranjeros usa internet. En el 2014 un 74% de vacacionistas
nacionales indicó que internet fue el medio que más influyó en su decisión de a
dónde dirigirse en sus viajes (Promperu, 2015); mientras tanto un 67% de los
extranjeros señaló a dicho canal como el más influyente para la elección de un
destino. En ambos grupos, el internet ocupa la primera ubicación desplazando a
las recomendaciones de familiares y amigos, revistas, folletos, entre otros
(Promperu, 2015).
Los registros electrónicos provistos por Google son una fuente casi ilimitada de
información que puede ser aprovechada por los profesionales del turismo. No
tienen costo alguno y se accede a ellos en forma inmediata. Con estos datos es
posible detectar patrones de comportamiento y tendencias del consumidor que
no podrían ser detectadas con métodos tradicionales (Instituto Valenciano de
Tecnologías Turísticas, 2015).
La data de volúmenes de búsqueda provista por Google minimiza los sesgos, ya
que es información obtenida a través de métodos computacionales artificiales
(Zeynalov, 2014). Las desviaciones (o sesgos) pueden aparecer tanto en el
encuestador como en el encuestado cuando se aplica encuestas (Malhotra,
7
2008). De ahí que el uso de datos electrónicos para investigaciones de mercado
gane cada día más prestigio (Instituto Valenciano de Tecnologías Turísticas,
2015).
8
Marco Referencial
Antecedentes
Diversos estudios han comprobado que los datos provistos por Google resultan
útiles como indicadores económicos. Se llegó a demostrar que existe un grado
de correlación importante entre determinadas palabras clave asociadas a la
búsqueda de empleo y la evolución de la tasa de desempleo mensual en
Alemania (Askitas & Zimmermann, 2009). Se construyó un modelo que
pronosticaba el precio del petróleo en función a indicadores macroeconómicos y
datos de búsqueda de Google (Fantazzini & Fomichev, 2014). Otros
investigadores usaron los datos del buscador para describir la evolución que
presentó la propagación del virus de la gripe en los Estados Unidos entre los
años 2003 y 2009 (Dukic, Lopes, & Polson, 2012). Finalmente, varias entidades
estatales ya han encontrado que la incorporación de datos de Google Trends en
sus índices es fructífera, incluyendo los bancos centrales de Israel, Inglaterra,
España, Italia y Chile (Ito & Odenheimer, 2012).
Los modelos de proyección de demanda turística son diversos. Gonzales & Moral
(1995), con el fin de pronosticar las llegadas turísticas a distintas ciudades
españolas, usaron el análisis de las series de tiempo. Por otro lado,
Athanasopoulos, Hyndman, Song, & Wu (2011) implementaron el estudio de
series mensuales, trimestrales y anuales. Nieto, Amate, & Román (1999)
hicieron énfasis en la estacionalidad y proyecciones mensuales de las llegadas
a Almería. Estas tres investigaciones usaron modelos autorregresivos, es decir,
modelos en los que los valores proyectados dependen de sus datos históricos
anteriores (Moore, 2005). Ello los diferencia de ecuaciones que requieren de
valores externos. El volumen de importaciones de una economía pequeña, por
ejemplo, depende mucho más del tipo de cambio que de los datos históricos
registrados en una Balanza Comercial (Mankiw, 2007).
Con relación a la Big Data, y más específicamente al flujo de llegadas a un
espacio determinado, Artola & Galn (2012) construyeron un modelo que
relacionaba el flujo mensual de turistas británicos que ingresaba a España con
el volumen de búsquedas que hacían los anglosajones con respecto al país
9
ibérico entre los años 2006 y 2011. Determinaron que la relación entre ambas
variables era del tipo directa y lineal, y que resultaba viable obtener un indicador
ajustado del flujo mensual de turistas británicos a diversas ciudades españolas.
El propósito de esta investigación fue evaluar si el indicador provisto por Google
podría ser incorporada para el nowcasting, predicción de muy corto plazo.
Por otro lado, Zeynalov (2014) llegó a evidenciar la elegibilidad de los datos
provistos por Google para construir un modelo econométrico válido que
posibilitaba la predicción inmediata y de corto plazo con respecto al flujo de
turistas que llegó a Praga, capital de la República Checa entre los años 2008 y
2013, en forma mensual, siempre y cuando estas búsquedas estuvieran
relacionadas a la motivación de realizar un viaje y no con otros fines. Esto se
debe a que las búsquedas acerca de Praga no necesariamente son todas con
fines de viaje, sino también con otros fines tales como conocer su historia,
gastronomía u otros. La ecuación empleada surge de una combinación de
modelos autorregresivos y cálculo vectorial.
En cuanto a ciudades, se demostró que la información de búsqueda de Internet
mensual del término Punta Cana en los Estados Unidos y Canadá entre enero
del 2004 y agosto del 2013 reflejaba el comportamiento mensual del flujo de
llegadas de ambos grupos al mencionado destino. Se encontró que los
canadienses realizaban la búsqueda del término clave con fines turísticos desde
un mes antes del arribo, mientras los estadounidenses realizaban lo propio tres
semanas antes de desplazarse. (De la Oz, Predicting Tourist Inflows to Punta
Cana, Dominican Republic, Using Google Trends, 2014). Nuevamente se recurre
a un modelo de autorregresivo que fue delimitado hasta por semanas, ya que se
contaba con los flujos de arribos más detallados.
Con respecto al uso de los datos del navegador, y el turismo, no se ha
encontrado investigaciones indexadas en Web of Science o Scopus que hayan
sido publicadas por instituciones de origen peruano. No se han ubicado, además,
tesis que usen a Google como predictor del mercado turístico en los repositorios
digitales de universidades peruanas que cuenten actualmente con facultades de
turismo.
10
Marco teórico
Big Data
La Big Data tiene múltiples definiciones. Artola & Galn (2012) señalan que
entre las más citadas se tiene a la que la ha definido como un conjunto de
datos cuyo tamaño va más allá de las capacidades de las herramientas
típicas de software de base para capturar, almacenar, gestionar y analizar
información (McKinsey Global Institute, 2011).
El informe de TicBeat (2012) define a la Big Data como una gran cantidad
de datos que se ha generado desde hace ya varios años a partir de
cualquier actividad. El mismo informe hace énfasis en que la definición
pasa por buscar el mejor camino para que dichos datos sean
aprovechables.
Laney (2001) hace énfasis en que la definición pasa por las tres 'Vs' de
gestión de datos: volumen, velocidad y variedad. El volumen se refiere a
la mayor cantidad de datos a ser administrados, la velocidad hace
referencia a la aceleración del ritmo de la generación de datos, así como
su uso y las interacciones posibles, y la variedad alude a los múltiples y
diversos formatos de datos que aparentemente no son compatibles (los
comentarios en twitter y la geolocalización de los mismos, por ejemplo),
estructuras diversas, y el análisis de información presentada en formato
de texto.
En cuanto al uso de la Big Data en el turismo, Rouby (2015) empleó los
comentarios de TripAdvisor como datos cualitativos para evaluar los
sentimientos de los turistas que visitaban Egipto durante la revolución del
2011. Por otro lado, el tiempo de conexión a internet de dispositivos
móviles ha sido asociado al tiempo de permanencia promedio de un
viajero en Madrid y Barcelona (RocaSalvatella & Telefónica, 2014). En
tercer lugar, se estimó el gasto promedio por turista que visitó Valencia en
el 2014 recurriendo al consumo realizado a través de tarjetas de crédito
(Instituto Valenciano de Tecnologías Turísticas, 2015). Finalmente, se
logró descifrar la ruta más probable de recorrido que realizaría un visitante
11
en Catalunya haciendo uso de un aplicativo móvil asociado a la tecnología
GPS (RocaSalvatella & Telefónica, 2014).
En cuanto a las limitaciones de la Big Data se tienen a aquellas que están
vinculadas al uso de datos de carácter personal (Borba & Akemi, 2014).
Dichas restricciones varían de acuerdo al marco legal de cada país
(Instituto Valenciano de Tecnologías Turísticas, 2015). Otra limitación
importante es la referida a la depuración de los datos (RocaSalvatella &
Telefónica, 2014); así, por ejemplo, no todas las personas que usen una
señal gratuita de internet de España son necesariamente turistas, pues
sus motivaciones de desplazamiento pueden ser otras (Instituto
Valenciano de Tecnologías Turísticas, 2015).
Google Trends.
Google Trends es una herramienta que proporciona información semanal
sobre las búsquedas en Internet con características avanzadas
disponibles libremente en https://www.google.com/trends/
Los usuarios pueden ver y descargar los patrones de volúmenes de
búsqueda para uno o más términos de búsqueda. Dicha información
también está disponible en función de la ubicación de los que hacen la
búsqueda y se encuentra organizada por categoría. También existe
información acerca de las búsquedas principales y más frecuentes que
incluyen o están vinculadas con el término de búsqueda (y la categoría, si
es que está disponible). La información de esta herramienta proporciona
cifras semanales durante un período que llega hasta la actual (aunque
incompleta) semana. La disponibilidad de datos a partir de 2004 permite
la existencia una serie de tiempo que se construye en relación con
determinados términos de búsqueda (Office of National Statistics, 2012).
Los datos proporcionados por Google no representa el número de
búsquedas en un período de tiempo determinado. En cambio, son
presentados como un índice relativo para un período específico en una
región determinada. Los datos están normalizados a partir del 01 enero
12
del 2004 con un valor máximo de 100 y un mínimo de 0 (Choi & Varian,
2009).
En cuanto a los usos de Google Trends vinculados al turismo, el buscador
arroja datos que también pueden ser aprovechables no solo para destinos
turísticos, sino también para predecir demandas sobre tours, vuelos y
hoteles (Yang, 2014). También puede usarse para estudiar las
consecuencias de eventos de corta duración (deportivos, culturales, entre
otros) en destinos turísticos como Dubai y similares (Saidi, Scacciavillani,
& Fahd, 2010).Los datos del navegador, por último, sirven para identificar
competidores en el caso de la industria hotelera (Rivera, 2016).
No obstante, el indicador presenta también una serie de desventajas. En
primer lugar, Google sólo muestra los datos absolutos, donde se
proporciona un índice que es relativo a todas las búsquedas. En segundo
lugar, los usuarios de Internet pueden escribir palabras similares incluso
si estaban buscando temas diferentes o emplear nombres diferentes para
un mismo tema. En tercer lugar, las consultas de búsqueda web están
relacionadas con las características personales tales como educación,
ingresos, edad, etc. De ahí que los datos no sean perfectos; sin embargo,
es uno de los mejores datos de información de almacén de datos web y
tiene el potencial para actuar como un indicador adelantado (Zeynalov,
2014).
Flujo de Visitantes
La Organización Mundial del Turismo (2015) define a un visitante como
“una persona que viaja a un destino principal distinto al de su entorno
habitual, por una duración inferior a un año, con cualquier finalidad
principal (ocio, negocios u otro motivo personal) que no sea la de ser
empleado por una entidad residente en el país o lugar visitados”. Incluye
a turistas y excursionistas. Luego, un flujo de visitantes será la cantidad
de estos en un período y lugar determinado.
13
Reserva Paisajística Natural Nor Yauyos Cochas.
La RPNYC posee una superficie total de 221,268.48 hectáreas y se
encuentra ubicada en los departamentos de Lima y Junín (SERNANP,
2016). Gran parte del área que ocupa (62,1%) se ubica en el
departamento de Lima, provincia de Yauyos, distritos de Alis, San Lorenzo
de Quinti, Tanta, Huancaya, Tomas, Vitis, Miraflores, Carania y Laraos;
una superficie menor (37,9%) se halla en el departamento de Junín,
provincia de Jauja, en los distritos de Suitucancha, Llocllapampa y
Canchayllo (Ministerio del Ambiente, 2011)
Las principales zonas turísticas y de recreación se encuentran en las
zonas aledañas a los centros poblados de Vitis, Huancaya y Vilca; y la
zona que incluye a Marcatupe y la laguna Piquecocha. Todas estas
localidades están ubicadas a lo largo del río Cañete. Entre las actividades
más usuales y recomendadas están las caminatas, la pesca deportiva, el
andinismo, la espeleología (estudio de cavidades subterráneas), la
observación de aves y los paseos en bicicleta (SERNANP, 2016).
Entre sus principales atractivos resaltan las cascadas de Huancaya y
Vilca; las lagunas de Piticocha, Mullucocha y Paucarcocha, en Tanta; las
zonas arqueológicas de Huamanmarca, en Carania, Huaquis, en
Miraflores, Vinchos y Andas en Canchayllo; las andenerías de Laraos,
Carania y Vitis. Del mismo modo, es recomendable visitar las pinturas
rupestres de Cuchimachay en Tanta y Quilcasca en Laraos (SERNANP,
2016).
Modelo de referencia del flujo de arribos mensuales
Existen diversas formas de modelar el flujo de llegadas hacia un
determinado punto. La selección de un modelo en particular depende de
los datos con los que se cuente (Song, 2008). En este caso se disponía
únicamente de las llegadas mensuales a la RPNYC. De haberse contado
con un perfil que indicara la procedencia geográfica de quienes han
14
visitado el destino, pudo haberse considerado el uso de otras ecuaciones
en las que se tuviera como variable al flujo turístico de salidas de los
departamentos que más participación tienen en cuanto al número de
llegadas a la RPNYC. Así, por ejemplo, si un perfil turístico señalara que
la mayoría de llegadas al mencionado sitio son procedentes de Lima,
entonces, se debería incorporar a la cantidad mensual de limeños que
salen a hacer turismo como variable relevante. Esta relación de la
dependencia con los principales mercados emisores fue tratado por
Shareef & McAleer (2005) para cuantificar el flujo de llegadas a pequeñas
islas.
Existen otros modelos más avanzados que incorporan los métodos
computaciones para la predicción turística. Estos últimos mejoran
considerablemente los pronósticos (Yu & Schwartz, 2005). En el campo
de la matemática pura son bastante recurrentes los modelamientos que
hacen uso intensivo del álgebra matricial (Shareef & McAleer, 2005) .
Sin embargo, la elección de un modelo implica poder llevar a cabo la
construcción del mismo. Las ecuaciones pueden construirse con relativa
facilidad a partir de la estadística inferencial (Askitas & Zimmermann,
2009).
Elegir un modelo obedece, entonces, a la disponibilidad de datos y a las
habilidades propias del investigador. Es por estas razones que se
considera principalmente el modelo recogido por Choi y Varian (2009),
pues usa datos históricos y hace uso de la estadística inferencial. Es un
modelo del tipo autorregresivo. La importancia del mismo radica en que
es el primero en incorporar a un indicador electrónico como variable
independiente para alcanzar un mejor ajuste en la cantidad de llegadas
(Lutz, 2013). Por otro lado, la misma investigación resulta aplicable
siempre y cuando se cuente con dos series de datos: el número de arribos
mensuales históricos y el volumen relativo de búsquedas respecto al
destino turístico estudiado para el mismo período, ambas variables se
obtuvieron para la RPNYC.
15
Choi y Varian (2009) indican que la llegada de arribos mensual a un
destino está determinada por la siguiente ecuación:
Log (Y(t)) = b1 + b2 * Log (Y(t-12))+ b3 * Log (Y(t-1)) (primer modelo)
En esta ecuación Y(t) es la cantidad de llegadas registrada es el mes t
(abril del 2012, por ejemplo) ; Y(t-12) corresponde a las visitas recibidas
para el mismo mes pero correspondientes al año anterior (abril del 2011
de acuerdo a nuestro ejemplo anterior); Y(t-1) es también un flujo que
corresponde al número de arribos pero para el mes inmediato anterior
(marzo del 2011 en concordancia a la situación ejemplificada).
La misma investigación incorpora el índice de búsquedas de Google al
modelo de la siguiente forma:
Log Y(t) = b1 + b2 * Log Y(t-12)+ b3 * Log Y(t-1) + c* G(t) (segundo
modelo)
La ecuación anterior incorpora el índice de búsquedas mensual G(t) que
a diferencia de los demás se adiciona de forma lineal y no logarítmica
como los anteriores. Los términos b2, b3 y c son los coeficiente que
afectan a las variables Y(t); Y(t-12) y G(t) respectivamente , y b1 es un
término independiente.
Objetivos
Objetivo General: Determinar la relación entre la Big Data de Google
Trends y el flujo mensual de visitantes que arribaron a la Reserva
Paisajística Nor Yauyos-Cochas entre los años 2011-2015
Objetivo específico 1: Determinar si las llegadas mensuales a la Reserva
Paisajística Nor Yauyos-Cochas para el período 2011-2015 están
relacionadas con sus predecesores correspondientes del año anterior
respectivo y con los registros del mes inmediato anterior.
Objetivo específico 2: Comparar los resultados obtenidos por los dos
modelos presentados.
16
Hipótesis
En este trabajo se analiza si las consultas web relacionadas con la
RPNYC pueden estar correlacionados con el flujo mensual de los
visitantes nacionales y extranjeros que llegó a dicho destino para el
período 2011-2015. Luego, son posibles dos hipótesis:
H0: La inclusión de la variable Google Trends no mejora la relación entre
las variables del modelo de referencia para las llegadas mensuales de
visitantes a las RPNYC.
H1: La inclusión de la variable Google Trends sí mejora la relación entre
las variables del modelo de referencia para las llegadas mensuales de
visitantes a las RPNYC.
17
Método
Tipo y diseño de investigación
Tipo de investigación.
De acuerdo a lo mencionado anteriormente, este estudio tendrá un
enfoque cuantitativo, ya que emplea la recolección y el análisis de datos
para responder preguntas de investigación y comprobar hipótesis
establecidas en forma previa haciendo uso del análisis estadístico
(Hernández, Fernández, & Baptista, 2014).
Diseño de investigación.
El diseño de investigación será el de correlación: en esencia se busca
medir la relación entre dos o más variables, estableciendo su grado de
correlación, pero sin pretender dar una explicación completa (de causa y
efecto) al fenómeno investigado, sólo investiga grados de correlación. El
propósito a cumplir es conocer cómo se comportará una variable,
conociendo el comportamiento de otras vinculadas a ella (Hernández et
al., 2014).
Variables
Flujo mensual de visitantes que arriban a la RPNYC.
Es una variable que proviene de una fuente secundaria. Incluye tanto a
visitantes nacionales como extranjeros que han arribado al destino entre
los años 2011 al 2015. Cabe aclarar que el estudio abarcará los datos del
período indicado a pesar de contar con las llegadas del año 2010, y esto
se debe a que para usar el modelo es necesario tener los datos del año
anterior. No se cuentan con las estimaciones para el año 2009, por lo que
no se podrá realizar la modelación para el año 2010.
Índice de Búsquedas de Google Trends Mensual referido a la RPNYC.
También es de una fuente secundaria (Google). Se ingresa a la dirección
https://www.google.com/trends/ y se procede a digitar el término que
desea buscarse (Ver anexo 3). Para la RPYNC, Google ya tiene
18
predeterminada el término en inglés (que incluye también a los términos
en español, ya que la totalidad de las búsquedas se dan en Perú). La base
de datos está disponible por semanas (Ver anexo 4) por lo que será
necesario agruparlas en meses y así obtener los datos mensuales (Ver
anexo 5). En cuanto al ámbito geográfico de búsqueda, el navegador
permite seleccionar si se desea limitar las búsquedas a un espacio
determinado. Resulta posible obtener el interés global y del Perú hacia la
RPNYC, pero el buscador señala que en el extranjero no se han realizado
búsquedas relacionadas al punto mencionado(Ver anexo 6). Es
necesario, entonces, las búsquedas a territorio peruano. Ello no significa
que los extranjeros no busquen información acerca de la RPNYC en el
extranjero, pero estas búsquedas no alcanzan la masa crítica necesaria
para ser registrados por Google Trends en sus países de origen. Cabe la
posibilidad, además, de que los foráneos realicen la búsqueda acerca de
la Reserva estando en territorio peruano. No es posible determinar que
volumen de búsquedas corresponde a visitantes potenciales extranjeros,
pero sí se conoce el volumen de búsquedas en territorio peruano.
Los datos se depuraron haciendo uso de la función de autocompletado de
Google, la cual agrupa a todas las búsquedas relacionadas al tópico en
cualquier idioma. De esta manera los resultados son más precisos, pues
se hace referencia a la RPNYC y no a la provincia de Yauyos, al distrito
de Yauyos o similares (Ver anexo 7). Otro punto a considerar en la
depuración de los datos es la función de autocorrección ofrecida por
Google. De esta manera si es que un usuario busca información acerca
de la Reserva y no conoce la forma en la que se escribe, el navegador
sugerirá un término correcto. De esta forma no se pierden datos de las
búsquedas (Ver anexo 8)
Instrumentos de Investigación
Statgraphics Centurion es un paquete estadístico que realiza funciones
básicas y avanzadas. Cuenta con una versión en línea que permite
ingresar datos en Excel. La versión actual incorpora 230 procedimientos
19
que incluyen minería de datos, análisis de series de tiempo, regresiones,
entre otros (Monterrosa, 2014).
Procedimiento para recolección de datos
Las variables ya descritas provienen de fuentes secundarias. Las llegadas
son provistas por el SERNANP, pero en ellas no se distingue a extranjeros
de nacionales. En el caso de los datos provistos por Google, se limitará
las búsquedas a territorio peruano, ya que el volumen para búsquedas
fuera de ese espacio equivale a cero, a pesar de que sí existen extranjeros
que visitan la RPNYC. Esas son las limitaciones de la información. En el
caso de Google será solo necesario sumar los índices que arroja el
navegador con respecto a la búsqueda (Ver Anexo 9).
Posterior a ello ambas variables se deben organizar en orden cronológico
para luego ser transformadas en base logarítmica.
Plan de análisis
Las variables serán sometidas al modelo ya descrito anteriormente
durante la penúltima semana de julio del 2016. Se usará la regresión
simple y la múltiple en sus versiones autorregresivas según sea el caso
bajo el método de mínimos cuadrados. Los resultados son obtenidos de
forma inmediata por el software. Los principales resultados a analizar
serán los mismos que observaron Choi & Varian (2009): el R-cuadrado y
el Valor-P.
El R-cuadrado, también llamado coeficiente de determinación, es el
porcentaje de variación de la variable de respuesta que queda explicada
por las variables de entrada (Moore, 2005). Por lo general, mientras mayor
sea el R-cuadrado, mejor será el ajuste del modelo a sus datos. De
acuerdo a la teoría estadística, el valor de R-cuadrado proviene de un
valor R llamado coeficiente de correlación elevado al exponente dos. Un
valor de mínimo aceptable de R que señala una existencia de relación
entre las variables es de 0.80 (Moore, 2005). En consecuencia, un R-
cuadrado mínimo sería de 0.82 o 0.64.
Con respecto al valor- P, este viene asociado a un alfa. El valor de alfa =
0.05 o 5% se usa como referencia, ya que corresponde al mismo nivel
20
trabajado Artola & Galn (2012) y De la Oz (2014). Un modelo considerado
robusto se vincula a un valor de alfa que va desde 0.05 hasta 0.01
(Manterola & Pineda, 2008). Si el valor-P es mayor que el alfa se debe
rechazar la Hipótesis nula (no hay relación entre las variables) y aceptar
la hipótesis alternativa (sí existe relación). En forma análoga, si un Valor-
P de una variable es mayor a alfa (0.05 en este caso), significa que la
misma debe ser excluida del modelo.
21
Resultados De emplear el primer modelo que no incluye la variable digital, es decir, el que
posee la forma:
Log (Y(t)) = b1 + b2 * Log (Y(t-12))+ b3 * Log (Y(t-1))
La salida obtenida usando como base los datos asociados a la RPNYC resulta:
Log (Y(t)) = 0.976366 + 0.493066 * Log (Y(t-12))+ 0.175514 * Log (Y(t-1))
(primera ecuación)
Tabla 1
Parámetros de la primera ecuación
Estadísticas de la regresión
Coeficiente de determinación R^2
0.28816908
Se debe excluir del mismo a la variable asociada al período t -1, pues tiene un
Valor-P de 1.22 que sobrepasa el 0.05. Dicho de otra forma, no existe relación
entre el flujo de visitas turísticas que recibe la RPNYC en un mes cualquiera con
la cantidad registrada para el período mensual inmediato anterior. Por otro lado,
el R-cuadrado es de 0.2881, inferior al 0.64 necesario ya indicado (Ver salida
completa en el Anexo 10).
Luego, el modelo puede ser simplificado, pues el componente Log Y(t-1) no es
estadísticamente significativo con un nivel de confianza del 95.0% o mayor.
COEFICIENTES
Parámetro Estimación Error Estándar Estadístico T Valor-P
CONSTANTE 0.976366 0.420725 2.32068 0.0239
LogY(t-12) 0.493066 0.112538 4.38132 0.0001
LogY(t-1) 0.175514 0.111877 1.56881 0.1222
22
Consecuentemente se debe para suprimir a dicho elemento del modelo a fin de
obtener mejores resultados.
Una vez excluido el indicador Log Y(t-1), la nueva ecuación se transforma en una
de la forma:
Log (Y(t)) = b1 + b2 * Log (Y(t-12))
La anterior expresión, sujeta a los datos proporcionados (llegadas a la RPNYC
e indicadores de Google) queda tal como sigue:
Log Y(t) = 1.42468 + 0.508896*Log Y(t-12) (segunda ecuación)
Tabla 2
Parámetros de la segunda ecuación
COEFICIENTES
Parámetro Estimación Error Estándar Estadístico T Valor-P
CONSTANTE 1.42468 0.312651 4.55676 0
Log Y(t-12) 0.508896 0.113488 4.48413 0
Estadísticas de la regresión
Coeficiente de determinación R^2
0.257433321
Los resultados que se presentan muestran que si existe relación entre la cantidad
de turistas que llegan a la RPNYC en un período t y en el período t – 12 (Ver
salida completa en el Anexo 11), si es que ambas variables son tomadas con
base logarítmica.
Dicha relación resulta significativa (ambos Valor-P = 0.00 < 0.05, la relación
existe con un nivel de confianza del 95.0%), pero no fuerte, pues tiene un R-
cuadrado de 0.2574 sin embargo, la asociación existe y es del tipo directa, es
decir, un aumento o disminución en el flujo de llegadas para un mes cualquiera
del período analizado está relacionado con el incremento o decremento
respectivo en las visitas para el correspondiente mes del año anterior. No se
debería retirar la variable del modelo.
23
Si se incorpora la variable G(t) a la ecuación descrita anteriormente, es decir, se
adopta la siguiente forma:
Log Y(t) = b1 + b2 * Log Y(t-12)+ c* G(t) (tercera ecuación)
Sujeta a los datos de llegadas a la RPNYC y a las cifras provistas por Google se
convierte en:
LogY(t) = 0.982978 + 0.469528*LogY(t-12) + 0.00549502*G(t)
Tabla 3
Parámetros de la tercera ecuación
Parámetro Estimación Error
Estándar Estadístico T Valor-P
CONSTANTE 0.982978 0.226188 4.34584 0.0001
LogY(t-12) 0.469528 0.0796625 5.89397 0
G(t) 0.00549502 0.000702509 7.822 0
Estadísticas de la regresión
Coeficiente de determinación R^2
0.641859997
Puesto que las variables independiente figuran ambas con un Valor-P = 0.00 en
la tabla ANOVA es menor que 0.05, existe una relación estadísticamente
significativa entre las mismas con un nivel de confianza del 95.0%.
Con este modelo, el R-cuadrado alcanza un nivel del 0.64186, que resulta
considerablemente más alto que el nivel anterior de 0.2574. La relación entre
las variables presentadas ahora es más fuerte (Ver salida completa en el anexo
12). Nuevamente, aquí la asociación es del tipo directa. Si bien es cierto que
disminuye el término independiente como el coeficiente del término que afecta a
la variable que incluye a Y(t-12); dicha disminución se ha generado por la
incorporación de la variable de búsquedas en el modelo.
Con respecto a las hipótesis planteadas, el Valor-P es menor a 0.05 y, por tanto,
se debe rechazar la hipótesis nula H0 y se acepta H1, es decir, la inclusión de la
24
variable provista por el navegador sí mejora la relación entre las variables del
modelo de referencia para las llegadas mensuales de turistas a las RPNYC.
25
Discusión
La presente investigación no tiene por objetivo construir un modelo para realizar
pronósticos como lo hicieron Artola & Galn (2012). Sin embargo, sí se coincide
con estos en que es posible obtener un mejor indicador ajustado para el flujo
mensual una vez incorporada la variable dada por Google.
Las búsquedas referidas a la RPNYC no han podido ser filtradas haciendo uso
de la categoría viajes. Esto debido a que no se encuentra disponible para el
término o alcanza el volumen crítico de búsquedas requeridos para ser filtrado.
No es posible llevar acabo el experimento con mayor precisión tal como lo había
hecho Zeynalov (2014) para el caso de Praga.
En relación con lo planteado por De la Oz (2014), no se ha podido medir el tiempo
de anticipación con el que un potencial turista busca información acerca del
destino que es objeto de estudio de este documento. Esto se debe a que no se
cuenta con un flujo semanal de llegadas que pueda ser correlacionado con los
índices semanales provistos por el buscador en el caso de la RPNYC. No
obstante, sí hay coincidencia en lo referido a la existencia de una relación si se
compara las variables ya trabajadas en forma mensual.
Se ha logrado los objetivos: la variable de llegadas mensuales a la RPNYC está
correlacionada con el índice originado por el tráfico de búsquedas. Ambos
modelos poseen validez; sin embargo, el de mejor ajuste resulta ser el que usa
los datos históricos en combinación con el indicador provisto por el navegador.
Ello no quiere decir que no se utilicen la data histórica, pero sí que puede ser
complementada.
Finalmente, se concuerda con Choi & Varian (2009) en que la incorporación de
Google Trends mejora los resultados de los ajustes. Sin embargo, en el caso de
la RPNYC, el flujo mensual de visitas para un mes determinado no guarda
relación con su predecesor inmediato. Situación opuesta ocurre con las llegadas
registradas para el mismo mes pero hace un año. Así, por ejemplo, las llegadas
de visitantes a la RPNYC en el mes de abril del 2015 guarda relación con las de
abril del 2014, pero no con las de marzo del 2015.
26
Choi & Varian (2009) ubicaron los sus respectivos indicadores de Valor-P muy
cercanos a cero. Sin embargo, el R-cuadrado alcanzado por su modelo es de
0.733. Dicho de otra forma, el modelo planteado por ambos investigadores posee
un mejor ajuste que el planteado en este documento.
En cuanto al aporte académico, el modelo ya mencionado resulta aplicable a un
destino con un flujo de visitantes extremadamente volátil como lo es la RPNYC.
No obstante, un indicador R-cuadrado de 0.6418 significa que todavía existe
alrededor del 36% de variación en las llegadas a la Reserva que sería explicado
por otras variables que no han sido consideradas.
27
Conclusiones
La conclusión principal de esta investigación es que el flujo mensual de turistas
que arriban a la RPNYC puede asociarse a las estadísticas de búsqueda de
Google en conjunto. El modelo empleado muestra un mejor ajuste si se toma en
cuenta la variable independiente provista por el buscador.
La prueba estadística ha proporcionado suficiente evidencia para demostrar que
el índice de búsquedas resulta significativo, pero pequeño en valor absoluto en
cuanto a su relación con el flujo mensual de llegadas a la RPNYC. Un incremento
del R cuadrado de uno modelo a otro implica que la variación en la variable
dependiente se explica mejor por la incorporación de variable Google.
Entre las limitaciones pertinentes, es necesario recordar que cuando se realiza
la interpretación un coeficiente de correlación debe tenerse en consideración que
solo se puede hablar de asociación y no de una relación de causa-efecto. Un
coeficiente de correlación significativo puede sugerir la existencia de una relación
causa-efecto, pero no la establece. La única manera de establecer dicha relación
es a través de un estudio experimental.
Otra limitación es que los índices obtenidos a partir del buscador no permanecen
fijos a lo largo del tiempo. Estos pueden variar incluso de un día para otro si es
que registran nuevos picos de interés máximo. Son índices relativos y no
indicadores absolutos o que puedan ajustarse tomando una base de un año
relativo como el PBI. Ello no invalida los modelos, pero sí serán necesarios unos
reajustes para mayor precisión en los escenarios de muy corto plazo.
Por último, no es posible hacer una distinción con respecto a los datos de
Google. No se sabe qué proporción de las búsquedas fueron realizadas por
peruanos y extranjeros, pero sí se conoce el volumen relativo de búsquedas
realizadas en territorio peruano. Con respecto a las llegadas, estas no están
desagregadas por nacionalidad.
28
Recomendaciones
Se recomienda para futuras investigaciones incorporar el volumen relativo de
búsquedas electrónicas como variable que puede ser considerada en los
modelos que pretendan pronosticar el flujo de llegadas turísticas a destinos que
no presenten una tendencia clara en cuanto a dicha variable.
Es recomendable usar los indicadores de Google para modelos no regresivos.
Es decir, usarlo en combinación con indicadores externos. Así, por ejemplo, el
flujo de llegadas a las Islas Ballestas puede estar en función de las llegadas a
Ica (variable externa) en combinación con los flujos históricos (componentes
autorregresivos) y los datos de Google Trends.
Los profesionales encargados de la administración de diversos puntos turísticos
cuyas llegadas cumplan con el modelo estudiado podrán realizar proyecciones
de muy corto plazo. Por ejemplo, si faltan unos días para Semana Santa y se
quiere al menos tener una noción de si llegarán más o menos turistas que el año
pasado en un lugar turístico determinado, deberá prestarse atención a los
indicadores de Google de los días previos, siempre y cuando los flujos
mensuales de visitantes de ese espacio cumplan con el modelo expuesto.
Resulta viable aplicar el modelo presentado para otros destinos turísticos. Sería
más conveniente dar preferencia a aquellos sitios que tengan datos en donde
se distinga a llegadas nacionales de extranjeras. Resulta probable que los
resultados mejoren si se relaciona las búsquedas en territorio peruano con las
llegadas de peruanos hacia un destino.
Existen ciudades y destinos en otros países en los que se cuenta con información
del flujo diario de turistas. Los indicadores de Google pueden obtenerse hasta
por días. Luego, sería viable, realizar un estudio estadístico que vincule a los
arribos diarios con las búsquedas con la misma frecuencia.
Las búsquedas nacionales son la suma de componentes regionales. Estas
últimas provienen de las consultas por ciudad. Todos estos datos pueden ser
filtrados por el navegador. En consecuencia, resulta posible verificar si existe
relación entre el interés a nivel ciudad y regional con las llegadas hacia un
espacio turístico determinado.
29
Referencias
Artola, C., & Galn, E. (2012). Tracking the Future on the Web: Construction of Leading
Indicators Using Internet Searches. Recuperado el Julio de 2016, de
http://www.bde.es/f/webbde/SES/Secciones/Publicaciones/PublicacionesSeriadas/Do
cumentosOcasionales/12/Fich/do1203e.pdf
Artola, C., & Galn, E. (2012). Tracking the Future on the Web: Construction of Leading
Indicators Using Internet Searches.
Askitas, N., & Zimmermann, K. (2009). Google Econometrics and Unemployment Forecasting.
Obtenido de http://ftp.iza.org/dp4201.pdf
Athanasopoulos, G., Hyndman, R., Song, H., & Wu, D. (2011). The tourism forecasting
competition. International Journal of Forecasting, 822-844.
Banco Mundial. (2016). Usuarios de Internet (por cada 100 personas). Recuperado el 31 de
julio de 2016, de http://datos.bancomundial.org/indicador/IT.NET.USER.P2?view=map
Borba, A., & Akemi, A. (2014). Big Data Usage in the Marketing Information. Journal of Data
Analysis and Information Processing.
Choi, H., & Varian, H. (2009). Predicting the Present with Google Trends. Obtenido de
http://people.ischool.berkeley.edu/~hal/Papers/2011/ptp.pdf
De la Oz, M. (2014). Predicting Tourist Inflows to Punta Cana, Dominican Republic, Using
Google Trends. Recuperado el Julio de 2016, de
http://digitalcommons.usu.edu/cgi/viewcontent.cgi?article=1362&context=gradreport
s
De la Oz, M. (2014). Predicting Tourist Inflows to Punta Cana, Dominican Republic, Using
Google Trends.
Dukic, V., Lopes, H. F., & Polson, N. (2012). Tracking Epidemics with State-space SEIR and
Google Flu Trends. Obtenido de https://core.ac.uk/download/pdf/23798998.pdf
El Rouby, I. (2015). The Use of Text mining to examine the Effect of the Egyptian Revolution on
Tourists’ Sentiments towards visiting the Country. JOURNAL OF TOURISM RESEARCH.
Fantazzini, D., & Fomichev, N. (2014). Forecasting the Real Price of Oil Using Online Search.
International Journal of Computational Economics and Econometrics, 4, 4-31. Obtenido
de http://ssrn.com/abstract=2423513
Gawlik, E., Kabaria, H., & Kaur, S. (2011). Predicting tourism trends with Google Insights.
Obtenido de http://cs229.stanford.edu/proj2011/GawlikKaurKabaria-
PredictingTourismTrendsWithGoogleInsights.pdf
GFK. (2015). Uso del Internet en el Perú. Obtenido de http://es.slideshare.net/GfKPeru/gfk-per-
uso-de-internet-en-el-per-abril-2015
30
Gonzales, P., & Moral, P. (1995). An analysis of the international tourism demand in Spain.
International Journal of Forecasting, 233-251. Obtenido de
http://www.sciencedirect.com/science/article/pii/0169207094005703
Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación (Quinta
ed.). México: McGraw Hill.
Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación (Quinta
ed.). México: McGraw Hill.
Instituto Valenciano de Tecnologías Turísticas. (2015). BIG DATA: retos y oportunidades para el
turismo. Recuperado el julio de 2016, de http://www.thinktur.org/media/Big-Data.-
Retos-y-oportunidades-para-el-turismo.pdf
Ito, A., & Odenheimer, A. (2012). Google Central Banks´ New Economic Indicator. Obtenido de
http://www.bloomberg.com/news/articles/2012-08-09/google-central-banks-new-
economic-indicator
Laney, D. (2001). 3D Data Management: Controlling Data Volume, Velocity and Variety.
Recuperado el Julio de 2016, de http://blogs.gartner.com/doug-
laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-
and-Variety.pdf
Lutz, F. (2013). TRENDING IN AFRICA Using Google Trends to Nowcast Consumer Confidence in
South Africa. Recuperado el Julio de 2016, de
www.essa2013.org.za/fullpaper/essa2013_2610.pdf
Malhotra, C. (2008). Investigación de Mercados (Quinta ed.). México: Pearson Education.
Mankiw, N. (2007). Macroeconomía.
Manterola, C., & Pineda, V. (2008). El valor de “p” y la “significación estadística”. Obtenido de
http://www.scielo.cl/pdf/rchcir/v60n1/art18.pdf
McKinsey Global Institute. (2011). Recuperado el 2016, de Big Data: The next frontier for
innovation, competition, and productivity
Ministerio del Ambiente. (2011). Inventario y evaluación del Patrimonio Natural de la Reserva
Paisajística de Nor Yauyos-Cochas. Obtenido de
http://cdam.minam.gob.pe/novedades/invevalpatrimnaturnoryauyoscochas.pdf
Monterrosa, J. (2014). STATGRAPHICS CENTURION XVI.I. Obtenido de
http://www.fce.unal.edu.co/uifce/proyectos-de-
estudio/pdf/Statgraphics%20Centurion%20XVI
Moore, D. (2005). Estadística Aplicada Básica (Segunda ed.). España: Antoni Bosch.
Nieto, J., Amate, I., & Román, I. (1999). Estudio de la estacionalidad turística en la provincia de
Almería. Recuperado el julio de 2016, de
https://dialnet.unirioja.es/descarga/articulo/199903.pd
Office of National Statistics. (2012). Recuperado el julio de 2016, de https://www.ons.gov.uk
31
Organización Mundial del Turismo. (s.f.). Entender el turismo: Glosario Básico. Recuperado el
julio de 2016, de http://media.unwto.org/es/content/entender-el-turismo-glosario-
basico
Promperu. (2015). Perfil del Turista Extranjero 2014. Recuperado el julio de 2016, de
http://media.peru.info/IMPP/2014/Perfil-Turista-Extranjero/Perfil-del-Turista-
Extranjero-2014.pdf
Promperu. (2015). Perfil del Vacacionista Nacional. Obtenido de
http://www.promperu.gob.pe/TurismoIn/Sitio/VisorDocumentos?titulo=Perfil%20del
%20Vacacionista%20Nacional%202014&url=~/Uploads/perfiles_vacac_nac/35/Perfil-
Vacacionista-Nacional-
2014.pdf&nombObjeto=PerfVacacionistaNac&back=/TurismoIN/Sitio/PerfVacacionista
Rivera, R. (2016). A Dynamic Linear Model to Forecast Hotel Registrations in Puerto Rico.
Obtenido de https://arxiv.org/pdf/1512.08097.pdf
RocaSalvatella & Telefónica. (2014). Big Data and Tourism: New indicators for tourism
management. Recuperado el Octubre de 2016, de http://telefonicacatalunya.com/wp-
content/uploads/2014/05/BIG-DATA-Y-TURISMO-eng-interactivo.pdf
Saidi, N., Scacciavillani, F., & Fahd, A. (2010). Forecasting Tourism in Dubai Forecasting Tourism
in Dubai. Recuperado el Octubre de 2016, de
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ua
ct=8&ved=0ahUKEwi0go-
h0tPPAhUE1R4KHQ1pCjQQFgg1MAA&url=http%3A%2F%2Fnassersaidi.com%2Fwp-
content%2Fuploads%2F2012%2F06%2FEconomic-Note-
8.pdf&usg=AFQjCNEyt5ONzWYqnVtGKUDTqzF6dSYURg&bv
Sampieri, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación (Quinta ed.).
México: McGraw Hill. .
SERNANP. (2016). Recuperado el 2016, de www.sernanp.gob.pe
Shareef, R., & McAleer. (2005). Modelling multivariate tourism demand and Volatility in Small
Tourism Economies. Recuperado el 01 de Septiembre de 2016, de
https://core.ac.uk/download/pdf/6408158.pdf
Sherman, & Webb. (1988). Metodología de la Investigación. Obtenido de
https://www.esup.edu.pe/descargas/dep_investigacion/Metodologia%20de%20la%20
investigaci%C3%B3n%205ta%20Edici%C3%B3n.pdf
Song, H. (2008). Tourism demand modelling and forecasting—A review of recent research.
Tourism Management, 203-220. Obtenido de
https://core.ac.uk/download/pdf/397016.pdf
TicBeat. (2012). Recuperado el julio de 2016, de http://www.ticbeat.com/libreriaticbeat/big-
data/
Todd, Z., Nerlich, B., McKeown, S., & Clarke, D. D. (2004). Mixing Methods in Psychology.
Nueva York: Psychology Press.
Yang, X. (2014). FORECASTING CHINESE TOURIST VOLUME WITH SEARCH ENGINE DATA. 2nd
International Conference on Big Data Analysis and Data Mining. Recuperado el
32
Octubre de 2016, de http://www.omicsonline.org/proceedings/the-effects-of-google-
trends-on-tourism-industry-in-south-korea-39641.html
Yu, G., & Schwartz, Z. (2005). Forecasting Short Time-Series Tourism Demand with Artificial
Intelligence Models. Journal of Travel Research. Recuperado el Septiembre de 2016, de
http://jtr.sagepub.com/content/45/2/194.abstract
Zeynalov, A. (2014). Nowcasting Tourist Arrivals to Prague:. Obtenido de https://mpra.ub.uni-
muenchen.de/60945/1/MPRA_paper_60945.pdf
33
Anexos
Anexo 1
Tabla A1
Flujo de vacacionistas nacionales y extranjeros que llegaron a la Reserva
Paisajística Nor Yauyos-Cochas 2010- 2015
Período 2010 2011 2012 2013 2014 2015
enero 100 110 415 280 981 1,509
febrero 150 76 122 742 575 469
marzo 300 62 149 1,034 494 480
abril 1,700 2,860 356 199 4,549 5,195
mayo 200 652 369 246 923 1,847
junio 100 520 369 445 840 1,236
julio 2,030 3,460 2,176 2,824 4,621 3,702
agosto 1,100 1,238 959 63 570 274
septiembre 520 230 834 2,887 449 1,204
octubre 438 220 636 1,363 874 1,560
noviembre 742 172 279 1,728 1,301 823
diciembre 314 163 371 374 1,250 857
Total 7,694 9,763 7,035 12,185 17,427 19,156 Fuente: SERNANP (2016)
Anexo 2
Tabla A2
Desviación estándar, media y coeficiente de variación del flujo de llegadas
turísticas a la Reserva Paisajística Nor Yauyos-Cochas 2010-2015
Período 2010 2011 2012 2013 2014 2015
Desv. estándar 617.23 1103.61 536.52 953.97 1425.33 1388.95
Media 641.17 813.58 586.25 1015.42 1452.25 1596.33
Coef Variación 0.96 1.36 0.92 0.94 0.98 0.87 Fuente: SERNANP (2016) Elaboración: Propia
34
Anexo 3
Figura 1. Ejemplo de uso se Google Trends para capturar información acerca de la RPNYC
Fuente: Google Trends
Anexo 4
Figura 2. Ejemplo de la vista preliminar de la base de datos semanal generada por Google
Fuente: Google Trends
35
Anexo 5
Tabla A3
Índice mensual de búsqueda electrónica a la Reserva Paisajística Nor Yauyos-
Cochas 2011-2015
Período 2011 2012 2013 2014 2015
enero 42 48 41 85 84
febrero 43 48 76 44 54
marzo 54 103 82 51 117
abril 132 39 60 253 127
mayo 128 94 68 176 144
junio 140 90 84 118 103
julio 113 136 99 286 173
agosto 75 72 45 242 73
septiembre 57 124 95 55 177
octubre 44 124 128 87 117
noviembre 42 86 126 145 102
diciembre 53 87 65 172 62
Fuente: Google Trends capturado el 29 de Julio. Elaboración: Propia
Anexo 6
Figura 3. Mapa mundial de las búsquedas de la RPNYC
36
Fuente: Google Trends
Anexo 7
Figura 4. Función de autocompletado de Google aplicado a la RPNYC
Fuente: Google Trends
Anexo 8
Figura 5. Función de búsqueda sugerida por Google
Fuente: Google Trends
37
Anexo 9
Figura 6. Resultados por semana. En la captura para la primera semana de noviembre se obtuvo
un índice de búsquedas de 27 hacia la RPNYC. De esta forma es posible adicionar los resultados
semana a semana y obtener indicadores mensuales.
Fuente: Google Trends
38
Anexo 10 Tabla A5 Regresión Múltiple – Log Y(t) vs. Log Y(t-12) y Log Y(t-1)
Variable dependiente: Log Y(t) Variables independientes: Log Y(t-12), Log Y(t-1) ANÁLISIS DE VARIANZA
Fuente Suma de
Cuadrados Grado de Libertad Cuadrado Medio Razón-F Valor-P
Modelo 3.78402 2 1.89201 11.54 0.0001
Residuo 9.34722 57 0.163986
Total (Corr.) 13.1312 59 COEFICIENTES
Parámetro Estimación Error Estándar Estadístico T Valor-P
CONSTANTE 0.976366 0.420725 2.32068 0.0239
LogY(t-12) 0.493066 0.112538 4.38132 0.0001
LogY(t-1) 0.175514 0.111877 1.56881 0.1222
Estadísticas de la regresión
Coeficiente de correlación
múltiple 0.536813823
Coeficiente de
determinación R^2 0.288169081
R^2 ajustado 0.263192557
Error típico 0.40495224
Observaciones 60
El principal inconveniente de esta salida es el Valor-P que afecta a la variable
LogY(t-1) , es decir, 0.122. Es mayor al 0.05 permitido. Por tanto debe ser sacada
del modelo.
39
Anexo 11
Tabla A6
Regresión Simple – Log Y(t) vs. Log Y(t-12)
Variable dependiente: Log Y(t) Variable independiente: Log Y(t-12)
ANÁLISIS DE VARIANZA
Fuente Suma de
Cuadrados Grado de Libertad Cuadrado
Medio Razón-F Valor-P
Modelo 3.38042 1 3.38042 20.11 0
Residuo 9.75082 58 0.168118
Total (Corr.) 13.1312 59
COEFICIENTES
Parámetro Estimación Error Estándar Estadístico T Valor-P
CONSTANTE 1.42468 0.312651 4.55676 0
Log Y(t-12) 0.508896 0.113488 4.48413 0
Estadísticas de la regresión Coeficiente de correlación múltiple 0.507378873 Coeficiente de determinación R^2 0.257433321
R^2 ajustado 0.244630447
Error típico 0.410021416
Observaciones 60
Para este segundo escenario, existe relación entre las llegadas mensuales a la
RPNYC y las registradas hace un año. No obstante el R-cuadrado es débil
(25.74%)
40
Anexo 12
Tabla A7
Regresión Múltiple – Log Y(t) vs. Log Y(t-12) y G(t)
Variable dependiente: Log Y(t) Variables independientes: Log Y(t-12) G (t) ANÁLISIS DE VARIANZA
Fuente Suma de
Cuadrados Grado de Libertad Cuadrado Medio Razón-F Valor-P
Modelo 8.42842 2 4.21421 51.08 0
Residuo 4.70282 57 0.0825056
Total (Corr.) 13.1312 59
Parámetro Estimación Error Estándar Estadístico T Valor-P
CONSTANTE 0.982978 0.226188 4.34584 0.0001
LogY(t-12) 0.469528 0.0796625 5.89397 0
G(t) 0.00549502 0.000702509 7.822 0
Estadísticas de la regresión Coeficiente de correlación múltiple 0.801161655 Coeficiente de determinación R^2 0.641859997
R^2 ajustado 0.629293681
Error típico 0.287237936
Observaciones 60
Se mejoró el R-cuadrado (64.18%) y ninguna de las variables ha sido excluida
por su Valor-P. Las búsquedas tienen relación pero pequeña en valor absoluto
(0.00549)
top related