facultad de administracion hotelera, turismo y gastronomÍa carrera de...

40
FACULTAD DE ADMINISTRACION HOTELERA, TURISMO Y GASTRONOMÍA Carrera de Administración en Turismo Relación entre Google Trends y el flujo mensual de llegadas de visitantes a la Reserva Paisajística Nor Yauyos-Cochas en el período 2011-2015 Monografía para optar por el Título Profesional de Licenciado en Administración en Turismo CHRISTY MIRANDA SANCHEZ Asesora: Claudia Gil Arroyo Lima- Perú. 2016.

Upload: others

Post on 14-May-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

FACULTAD DE ADMINISTRACION HOTELERA,

TURISMO Y GASTRONOMÍA

Carrera de Administración en Turismo

Relación entre Google Trends y el flujo mensual de llegadas

de visitantes a la Reserva Paisajística Nor Yauyos-Cochas en

el período 2011-2015

Monografía para optar por el Título Profesional de

Licenciado en Administración en Turismo

CHRISTY MIRANDA SANCHEZ

Asesora:

Claudia Gil Arroyo

Lima- Perú.

2016.

Contenido

Introducción ........................................................................................................ 3

Problema de investigación ................................................................................. 4

Planteamiento del Problema ................................................................................................. 4

Formulación del problema ..................................................................................................... 5

Marco Referencial .............................................................................................. 8

Antecedentes .......................................................................................................................... 8

Marco teórico ......................................................................................................................... 10

Big Data ............................................................................................................................. 10

Google Trends. ................................................................................................................. 11

Reserva Paisajística Natural Nor Yauyos Cochas. .................................................... 13

Modelo de referencia del flujo de arribos mensuales ................................................. 13

Objetivos ................................................................................................................................ 15

Hipótesis ................................................................................................................................ 16

Método ............................................................................................................. 17

Tipo y diseño de investigación ........................................................................................... 17

Tipo de investigación. ...................................................................................................... 17

Diseño de investigación................................................................................................... 17

Variables ................................................................................................................................ 17

Flujo mensual de visitantes que arriban a la RPNYC. ................................................ 17

Índice de Búsquedas de Google Trends Mensual referido a la RPNYC. ................ 17

Instrumentos de Investigación ............................................................................................ 18

Procedimiento para recolección de datos ........................................................................ 19

Plan de análisis ..................................................................................................................... 19

Resultados ....................................................................................................... 21

Discusión .......................................................................................................... 25

Conclusiones .................................................................................................... 27

Recomendaciones ............................................................................................ 28

Referencias ...................................................................................................... 29

Anexos ............................................................................................................. 33

3

Introducción

La Reserva Paisajística Nor Yauyos Cochas (RPNYC) es un atractivo turístico

ubicado en la Región Lima. En los últimos años ha venido experimentando un

crecimiento en cuanto al flujo de visitas que recibe en forma anual. No obstante,

este crecimiento no ha sido del todo uniforme en cuanto a los arribos mensuales.

A los métodos tradicionales para pronosticar llegadas a un destino turístico que

incluyen datos históricos de años anteriores se ha sumado un nuevo indicador:

la Big Data provista por Google Trends, aplicación cada día más usada para

elaborar pronósticos financieros, macroeconómicos, de salud pública,

comerciales, entre otros. De acuerdo a los aportes de diversos investigadores,

resulta posible adicionar los indicadores numéricos por el buscador a los datos

turísticos en diferentes modelos matemáticos para pronosticar el número de

turistas que arribaran hacia un lugar determinado.

El presente documento tiene por objetivo encontrar si existe una relación entre

los datos provistos por el buscador y el flujo mensual de llegadas turísticas a la

RPNYC. La hipótesis no se basa en una relación causa-efecto, sino en encontrar

una relación entre ambas variables usando como referencia al trabajo de Choi y

Varian (2009), a fin de comprender como se comporta una variable en relación

con la otra.

4

Problema de investigación

Planteamiento del Problema

Las personas revelan información útil acerca de sus necesidades, deseos,

intereses y preocupaciones en la Internet. Esto podría ser una explicación

aceptable del rápido y exitoso crecimiento de Google, el buscador más popular

a nivel global. Choi & Varian (2009) usaron el volumen de búsquedas para

predecir, entre otras cosas, las estadísticas de las llegadas mensuales de turistas

a países Canadá y Estados Unidos mediante el análisis de regresión de series

de tiempo incorporando datos de los índices de búsqueda en combinación con

los flujos de llegada turísticas históricos.

Es a partir de la anterior investigación que los índices de búsqueda electrónica

se convierten en objetos de estudio a tomar en cuenta por los profesionales del

turismo (Gawlik, Kabaria, & Kaur, 2011). Askitas & Zimmermann (2009)

señalaron que se espera que lo que los internautas estén buscando hoy sea

predictivo de lo que harán en un futuro inmediato o muy próximo si es que de

viajar se trata.

El flujo de llegadas de visitantes a la RPNYC ha presentado una tasa de

crecimiento del 20% anual si se analiza desde el año 2010 hasta el 2015

(SERNANP, 2016). Sin embargo, resulta que dicho crecimiento alcanzado en

los últimos años (Ver anexo 1) no ha mantenido un comportamiento regular en

cuanto al número de visitas mensuales para dicho período. Ello se refleja en la

alta variabilidad de los arribos mensuales con respecto a la media de cada año

la cual es medida a través del coeficiente de variación de Pearson (Ver anexo

2). Durante el período mencionado, los coeficientes de variación anuales se

encuentra siempre por encima de 0.80, lo cual significa que la serie de datos es

altamente heterogénea (Moore, 2005). Cuando se encuentran datos de esta

naturaleza resulta más complejo modelar variables como la estacionalidad y el

flujo de llegadas (Nieto, Amate, & Román, 1999).

Esta investigación busca determinar la probable relación entre la actividad de

búsqueda en Internet acerca de la llegada a la RPNYC y la llegada de visitantes

al mismo punto entre enero del 2011 y diciembre del 2015 a fin de establecer si

las búsquedas están relacionadas con las visitas mensuales reales y así

5

considerar la posibilidad de incorporarlas como indicador a tomar en cuenta para

medir el flujo de llegadas a futuro.

Formulación del problema

Este documente tiene como problema de investigación el siguiente:

“¿Qué relación existe en la Big Data provista por Google Trends y el flujo

mensual de llegadas de visitantes a la Reserva Paisajística Nor Yauyos-Cochas

en el período del 2011-2015?”

Justificación de la investigación

Un motivo para explorar los datos de Google en un país como el Perú, en donde

el acceso a internet no alcanza el grado de cobertura que tienen los países

desarrollados, es que dicha variable no resulta del todo limitante. Tal lo

demuestra un estudio en donde se determinó que existe una correlación entre

los índices económicos del mundo real (turismo, ventas minoristas, consumo

privados entre otros) y la actividad de búsquedas electrónicas en Sudáfrica

(Lutz, 2013), país en el que 49 de 100 personas usan internet (Banco Mundial,

2016); mientras que en el Perú dicho ratio es de 50 por cada 100 individuos

(GFK, 2015). Es importante mencionar esto porque los datos de la Big Data

electrónica se consideran más representativos en países con mayor grado de

cobertura de internet (Borba & Akemi, 2014). No obstante, la investigación sobre

los indicadores sudafricanos ha demostrado que sí es posible realizar

investigaciones de este tipo en países en donde el internet todavía no llega a ser

usado por una mayoría de la población.

Basado en el análisis de las búsquedas que realizan los potenciales visitantes

con respecto a la RPNYC, el estudio puede ayudar a obtener información

secundaria: estacionalidad del interés, destinos turístico relacionados,

disposición geográfica del interés electrónico y horas pico en donde se realiza

mayor cantidad de consultas, entre otros (Zeynalov, 2014). Del mismo modo se

conocerá qué distritos o ciudades todavía no buscan información sobre el

recurso. Todos estos datos resultan importantes para que puedan

implementarse estrategias orientadas al marketing electrónico (Borba & Akemi,

6

2014) que tendrán por objetivo incrementar el flujo de visitantes que llega a la

Reserva.

Buscar una relación entre tráfico web y visitas contribuye a la posible predicción

de las tendencias del turismo (Lutz, 2013). Se trata de predicciones de muy corto

plazo o nowcasting (Artola & Galn, 2012), las cuales son muy útiles en variables

con alto grado de volatilidad (Carriere-Swallow & Labbe, 2013), tal como es el

caso de llegadas a la RPNYC.

Con la predicción de tendencias de muy corto se puede ayudar a una variedad

de industrias que dependen directa e indirectamente del turismo. Resultaría

posible ajustar la oferta de habitaciones o el número de restaurantes de

conocerse con mayor precisión si es que vendrán más o menos visitantes en

comparación con un período anterior. Las predicciones turísticas de corto plazo

ayudan a optimizar los recursos que componen la oferta turística (RocaSalvatella

& Telefónica, 2014).

Otro punto a considerar es que cada vez una mayor proporción de turistas

peruanos y extranjeros usa internet. En el 2014 un 74% de vacacionistas

nacionales indicó que internet fue el medio que más influyó en su decisión de a

dónde dirigirse en sus viajes (Promperu, 2015); mientras tanto un 67% de los

extranjeros señaló a dicho canal como el más influyente para la elección de un

destino. En ambos grupos, el internet ocupa la primera ubicación desplazando a

las recomendaciones de familiares y amigos, revistas, folletos, entre otros

(Promperu, 2015).

Los registros electrónicos provistos por Google son una fuente casi ilimitada de

información que puede ser aprovechada por los profesionales del turismo. No

tienen costo alguno y se accede a ellos en forma inmediata. Con estos datos es

posible detectar patrones de comportamiento y tendencias del consumidor que

no podrían ser detectadas con métodos tradicionales (Instituto Valenciano de

Tecnologías Turísticas, 2015).

La data de volúmenes de búsqueda provista por Google minimiza los sesgos, ya

que es información obtenida a través de métodos computacionales artificiales

(Zeynalov, 2014). Las desviaciones (o sesgos) pueden aparecer tanto en el

encuestador como en el encuestado cuando se aplica encuestas (Malhotra,

7

2008). De ahí que el uso de datos electrónicos para investigaciones de mercado

gane cada día más prestigio (Instituto Valenciano de Tecnologías Turísticas,

2015).

8

Marco Referencial

Antecedentes

Diversos estudios han comprobado que los datos provistos por Google resultan

útiles como indicadores económicos. Se llegó a demostrar que existe un grado

de correlación importante entre determinadas palabras clave asociadas a la

búsqueda de empleo y la evolución de la tasa de desempleo mensual en

Alemania (Askitas & Zimmermann, 2009). Se construyó un modelo que

pronosticaba el precio del petróleo en función a indicadores macroeconómicos y

datos de búsqueda de Google (Fantazzini & Fomichev, 2014). Otros

investigadores usaron los datos del buscador para describir la evolución que

presentó la propagación del virus de la gripe en los Estados Unidos entre los

años 2003 y 2009 (Dukic, Lopes, & Polson, 2012). Finalmente, varias entidades

estatales ya han encontrado que la incorporación de datos de Google Trends en

sus índices es fructífera, incluyendo los bancos centrales de Israel, Inglaterra,

España, Italia y Chile (Ito & Odenheimer, 2012).

Los modelos de proyección de demanda turística son diversos. Gonzales & Moral

(1995), con el fin de pronosticar las llegadas turísticas a distintas ciudades

españolas, usaron el análisis de las series de tiempo. Por otro lado,

Athanasopoulos, Hyndman, Song, & Wu (2011) implementaron el estudio de

series mensuales, trimestrales y anuales. Nieto, Amate, & Román (1999)

hicieron énfasis en la estacionalidad y proyecciones mensuales de las llegadas

a Almería. Estas tres investigaciones usaron modelos autorregresivos, es decir,

modelos en los que los valores proyectados dependen de sus datos históricos

anteriores (Moore, 2005). Ello los diferencia de ecuaciones que requieren de

valores externos. El volumen de importaciones de una economía pequeña, por

ejemplo, depende mucho más del tipo de cambio que de los datos históricos

registrados en una Balanza Comercial (Mankiw, 2007).

Con relación a la Big Data, y más específicamente al flujo de llegadas a un

espacio determinado, Artola & Galn (2012) construyeron un modelo que

relacionaba el flujo mensual de turistas británicos que ingresaba a España con

el volumen de búsquedas que hacían los anglosajones con respecto al país

9

ibérico entre los años 2006 y 2011. Determinaron que la relación entre ambas

variables era del tipo directa y lineal, y que resultaba viable obtener un indicador

ajustado del flujo mensual de turistas británicos a diversas ciudades españolas.

El propósito de esta investigación fue evaluar si el indicador provisto por Google

podría ser incorporada para el nowcasting, predicción de muy corto plazo.

Por otro lado, Zeynalov (2014) llegó a evidenciar la elegibilidad de los datos

provistos por Google para construir un modelo econométrico válido que

posibilitaba la predicción inmediata y de corto plazo con respecto al flujo de

turistas que llegó a Praga, capital de la República Checa entre los años 2008 y

2013, en forma mensual, siempre y cuando estas búsquedas estuvieran

relacionadas a la motivación de realizar un viaje y no con otros fines. Esto se

debe a que las búsquedas acerca de Praga no necesariamente son todas con

fines de viaje, sino también con otros fines tales como conocer su historia,

gastronomía u otros. La ecuación empleada surge de una combinación de

modelos autorregresivos y cálculo vectorial.

En cuanto a ciudades, se demostró que la información de búsqueda de Internet

mensual del término Punta Cana en los Estados Unidos y Canadá entre enero

del 2004 y agosto del 2013 reflejaba el comportamiento mensual del flujo de

llegadas de ambos grupos al mencionado destino. Se encontró que los

canadienses realizaban la búsqueda del término clave con fines turísticos desde

un mes antes del arribo, mientras los estadounidenses realizaban lo propio tres

semanas antes de desplazarse. (De la Oz, Predicting Tourist Inflows to Punta

Cana, Dominican Republic, Using Google Trends, 2014). Nuevamente se recurre

a un modelo de autorregresivo que fue delimitado hasta por semanas, ya que se

contaba con los flujos de arribos más detallados.

Con respecto al uso de los datos del navegador, y el turismo, no se ha

encontrado investigaciones indexadas en Web of Science o Scopus que hayan

sido publicadas por instituciones de origen peruano. No se han ubicado, además,

tesis que usen a Google como predictor del mercado turístico en los repositorios

digitales de universidades peruanas que cuenten actualmente con facultades de

turismo.

10

Marco teórico

Big Data

La Big Data tiene múltiples definiciones. Artola & Galn (2012) señalan que

entre las más citadas se tiene a la que la ha definido como un conjunto de

datos cuyo tamaño va más allá de las capacidades de las herramientas

típicas de software de base para capturar, almacenar, gestionar y analizar

información (McKinsey Global Institute, 2011).

El informe de TicBeat (2012) define a la Big Data como una gran cantidad

de datos que se ha generado desde hace ya varios años a partir de

cualquier actividad. El mismo informe hace énfasis en que la definición

pasa por buscar el mejor camino para que dichos datos sean

aprovechables.

Laney (2001) hace énfasis en que la definición pasa por las tres 'Vs' de

gestión de datos: volumen, velocidad y variedad. El volumen se refiere a

la mayor cantidad de datos a ser administrados, la velocidad hace

referencia a la aceleración del ritmo de la generación de datos, así como

su uso y las interacciones posibles, y la variedad alude a los múltiples y

diversos formatos de datos que aparentemente no son compatibles (los

comentarios en twitter y la geolocalización de los mismos, por ejemplo),

estructuras diversas, y el análisis de información presentada en formato

de texto.

En cuanto al uso de la Big Data en el turismo, Rouby (2015) empleó los

comentarios de TripAdvisor como datos cualitativos para evaluar los

sentimientos de los turistas que visitaban Egipto durante la revolución del

2011. Por otro lado, el tiempo de conexión a internet de dispositivos

móviles ha sido asociado al tiempo de permanencia promedio de un

viajero en Madrid y Barcelona (RocaSalvatella & Telefónica, 2014). En

tercer lugar, se estimó el gasto promedio por turista que visitó Valencia en

el 2014 recurriendo al consumo realizado a través de tarjetas de crédito

(Instituto Valenciano de Tecnologías Turísticas, 2015). Finalmente, se

logró descifrar la ruta más probable de recorrido que realizaría un visitante

11

en Catalunya haciendo uso de un aplicativo móvil asociado a la tecnología

GPS (RocaSalvatella & Telefónica, 2014).

En cuanto a las limitaciones de la Big Data se tienen a aquellas que están

vinculadas al uso de datos de carácter personal (Borba & Akemi, 2014).

Dichas restricciones varían de acuerdo al marco legal de cada país

(Instituto Valenciano de Tecnologías Turísticas, 2015). Otra limitación

importante es la referida a la depuración de los datos (RocaSalvatella &

Telefónica, 2014); así, por ejemplo, no todas las personas que usen una

señal gratuita de internet de España son necesariamente turistas, pues

sus motivaciones de desplazamiento pueden ser otras (Instituto

Valenciano de Tecnologías Turísticas, 2015).

Google Trends.

Google Trends es una herramienta que proporciona información semanal

sobre las búsquedas en Internet con características avanzadas

disponibles libremente en https://www.google.com/trends/

Los usuarios pueden ver y descargar los patrones de volúmenes de

búsqueda para uno o más términos de búsqueda. Dicha información

también está disponible en función de la ubicación de los que hacen la

búsqueda y se encuentra organizada por categoría. También existe

información acerca de las búsquedas principales y más frecuentes que

incluyen o están vinculadas con el término de búsqueda (y la categoría, si

es que está disponible). La información de esta herramienta proporciona

cifras semanales durante un período que llega hasta la actual (aunque

incompleta) semana. La disponibilidad de datos a partir de 2004 permite

la existencia una serie de tiempo que se construye en relación con

determinados términos de búsqueda (Office of National Statistics, 2012).

Los datos proporcionados por Google no representa el número de

búsquedas en un período de tiempo determinado. En cambio, son

presentados como un índice relativo para un período específico en una

región determinada. Los datos están normalizados a partir del 01 enero

12

del 2004 con un valor máximo de 100 y un mínimo de 0 (Choi & Varian,

2009).

En cuanto a los usos de Google Trends vinculados al turismo, el buscador

arroja datos que también pueden ser aprovechables no solo para destinos

turísticos, sino también para predecir demandas sobre tours, vuelos y

hoteles (Yang, 2014). También puede usarse para estudiar las

consecuencias de eventos de corta duración (deportivos, culturales, entre

otros) en destinos turísticos como Dubai y similares (Saidi, Scacciavillani,

& Fahd, 2010).Los datos del navegador, por último, sirven para identificar

competidores en el caso de la industria hotelera (Rivera, 2016).

No obstante, el indicador presenta también una serie de desventajas. En

primer lugar, Google sólo muestra los datos absolutos, donde se

proporciona un índice que es relativo a todas las búsquedas. En segundo

lugar, los usuarios de Internet pueden escribir palabras similares incluso

si estaban buscando temas diferentes o emplear nombres diferentes para

un mismo tema. En tercer lugar, las consultas de búsqueda web están

relacionadas con las características personales tales como educación,

ingresos, edad, etc. De ahí que los datos no sean perfectos; sin embargo,

es uno de los mejores datos de información de almacén de datos web y

tiene el potencial para actuar como un indicador adelantado (Zeynalov,

2014).

Flujo de Visitantes

La Organización Mundial del Turismo (2015) define a un visitante como

“una persona que viaja a un destino principal distinto al de su entorno

habitual, por una duración inferior a un año, con cualquier finalidad

principal (ocio, negocios u otro motivo personal) que no sea la de ser

empleado por una entidad residente en el país o lugar visitados”. Incluye

a turistas y excursionistas. Luego, un flujo de visitantes será la cantidad

de estos en un período y lugar determinado.

13

Reserva Paisajística Natural Nor Yauyos Cochas.

La RPNYC posee una superficie total de 221,268.48 hectáreas y se

encuentra ubicada en los departamentos de Lima y Junín (SERNANP,

2016). Gran parte del área que ocupa (62,1%) se ubica en el

departamento de Lima, provincia de Yauyos, distritos de Alis, San Lorenzo

de Quinti, Tanta, Huancaya, Tomas, Vitis, Miraflores, Carania y Laraos;

una superficie menor (37,9%) se halla en el departamento de Junín,

provincia de Jauja, en los distritos de Suitucancha, Llocllapampa y

Canchayllo (Ministerio del Ambiente, 2011)

Las principales zonas turísticas y de recreación se encuentran en las

zonas aledañas a los centros poblados de Vitis, Huancaya y Vilca; y la

zona que incluye a Marcatupe y la laguna Piquecocha. Todas estas

localidades están ubicadas a lo largo del río Cañete. Entre las actividades

más usuales y recomendadas están las caminatas, la pesca deportiva, el

andinismo, la espeleología (estudio de cavidades subterráneas), la

observación de aves y los paseos en bicicleta (SERNANP, 2016).

Entre sus principales atractivos resaltan las cascadas de Huancaya y

Vilca; las lagunas de Piticocha, Mullucocha y Paucarcocha, en Tanta; las

zonas arqueológicas de Huamanmarca, en Carania, Huaquis, en

Miraflores, Vinchos y Andas en Canchayllo; las andenerías de Laraos,

Carania y Vitis. Del mismo modo, es recomendable visitar las pinturas

rupestres de Cuchimachay en Tanta y Quilcasca en Laraos (SERNANP,

2016).

Modelo de referencia del flujo de arribos mensuales

Existen diversas formas de modelar el flujo de llegadas hacia un

determinado punto. La selección de un modelo en particular depende de

los datos con los que se cuente (Song, 2008). En este caso se disponía

únicamente de las llegadas mensuales a la RPNYC. De haberse contado

con un perfil que indicara la procedencia geográfica de quienes han

14

visitado el destino, pudo haberse considerado el uso de otras ecuaciones

en las que se tuviera como variable al flujo turístico de salidas de los

departamentos que más participación tienen en cuanto al número de

llegadas a la RPNYC. Así, por ejemplo, si un perfil turístico señalara que

la mayoría de llegadas al mencionado sitio son procedentes de Lima,

entonces, se debería incorporar a la cantidad mensual de limeños que

salen a hacer turismo como variable relevante. Esta relación de la

dependencia con los principales mercados emisores fue tratado por

Shareef & McAleer (2005) para cuantificar el flujo de llegadas a pequeñas

islas.

Existen otros modelos más avanzados que incorporan los métodos

computaciones para la predicción turística. Estos últimos mejoran

considerablemente los pronósticos (Yu & Schwartz, 2005). En el campo

de la matemática pura son bastante recurrentes los modelamientos que

hacen uso intensivo del álgebra matricial (Shareef & McAleer, 2005) .

Sin embargo, la elección de un modelo implica poder llevar a cabo la

construcción del mismo. Las ecuaciones pueden construirse con relativa

facilidad a partir de la estadística inferencial (Askitas & Zimmermann,

2009).

Elegir un modelo obedece, entonces, a la disponibilidad de datos y a las

habilidades propias del investigador. Es por estas razones que se

considera principalmente el modelo recogido por Choi y Varian (2009),

pues usa datos históricos y hace uso de la estadística inferencial. Es un

modelo del tipo autorregresivo. La importancia del mismo radica en que

es el primero en incorporar a un indicador electrónico como variable

independiente para alcanzar un mejor ajuste en la cantidad de llegadas

(Lutz, 2013). Por otro lado, la misma investigación resulta aplicable

siempre y cuando se cuente con dos series de datos: el número de arribos

mensuales históricos y el volumen relativo de búsquedas respecto al

destino turístico estudiado para el mismo período, ambas variables se

obtuvieron para la RPNYC.

15

Choi y Varian (2009) indican que la llegada de arribos mensual a un

destino está determinada por la siguiente ecuación:

Log (Y(t)) = b1 + b2 * Log (Y(t-12))+ b3 * Log (Y(t-1)) (primer modelo)

En esta ecuación Y(t) es la cantidad de llegadas registrada es el mes t

(abril del 2012, por ejemplo) ; Y(t-12) corresponde a las visitas recibidas

para el mismo mes pero correspondientes al año anterior (abril del 2011

de acuerdo a nuestro ejemplo anterior); Y(t-1) es también un flujo que

corresponde al número de arribos pero para el mes inmediato anterior

(marzo del 2011 en concordancia a la situación ejemplificada).

La misma investigación incorpora el índice de búsquedas de Google al

modelo de la siguiente forma:

Log Y(t) = b1 + b2 * Log Y(t-12)+ b3 * Log Y(t-1) + c* G(t) (segundo

modelo)

La ecuación anterior incorpora el índice de búsquedas mensual G(t) que

a diferencia de los demás se adiciona de forma lineal y no logarítmica

como los anteriores. Los términos b2, b3 y c son los coeficiente que

afectan a las variables Y(t); Y(t-12) y G(t) respectivamente , y b1 es un

término independiente.

Objetivos

Objetivo General: Determinar la relación entre la Big Data de Google

Trends y el flujo mensual de visitantes que arribaron a la Reserva

Paisajística Nor Yauyos-Cochas entre los años 2011-2015

Objetivo específico 1: Determinar si las llegadas mensuales a la Reserva

Paisajística Nor Yauyos-Cochas para el período 2011-2015 están

relacionadas con sus predecesores correspondientes del año anterior

respectivo y con los registros del mes inmediato anterior.

Objetivo específico 2: Comparar los resultados obtenidos por los dos

modelos presentados.

16

Hipótesis

En este trabajo se analiza si las consultas web relacionadas con la

RPNYC pueden estar correlacionados con el flujo mensual de los

visitantes nacionales y extranjeros que llegó a dicho destino para el

período 2011-2015. Luego, son posibles dos hipótesis:

H0: La inclusión de la variable Google Trends no mejora la relación entre

las variables del modelo de referencia para las llegadas mensuales de

visitantes a las RPNYC.

H1: La inclusión de la variable Google Trends sí mejora la relación entre

las variables del modelo de referencia para las llegadas mensuales de

visitantes a las RPNYC.

17

Método

Tipo y diseño de investigación

Tipo de investigación.

De acuerdo a lo mencionado anteriormente, este estudio tendrá un

enfoque cuantitativo, ya que emplea la recolección y el análisis de datos

para responder preguntas de investigación y comprobar hipótesis

establecidas en forma previa haciendo uso del análisis estadístico

(Hernández, Fernández, & Baptista, 2014).

Diseño de investigación.

El diseño de investigación será el de correlación: en esencia se busca

medir la relación entre dos o más variables, estableciendo su grado de

correlación, pero sin pretender dar una explicación completa (de causa y

efecto) al fenómeno investigado, sólo investiga grados de correlación. El

propósito a cumplir es conocer cómo se comportará una variable,

conociendo el comportamiento de otras vinculadas a ella (Hernández et

al., 2014).

Variables

Flujo mensual de visitantes que arriban a la RPNYC.

Es una variable que proviene de una fuente secundaria. Incluye tanto a

visitantes nacionales como extranjeros que han arribado al destino entre

los años 2011 al 2015. Cabe aclarar que el estudio abarcará los datos del

período indicado a pesar de contar con las llegadas del año 2010, y esto

se debe a que para usar el modelo es necesario tener los datos del año

anterior. No se cuentan con las estimaciones para el año 2009, por lo que

no se podrá realizar la modelación para el año 2010.

Índice de Búsquedas de Google Trends Mensual referido a la RPNYC.

También es de una fuente secundaria (Google). Se ingresa a la dirección

https://www.google.com/trends/ y se procede a digitar el término que

desea buscarse (Ver anexo 3). Para la RPYNC, Google ya tiene

18

predeterminada el término en inglés (que incluye también a los términos

en español, ya que la totalidad de las búsquedas se dan en Perú). La base

de datos está disponible por semanas (Ver anexo 4) por lo que será

necesario agruparlas en meses y así obtener los datos mensuales (Ver

anexo 5). En cuanto al ámbito geográfico de búsqueda, el navegador

permite seleccionar si se desea limitar las búsquedas a un espacio

determinado. Resulta posible obtener el interés global y del Perú hacia la

RPNYC, pero el buscador señala que en el extranjero no se han realizado

búsquedas relacionadas al punto mencionado(Ver anexo 6). Es

necesario, entonces, las búsquedas a territorio peruano. Ello no significa

que los extranjeros no busquen información acerca de la RPNYC en el

extranjero, pero estas búsquedas no alcanzan la masa crítica necesaria

para ser registrados por Google Trends en sus países de origen. Cabe la

posibilidad, además, de que los foráneos realicen la búsqueda acerca de

la Reserva estando en territorio peruano. No es posible determinar que

volumen de búsquedas corresponde a visitantes potenciales extranjeros,

pero sí se conoce el volumen de búsquedas en territorio peruano.

Los datos se depuraron haciendo uso de la función de autocompletado de

Google, la cual agrupa a todas las búsquedas relacionadas al tópico en

cualquier idioma. De esta manera los resultados son más precisos, pues

se hace referencia a la RPNYC y no a la provincia de Yauyos, al distrito

de Yauyos o similares (Ver anexo 7). Otro punto a considerar en la

depuración de los datos es la función de autocorrección ofrecida por

Google. De esta manera si es que un usuario busca información acerca

de la Reserva y no conoce la forma en la que se escribe, el navegador

sugerirá un término correcto. De esta forma no se pierden datos de las

búsquedas (Ver anexo 8)

Instrumentos de Investigación

Statgraphics Centurion es un paquete estadístico que realiza funciones

básicas y avanzadas. Cuenta con una versión en línea que permite

ingresar datos en Excel. La versión actual incorpora 230 procedimientos

19

que incluyen minería de datos, análisis de series de tiempo, regresiones,

entre otros (Monterrosa, 2014).

Procedimiento para recolección de datos

Las variables ya descritas provienen de fuentes secundarias. Las llegadas

son provistas por el SERNANP, pero en ellas no se distingue a extranjeros

de nacionales. En el caso de los datos provistos por Google, se limitará

las búsquedas a territorio peruano, ya que el volumen para búsquedas

fuera de ese espacio equivale a cero, a pesar de que sí existen extranjeros

que visitan la RPNYC. Esas son las limitaciones de la información. En el

caso de Google será solo necesario sumar los índices que arroja el

navegador con respecto a la búsqueda (Ver Anexo 9).

Posterior a ello ambas variables se deben organizar en orden cronológico

para luego ser transformadas en base logarítmica.

Plan de análisis

Las variables serán sometidas al modelo ya descrito anteriormente

durante la penúltima semana de julio del 2016. Se usará la regresión

simple y la múltiple en sus versiones autorregresivas según sea el caso

bajo el método de mínimos cuadrados. Los resultados son obtenidos de

forma inmediata por el software. Los principales resultados a analizar

serán los mismos que observaron Choi & Varian (2009): el R-cuadrado y

el Valor-P.

El R-cuadrado, también llamado coeficiente de determinación, es el

porcentaje de variación de la variable de respuesta que queda explicada

por las variables de entrada (Moore, 2005). Por lo general, mientras mayor

sea el R-cuadrado, mejor será el ajuste del modelo a sus datos. De

acuerdo a la teoría estadística, el valor de R-cuadrado proviene de un

valor R llamado coeficiente de correlación elevado al exponente dos. Un

valor de mínimo aceptable de R que señala una existencia de relación

entre las variables es de 0.80 (Moore, 2005). En consecuencia, un R-

cuadrado mínimo sería de 0.82 o 0.64.

Con respecto al valor- P, este viene asociado a un alfa. El valor de alfa =

0.05 o 5% se usa como referencia, ya que corresponde al mismo nivel

20

trabajado Artola & Galn (2012) y De la Oz (2014). Un modelo considerado

robusto se vincula a un valor de alfa que va desde 0.05 hasta 0.01

(Manterola & Pineda, 2008). Si el valor-P es mayor que el alfa se debe

rechazar la Hipótesis nula (no hay relación entre las variables) y aceptar

la hipótesis alternativa (sí existe relación). En forma análoga, si un Valor-

P de una variable es mayor a alfa (0.05 en este caso), significa que la

misma debe ser excluida del modelo.

21

Resultados De emplear el primer modelo que no incluye la variable digital, es decir, el que

posee la forma:

Log (Y(t)) = b1 + b2 * Log (Y(t-12))+ b3 * Log (Y(t-1))

La salida obtenida usando como base los datos asociados a la RPNYC resulta:

Log (Y(t)) = 0.976366 + 0.493066 * Log (Y(t-12))+ 0.175514 * Log (Y(t-1))

(primera ecuación)

Tabla 1

Parámetros de la primera ecuación

Estadísticas de la regresión

Coeficiente de determinación R^2

0.28816908

Se debe excluir del mismo a la variable asociada al período t -1, pues tiene un

Valor-P de 1.22 que sobrepasa el 0.05. Dicho de otra forma, no existe relación

entre el flujo de visitas turísticas que recibe la RPNYC en un mes cualquiera con

la cantidad registrada para el período mensual inmediato anterior. Por otro lado,

el R-cuadrado es de 0.2881, inferior al 0.64 necesario ya indicado (Ver salida

completa en el Anexo 10).

Luego, el modelo puede ser simplificado, pues el componente Log Y(t-1) no es

estadísticamente significativo con un nivel de confianza del 95.0% o mayor.

COEFICIENTES

Parámetro Estimación Error Estándar Estadístico T Valor-P

CONSTANTE 0.976366 0.420725 2.32068 0.0239

LogY(t-12) 0.493066 0.112538 4.38132 0.0001

LogY(t-1) 0.175514 0.111877 1.56881 0.1222

22

Consecuentemente se debe para suprimir a dicho elemento del modelo a fin de

obtener mejores resultados.

Una vez excluido el indicador Log Y(t-1), la nueva ecuación se transforma en una

de la forma:

Log (Y(t)) = b1 + b2 * Log (Y(t-12))

La anterior expresión, sujeta a los datos proporcionados (llegadas a la RPNYC

e indicadores de Google) queda tal como sigue:

Log Y(t) = 1.42468 + 0.508896*Log Y(t-12) (segunda ecuación)

Tabla 2

Parámetros de la segunda ecuación

COEFICIENTES

Parámetro Estimación Error Estándar Estadístico T Valor-P

CONSTANTE 1.42468 0.312651 4.55676 0

Log Y(t-12) 0.508896 0.113488 4.48413 0

Estadísticas de la regresión

Coeficiente de determinación R^2

0.257433321

Los resultados que se presentan muestran que si existe relación entre la cantidad

de turistas que llegan a la RPNYC en un período t y en el período t – 12 (Ver

salida completa en el Anexo 11), si es que ambas variables son tomadas con

base logarítmica.

Dicha relación resulta significativa (ambos Valor-P = 0.00 < 0.05, la relación

existe con un nivel de confianza del 95.0%), pero no fuerte, pues tiene un R-

cuadrado de 0.2574 sin embargo, la asociación existe y es del tipo directa, es

decir, un aumento o disminución en el flujo de llegadas para un mes cualquiera

del período analizado está relacionado con el incremento o decremento

respectivo en las visitas para el correspondiente mes del año anterior. No se

debería retirar la variable del modelo.

23

Si se incorpora la variable G(t) a la ecuación descrita anteriormente, es decir, se

adopta la siguiente forma:

Log Y(t) = b1 + b2 * Log Y(t-12)+ c* G(t) (tercera ecuación)

Sujeta a los datos de llegadas a la RPNYC y a las cifras provistas por Google se

convierte en:

LogY(t) = 0.982978 + 0.469528*LogY(t-12) + 0.00549502*G(t)

Tabla 3

Parámetros de la tercera ecuación

Parámetro Estimación Error

Estándar Estadístico T Valor-P

CONSTANTE 0.982978 0.226188 4.34584 0.0001

LogY(t-12) 0.469528 0.0796625 5.89397 0

G(t) 0.00549502 0.000702509 7.822 0

Estadísticas de la regresión

Coeficiente de determinación R^2

0.641859997

Puesto que las variables independiente figuran ambas con un Valor-P = 0.00 en

la tabla ANOVA es menor que 0.05, existe una relación estadísticamente

significativa entre las mismas con un nivel de confianza del 95.0%.

Con este modelo, el R-cuadrado alcanza un nivel del 0.64186, que resulta

considerablemente más alto que el nivel anterior de 0.2574. La relación entre

las variables presentadas ahora es más fuerte (Ver salida completa en el anexo

12). Nuevamente, aquí la asociación es del tipo directa. Si bien es cierto que

disminuye el término independiente como el coeficiente del término que afecta a

la variable que incluye a Y(t-12); dicha disminución se ha generado por la

incorporación de la variable de búsquedas en el modelo.

Con respecto a las hipótesis planteadas, el Valor-P es menor a 0.05 y, por tanto,

se debe rechazar la hipótesis nula H0 y se acepta H1, es decir, la inclusión de la

24

variable provista por el navegador sí mejora la relación entre las variables del

modelo de referencia para las llegadas mensuales de turistas a las RPNYC.

25

Discusión

La presente investigación no tiene por objetivo construir un modelo para realizar

pronósticos como lo hicieron Artola & Galn (2012). Sin embargo, sí se coincide

con estos en que es posible obtener un mejor indicador ajustado para el flujo

mensual una vez incorporada la variable dada por Google.

Las búsquedas referidas a la RPNYC no han podido ser filtradas haciendo uso

de la categoría viajes. Esto debido a que no se encuentra disponible para el

término o alcanza el volumen crítico de búsquedas requeridos para ser filtrado.

No es posible llevar acabo el experimento con mayor precisión tal como lo había

hecho Zeynalov (2014) para el caso de Praga.

En relación con lo planteado por De la Oz (2014), no se ha podido medir el tiempo

de anticipación con el que un potencial turista busca información acerca del

destino que es objeto de estudio de este documento. Esto se debe a que no se

cuenta con un flujo semanal de llegadas que pueda ser correlacionado con los

índices semanales provistos por el buscador en el caso de la RPNYC. No

obstante, sí hay coincidencia en lo referido a la existencia de una relación si se

compara las variables ya trabajadas en forma mensual.

Se ha logrado los objetivos: la variable de llegadas mensuales a la RPNYC está

correlacionada con el índice originado por el tráfico de búsquedas. Ambos

modelos poseen validez; sin embargo, el de mejor ajuste resulta ser el que usa

los datos históricos en combinación con el indicador provisto por el navegador.

Ello no quiere decir que no se utilicen la data histórica, pero sí que puede ser

complementada.

Finalmente, se concuerda con Choi & Varian (2009) en que la incorporación de

Google Trends mejora los resultados de los ajustes. Sin embargo, en el caso de

la RPNYC, el flujo mensual de visitas para un mes determinado no guarda

relación con su predecesor inmediato. Situación opuesta ocurre con las llegadas

registradas para el mismo mes pero hace un año. Así, por ejemplo, las llegadas

de visitantes a la RPNYC en el mes de abril del 2015 guarda relación con las de

abril del 2014, pero no con las de marzo del 2015.

26

Choi & Varian (2009) ubicaron los sus respectivos indicadores de Valor-P muy

cercanos a cero. Sin embargo, el R-cuadrado alcanzado por su modelo es de

0.733. Dicho de otra forma, el modelo planteado por ambos investigadores posee

un mejor ajuste que el planteado en este documento.

En cuanto al aporte académico, el modelo ya mencionado resulta aplicable a un

destino con un flujo de visitantes extremadamente volátil como lo es la RPNYC.

No obstante, un indicador R-cuadrado de 0.6418 significa que todavía existe

alrededor del 36% de variación en las llegadas a la Reserva que sería explicado

por otras variables que no han sido consideradas.

27

Conclusiones

La conclusión principal de esta investigación es que el flujo mensual de turistas

que arriban a la RPNYC puede asociarse a las estadísticas de búsqueda de

Google en conjunto. El modelo empleado muestra un mejor ajuste si se toma en

cuenta la variable independiente provista por el buscador.

La prueba estadística ha proporcionado suficiente evidencia para demostrar que

el índice de búsquedas resulta significativo, pero pequeño en valor absoluto en

cuanto a su relación con el flujo mensual de llegadas a la RPNYC. Un incremento

del R cuadrado de uno modelo a otro implica que la variación en la variable

dependiente se explica mejor por la incorporación de variable Google.

Entre las limitaciones pertinentes, es necesario recordar que cuando se realiza

la interpretación un coeficiente de correlación debe tenerse en consideración que

solo se puede hablar de asociación y no de una relación de causa-efecto. Un

coeficiente de correlación significativo puede sugerir la existencia de una relación

causa-efecto, pero no la establece. La única manera de establecer dicha relación

es a través de un estudio experimental.

Otra limitación es que los índices obtenidos a partir del buscador no permanecen

fijos a lo largo del tiempo. Estos pueden variar incluso de un día para otro si es

que registran nuevos picos de interés máximo. Son índices relativos y no

indicadores absolutos o que puedan ajustarse tomando una base de un año

relativo como el PBI. Ello no invalida los modelos, pero sí serán necesarios unos

reajustes para mayor precisión en los escenarios de muy corto plazo.

Por último, no es posible hacer una distinción con respecto a los datos de

Google. No se sabe qué proporción de las búsquedas fueron realizadas por

peruanos y extranjeros, pero sí se conoce el volumen relativo de búsquedas

realizadas en territorio peruano. Con respecto a las llegadas, estas no están

desagregadas por nacionalidad.

28

Recomendaciones

Se recomienda para futuras investigaciones incorporar el volumen relativo de

búsquedas electrónicas como variable que puede ser considerada en los

modelos que pretendan pronosticar el flujo de llegadas turísticas a destinos que

no presenten una tendencia clara en cuanto a dicha variable.

Es recomendable usar los indicadores de Google para modelos no regresivos.

Es decir, usarlo en combinación con indicadores externos. Así, por ejemplo, el

flujo de llegadas a las Islas Ballestas puede estar en función de las llegadas a

Ica (variable externa) en combinación con los flujos históricos (componentes

autorregresivos) y los datos de Google Trends.

Los profesionales encargados de la administración de diversos puntos turísticos

cuyas llegadas cumplan con el modelo estudiado podrán realizar proyecciones

de muy corto plazo. Por ejemplo, si faltan unos días para Semana Santa y se

quiere al menos tener una noción de si llegarán más o menos turistas que el año

pasado en un lugar turístico determinado, deberá prestarse atención a los

indicadores de Google de los días previos, siempre y cuando los flujos

mensuales de visitantes de ese espacio cumplan con el modelo expuesto.

Resulta viable aplicar el modelo presentado para otros destinos turísticos. Sería

más conveniente dar preferencia a aquellos sitios que tengan datos en donde

se distinga a llegadas nacionales de extranjeras. Resulta probable que los

resultados mejoren si se relaciona las búsquedas en territorio peruano con las

llegadas de peruanos hacia un destino.

Existen ciudades y destinos en otros países en los que se cuenta con información

del flujo diario de turistas. Los indicadores de Google pueden obtenerse hasta

por días. Luego, sería viable, realizar un estudio estadístico que vincule a los

arribos diarios con las búsquedas con la misma frecuencia.

Las búsquedas nacionales son la suma de componentes regionales. Estas

últimas provienen de las consultas por ciudad. Todos estos datos pueden ser

filtrados por el navegador. En consecuencia, resulta posible verificar si existe

relación entre el interés a nivel ciudad y regional con las llegadas hacia un

espacio turístico determinado.

29

Referencias

Artola, C., & Galn, E. (2012). Tracking the Future on the Web: Construction of Leading

Indicators Using Internet Searches. Recuperado el Julio de 2016, de

http://www.bde.es/f/webbde/SES/Secciones/Publicaciones/PublicacionesSeriadas/Do

cumentosOcasionales/12/Fich/do1203e.pdf

Artola, C., & Galn, E. (2012). Tracking the Future on the Web: Construction of Leading

Indicators Using Internet Searches.

Askitas, N., & Zimmermann, K. (2009). Google Econometrics and Unemployment Forecasting.

Obtenido de http://ftp.iza.org/dp4201.pdf

Athanasopoulos, G., Hyndman, R., Song, H., & Wu, D. (2011). The tourism forecasting

competition. International Journal of Forecasting, 822-844.

Banco Mundial. (2016). Usuarios de Internet (por cada 100 personas). Recuperado el 31 de

julio de 2016, de http://datos.bancomundial.org/indicador/IT.NET.USER.P2?view=map

Borba, A., & Akemi, A. (2014). Big Data Usage in the Marketing Information. Journal of Data

Analysis and Information Processing.

Choi, H., & Varian, H. (2009). Predicting the Present with Google Trends. Obtenido de

http://people.ischool.berkeley.edu/~hal/Papers/2011/ptp.pdf

De la Oz, M. (2014). Predicting Tourist Inflows to Punta Cana, Dominican Republic, Using

Google Trends. Recuperado el Julio de 2016, de

http://digitalcommons.usu.edu/cgi/viewcontent.cgi?article=1362&context=gradreport

s

De la Oz, M. (2014). Predicting Tourist Inflows to Punta Cana, Dominican Republic, Using

Google Trends.

Dukic, V., Lopes, H. F., & Polson, N. (2012). Tracking Epidemics with State-space SEIR and

Google Flu Trends. Obtenido de https://core.ac.uk/download/pdf/23798998.pdf

El Rouby, I. (2015). The Use of Text mining to examine the Effect of the Egyptian Revolution on

Tourists’ Sentiments towards visiting the Country. JOURNAL OF TOURISM RESEARCH.

Fantazzini, D., & Fomichev, N. (2014). Forecasting the Real Price of Oil Using Online Search.

International Journal of Computational Economics and Econometrics, 4, 4-31. Obtenido

de http://ssrn.com/abstract=2423513

Gawlik, E., Kabaria, H., & Kaur, S. (2011). Predicting tourism trends with Google Insights.

Obtenido de http://cs229.stanford.edu/proj2011/GawlikKaurKabaria-

PredictingTourismTrendsWithGoogleInsights.pdf

GFK. (2015). Uso del Internet en el Perú. Obtenido de http://es.slideshare.net/GfKPeru/gfk-per-

uso-de-internet-en-el-per-abril-2015

30

Gonzales, P., & Moral, P. (1995). An analysis of the international tourism demand in Spain.

International Journal of Forecasting, 233-251. Obtenido de

http://www.sciencedirect.com/science/article/pii/0169207094005703

Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación (Quinta

ed.). México: McGraw Hill.

Hernández, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación (Quinta

ed.). México: McGraw Hill.

Instituto Valenciano de Tecnologías Turísticas. (2015). BIG DATA: retos y oportunidades para el

turismo. Recuperado el julio de 2016, de http://www.thinktur.org/media/Big-Data.-

Retos-y-oportunidades-para-el-turismo.pdf

Ito, A., & Odenheimer, A. (2012). Google Central Banks´ New Economic Indicator. Obtenido de

http://www.bloomberg.com/news/articles/2012-08-09/google-central-banks-new-

economic-indicator

Laney, D. (2001). 3D Data Management: Controlling Data Volume, Velocity and Variety.

Recuperado el Julio de 2016, de http://blogs.gartner.com/doug-

laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-

and-Variety.pdf

Lutz, F. (2013). TRENDING IN AFRICA Using Google Trends to Nowcast Consumer Confidence in

South Africa. Recuperado el Julio de 2016, de

www.essa2013.org.za/fullpaper/essa2013_2610.pdf

Malhotra, C. (2008). Investigación de Mercados (Quinta ed.). México: Pearson Education.

Mankiw, N. (2007). Macroeconomía.

Manterola, C., & Pineda, V. (2008). El valor de “p” y la “significación estadística”. Obtenido de

http://www.scielo.cl/pdf/rchcir/v60n1/art18.pdf

McKinsey Global Institute. (2011). Recuperado el 2016, de Big Data: The next frontier for

innovation, competition, and productivity

Ministerio del Ambiente. (2011). Inventario y evaluación del Patrimonio Natural de la Reserva

Paisajística de Nor Yauyos-Cochas. Obtenido de

http://cdam.minam.gob.pe/novedades/invevalpatrimnaturnoryauyoscochas.pdf

Monterrosa, J. (2014). STATGRAPHICS CENTURION XVI.I. Obtenido de

http://www.fce.unal.edu.co/uifce/proyectos-de-

estudio/pdf/Statgraphics%20Centurion%20XVI

Moore, D. (2005). Estadística Aplicada Básica (Segunda ed.). España: Antoni Bosch.

Nieto, J., Amate, I., & Román, I. (1999). Estudio de la estacionalidad turística en la provincia de

Almería. Recuperado el julio de 2016, de

https://dialnet.unirioja.es/descarga/articulo/199903.pd

Office of National Statistics. (2012). Recuperado el julio de 2016, de https://www.ons.gov.uk

31

Organización Mundial del Turismo. (s.f.). Entender el turismo: Glosario Básico. Recuperado el

julio de 2016, de http://media.unwto.org/es/content/entender-el-turismo-glosario-

basico

Promperu. (2015). Perfil del Turista Extranjero 2014. Recuperado el julio de 2016, de

http://media.peru.info/IMPP/2014/Perfil-Turista-Extranjero/Perfil-del-Turista-

Extranjero-2014.pdf

Promperu. (2015). Perfil del Vacacionista Nacional. Obtenido de

http://www.promperu.gob.pe/TurismoIn/Sitio/VisorDocumentos?titulo=Perfil%20del

%20Vacacionista%20Nacional%202014&url=~/Uploads/perfiles_vacac_nac/35/Perfil-

Vacacionista-Nacional-

2014.pdf&nombObjeto=PerfVacacionistaNac&back=/TurismoIN/Sitio/PerfVacacionista

Rivera, R. (2016). A Dynamic Linear Model to Forecast Hotel Registrations in Puerto Rico.

Obtenido de https://arxiv.org/pdf/1512.08097.pdf

RocaSalvatella & Telefónica. (2014). Big Data and Tourism: New indicators for tourism

management. Recuperado el Octubre de 2016, de http://telefonicacatalunya.com/wp-

content/uploads/2014/05/BIG-DATA-Y-TURISMO-eng-interactivo.pdf

Saidi, N., Scacciavillani, F., & Fahd, A. (2010). Forecasting Tourism in Dubai Forecasting Tourism

in Dubai. Recuperado el Octubre de 2016, de

https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ua

ct=8&ved=0ahUKEwi0go-

h0tPPAhUE1R4KHQ1pCjQQFgg1MAA&url=http%3A%2F%2Fnassersaidi.com%2Fwp-

content%2Fuploads%2F2012%2F06%2FEconomic-Note-

8.pdf&usg=AFQjCNEyt5ONzWYqnVtGKUDTqzF6dSYURg&bv

Sampieri, R., Fernández, C., & Baptista, P. (2014). Metodología de la Investigación (Quinta ed.).

México: McGraw Hill. .

SERNANP. (2016). Recuperado el 2016, de www.sernanp.gob.pe

Shareef, R., & McAleer. (2005). Modelling multivariate tourism demand and Volatility in Small

Tourism Economies. Recuperado el 01 de Septiembre de 2016, de

https://core.ac.uk/download/pdf/6408158.pdf

Sherman, & Webb. (1988). Metodología de la Investigación. Obtenido de

https://www.esup.edu.pe/descargas/dep_investigacion/Metodologia%20de%20la%20

investigaci%C3%B3n%205ta%20Edici%C3%B3n.pdf

Song, H. (2008). Tourism demand modelling and forecasting—A review of recent research.

Tourism Management, 203-220. Obtenido de

https://core.ac.uk/download/pdf/397016.pdf

TicBeat. (2012). Recuperado el julio de 2016, de http://www.ticbeat.com/libreriaticbeat/big-

data/

Todd, Z., Nerlich, B., McKeown, S., & Clarke, D. D. (2004). Mixing Methods in Psychology.

Nueva York: Psychology Press.

Yang, X. (2014). FORECASTING CHINESE TOURIST VOLUME WITH SEARCH ENGINE DATA. 2nd

International Conference on Big Data Analysis and Data Mining. Recuperado el

32

Octubre de 2016, de http://www.omicsonline.org/proceedings/the-effects-of-google-

trends-on-tourism-industry-in-south-korea-39641.html

Yu, G., & Schwartz, Z. (2005). Forecasting Short Time-Series Tourism Demand with Artificial

Intelligence Models. Journal of Travel Research. Recuperado el Septiembre de 2016, de

http://jtr.sagepub.com/content/45/2/194.abstract

Zeynalov, A. (2014). Nowcasting Tourist Arrivals to Prague:. Obtenido de https://mpra.ub.uni-

muenchen.de/60945/1/MPRA_paper_60945.pdf

33

Anexos

Anexo 1

Tabla A1

Flujo de vacacionistas nacionales y extranjeros que llegaron a la Reserva

Paisajística Nor Yauyos-Cochas 2010- 2015

Período 2010 2011 2012 2013 2014 2015

enero 100 110 415 280 981 1,509

febrero 150 76 122 742 575 469

marzo 300 62 149 1,034 494 480

abril 1,700 2,860 356 199 4,549 5,195

mayo 200 652 369 246 923 1,847

junio 100 520 369 445 840 1,236

julio 2,030 3,460 2,176 2,824 4,621 3,702

agosto 1,100 1,238 959 63 570 274

septiembre 520 230 834 2,887 449 1,204

octubre 438 220 636 1,363 874 1,560

noviembre 742 172 279 1,728 1,301 823

diciembre 314 163 371 374 1,250 857

Total 7,694 9,763 7,035 12,185 17,427 19,156 Fuente: SERNANP (2016)

Anexo 2

Tabla A2

Desviación estándar, media y coeficiente de variación del flujo de llegadas

turísticas a la Reserva Paisajística Nor Yauyos-Cochas 2010-2015

Período 2010 2011 2012 2013 2014 2015

Desv. estándar 617.23 1103.61 536.52 953.97 1425.33 1388.95

Media 641.17 813.58 586.25 1015.42 1452.25 1596.33

Coef Variación 0.96 1.36 0.92 0.94 0.98 0.87 Fuente: SERNANP (2016) Elaboración: Propia

34

Anexo 3

Figura 1. Ejemplo de uso se Google Trends para capturar información acerca de la RPNYC

Fuente: Google Trends

Anexo 4

Figura 2. Ejemplo de la vista preliminar de la base de datos semanal generada por Google

Fuente: Google Trends

35

Anexo 5

Tabla A3

Índice mensual de búsqueda electrónica a la Reserva Paisajística Nor Yauyos-

Cochas 2011-2015

Período 2011 2012 2013 2014 2015

enero 42 48 41 85 84

febrero 43 48 76 44 54

marzo 54 103 82 51 117

abril 132 39 60 253 127

mayo 128 94 68 176 144

junio 140 90 84 118 103

julio 113 136 99 286 173

agosto 75 72 45 242 73

septiembre 57 124 95 55 177

octubre 44 124 128 87 117

noviembre 42 86 126 145 102

diciembre 53 87 65 172 62

Fuente: Google Trends capturado el 29 de Julio. Elaboración: Propia

Anexo 6

Figura 3. Mapa mundial de las búsquedas de la RPNYC

36

Fuente: Google Trends

Anexo 7

Figura 4. Función de autocompletado de Google aplicado a la RPNYC

Fuente: Google Trends

Anexo 8

Figura 5. Función de búsqueda sugerida por Google

Fuente: Google Trends

37

Anexo 9

Figura 6. Resultados por semana. En la captura para la primera semana de noviembre se obtuvo

un índice de búsquedas de 27 hacia la RPNYC. De esta forma es posible adicionar los resultados

semana a semana y obtener indicadores mensuales.

Fuente: Google Trends

38

Anexo 10 Tabla A5 Regresión Múltiple – Log Y(t) vs. Log Y(t-12) y Log Y(t-1)

Variable dependiente: Log Y(t) Variables independientes: Log Y(t-12), Log Y(t-1) ANÁLISIS DE VARIANZA

Fuente Suma de

Cuadrados Grado de Libertad Cuadrado Medio Razón-F Valor-P

Modelo 3.78402 2 1.89201 11.54 0.0001

Residuo 9.34722 57 0.163986

Total (Corr.) 13.1312 59 COEFICIENTES

Parámetro Estimación Error Estándar Estadístico T Valor-P

CONSTANTE 0.976366 0.420725 2.32068 0.0239

LogY(t-12) 0.493066 0.112538 4.38132 0.0001

LogY(t-1) 0.175514 0.111877 1.56881 0.1222

Estadísticas de la regresión

Coeficiente de correlación

múltiple 0.536813823

Coeficiente de

determinación R^2 0.288169081

R^2 ajustado 0.263192557

Error típico 0.40495224

Observaciones 60

El principal inconveniente de esta salida es el Valor-P que afecta a la variable

LogY(t-1) , es decir, 0.122. Es mayor al 0.05 permitido. Por tanto debe ser sacada

del modelo.

39

Anexo 11

Tabla A6

Regresión Simple – Log Y(t) vs. Log Y(t-12)

Variable dependiente: Log Y(t) Variable independiente: Log Y(t-12)

ANÁLISIS DE VARIANZA

Fuente Suma de

Cuadrados Grado de Libertad Cuadrado

Medio Razón-F Valor-P

Modelo 3.38042 1 3.38042 20.11 0

Residuo 9.75082 58 0.168118

Total (Corr.) 13.1312 59

COEFICIENTES

Parámetro Estimación Error Estándar Estadístico T Valor-P

CONSTANTE 1.42468 0.312651 4.55676 0

Log Y(t-12) 0.508896 0.113488 4.48413 0

Estadísticas de la regresión Coeficiente de correlación múltiple 0.507378873 Coeficiente de determinación R^2 0.257433321

R^2 ajustado 0.244630447

Error típico 0.410021416

Observaciones 60

Para este segundo escenario, existe relación entre las llegadas mensuales a la

RPNYC y las registradas hace un año. No obstante el R-cuadrado es débil

(25.74%)

40

Anexo 12

Tabla A7

Regresión Múltiple – Log Y(t) vs. Log Y(t-12) y G(t)

Variable dependiente: Log Y(t) Variables independientes: Log Y(t-12) G (t) ANÁLISIS DE VARIANZA

Fuente Suma de

Cuadrados Grado de Libertad Cuadrado Medio Razón-F Valor-P

Modelo 8.42842 2 4.21421 51.08 0

Residuo 4.70282 57 0.0825056

Total (Corr.) 13.1312 59

Parámetro Estimación Error Estándar Estadístico T Valor-P

CONSTANTE 0.982978 0.226188 4.34584 0.0001

LogY(t-12) 0.469528 0.0796625 5.89397 0

G(t) 0.00549502 0.000702509 7.822 0

Estadísticas de la regresión Coeficiente de correlación múltiple 0.801161655 Coeficiente de determinación R^2 0.641859997

R^2 ajustado 0.629293681

Error típico 0.287237936

Observaciones 60

Se mejoró el R-cuadrado (64.18%) y ninguna de las variables ha sido excluida

por su Valor-P. Las búsquedas tienen relación pero pequeña en valor absoluto

(0.00549)