big data: midiendo el futuro - um
TRANSCRIPT
Big Data: midiendo el futuro.
Valeria Martínez Martínez I IES Los Albares
Resumen El Big Data resulta esencial para facilitar el modo de vida que existe en la actualidad, dotando al mundo de predicciones acerca de enfermedades o catástrofes naturales, por ejemplo, para ayudar a prevenir y evitar que estos eventos tengan un impacto más grave. El presente estudio busca establecer modelos descriptivos de sucesos a través del Big Data, sus usos y ventajas, pero sobre todo su poder predictivo. En este trabajo se enumeran los usos y tipos de funcionalidades del Big Data actualmente; se analizan las posibilidades en el seguimiento y análisis de eventos en Internet que ofrece el Big Data, así como estudiar la vida y la muerte de los sucesos y la repercusión que tiene el registro de estos a través de Google Trends. Finalmente, pero imprescindible en este estudio, se han hecho predicciones de los fenómenos mediante una regresión matemática a partir de los datos recopilados de Google Trends y plasmados en un libro Excel. Respondiendo al problema y a los objetivos propuestos, se han realizado las predicciones correspondientes a siete sucesos elegidos, obteniendo una estimación de cuál será el futuro de dichos sucesos. Además, se ha querido seguir la línea de trabajo con recursos extendidos “de nivel usuario”, ya que la potencia del presente trabajo radica en los procesos matemáticos y económicos predictivos; no por la potencia de herramientas profesionales. Es por ello por lo que, a partir de herramientas de esta naturaleza de nivel básico, como Google o Excel que cualquier usuario las tiene al alcance de la mano, se han obtenido resultados que los datos refrendan como de una alta fiabilidad.
Índice
1. Introducción .................................................................................................................. 1
2. Hipótesis de trabajo y objetivos de la investigación ................................................. 1
3. Metodología .................................................................................................................. 1
1. Enfoque metodológico ............................................................................................. 1
2. Instrumento de toma de datos ................................................................................ 1
3. Método ...................................................................................................................... 2
5. Modelos matemáticos .................................................................................................... 2
1. Validez y confiabilidad ............................................................................................. 3
6. Proceso experimental ................................................................................................... 3
4. Resultados .................................................................................................................... 4
Modelo 1: Análisis de regresión ................................................................................ 4
Modelo 2: Análisis de series desestacionalizadas ................................................ 5
Modelo 3: modelos cíclicos de análisis técnico (bursátil) ................................... 8
5. Conclusiones .................................................................................................................... 10
6. Bibliografía .................................................................................................................. 11
Big Data: midiendo el futuro
1
1. Introducción
El Big Data ha estado muy presente en las últimas décadas, pero es conveniente decir que, aunque puede ser un término poco conocido en ámbitos poco especializados debido fundamentalmente a la juventud del término, a partir de grandes volúmenes de datos, puede ofrecer una profundidad de análisis sin precedentes, dada la tecnología que actualmente se tiene para ello. Hoy en día, Internet tiene 4,388 mil millones de usuarios, y de ellos; 3,03 mil millones son activos. Si seguimos hablando de cifras, los usuarios de redes sociales han crecido en 121 millones, lo que supone que cada 15 segundos hay un usuario nuevo en Internet. De hecho, mientras que en 2018 el número de usuarios de Internet correspondía con 4.021 millones (el 53% de la población mundial), en 2019 el mundo cuenta con 4.388 millones de internautas hasta ahora, una penetración del 57%. A partir del Big Data se ha generado aplicaciones y métodos de análisis para explotar tal cantidad de datos que abarcan desde el sistema sanitario hasta la economía. Cabe destacar una de estas aplicaciones, ya que ha sido en la que se ha basado la metodología de este trabajo: el carácter predictivo del Big Data. El Big Data abarca un volumen ingente de datos, que posibilita un profundo carácter analítico, hace que cada vez más se esté incorporando a la gestión y la estrategia de las empresas. Pero, una de las principales y más llamativas aplicaciones del Big Data, es su carácter predictivo. La determinación personal por profundizar en esta línea de trabajo nació después de investigar sobre cómo, a través del uso de matemáticas puras y modelos econométricos, es posible predecir la evolución futura de cualquier fenómeno social a través de las búsquedas en Internet.
2. Hipótesis de trabajo y objetivos de la investigación
Este trabajo pretende responder al siguiente problema de investigación: ¿es posible predecir la evolución de distintos acontecimientos sociales a través de modelos matemáticos sostenidos en Big Data? Los objetivos que se han establecido a partir del problema definido son:
Figura 1: Objetivo general y objetivos específicos de la investigación.
3. Metodología
1. Enfoque metodológico El enfoque metodológico de esta investigación es cuantitativo y con un doble alcance descriptivo y correlacional.
2. Instrumento de toma de datos
El método de esta investigación estudia y analiza el grado de la relación que existe entre variables a través de modelos matemáticos y representaciones gráficas. Posteriormente se estudiará dicho grado de relación en lo que se denomina análisis de correlación. Mediante una representación gráfica (diagrama de dispersión) y, a partir del estudio de un modelo matemático se estimará el valor de una variable basándose en el valor de otra, un análisis de regresión (Vila, Sedano, López y Juan, 2004).
El objetivo general de esta investigación es diseñar modelos
predictivos matemáticos de
fenómenos sociales en base a su presencia en
buscadores por medio del Big Data.
Objetivo Específico 1:
Definir fenómenos susceptibles de
predicción a través de Big Data.
Objetivo Específico 2:
Establecer distintas estrategias predictivas
utilizando técnicas matemáticas para definir y predecir comportamientos
potenciales de fenómenos sociales.
Big Data: midiendo el futuro
2
Así pues, se ha utilizado una hoja de cálculo de Excel con datos de series temporales, se ha hecho una recopilación de datos a través de Google Trends acerca de varios sucesos de un importante interés social actualmente, y se han plasmado en una hoja de cálculo de Excel. Una vez clasificados estos datos, se realizó el cálculo del índice estacional de las series temporales desestacionalizadas, de esta manera se obtuvo el valor estacional específico de cada una de ellas y se elaboró una ficha de datos.
3. Método
El método de esta investigación se basa en construir estructuras matemáticas a partir de tres modelos con el objeto de describir y predecir tendencias en base a datos de búsqueda en internet sobre determinados fenómenos seleccionados. Dichos modelos son: 1. Series temporales 2. Análisis de regresión 3. Análisis técnico
5. Modelos matemáticos
Análisis de regresión Tras comprobar cómo han incidido sobre Yt las variaciones ocurridas en Xt (variable dependiente e independiente respectivamente) y determinar la tendencia del fenómeno; se realizó la predicción del suceso gracias a una regresión matemática, estudiando la relación entre las variables. En la aplicación de Microsoft Excel, tras determinar el tipo de serie temporal, están determinados 6 tipos de líneas de tendencia:
→ Exponencial
→ Lineal
→ Logarítmica
→ Polinómica (en este trabajo se ha utilizado únicamente la polinómica de grado 2)
→ Potencial
→ Media móvil
Cabe destacar que en cada caso se ha utilizado la ecuación que ha optimizado la tendencia de la serie, con el fin de obtener el máximo valor de R2. Como esencialmente, con matices que aclarar, aunque esta simplificación es válida para este estudio, el modelo de regresión estima solo una de las cuatro componentes de una serie temporal1. Y tras la estimación con este modelo se observó que las predicciones tendenciales son fiables, pero no contempla las fluctuaciones cíclicas y estacionales. Para subsanar este déficit se evolucionó el modelo proponiendo el siguiente:
➢ Series de regresión desestacionalizadas Según el manual de modelos econométricos, cuando se trabaja con los datos originales de una serie sin transformación previa alguna, es frecuente que la tendencia de la serie se mantenga generalmente en un cierto sentido de alza o de baja, excepto en algunos puntos raros de cambio de signo en la tendencia (turning points). Son, sin embargo, estos puntos de especial interés, precisamente por suponer un contraste de comportamiento correcto del modelo, que debiera saber adaptarse a (predecir) estos cambios.
1
Tendencia: movimiento regular de la serie, a largo plazo; variaciones estacionales: oscilaciones a corto plazo del periodo
regular, de duración menor o igual a un ano; variaciones circulares: movimientos a medio plazo (superior a un ano) en torno a
la tendencia cuyo periodo y amplitud pueden presentar cierta regularidad; variaciones irregulares o accidentales: son
fluctuaciones producidas por factores eventuales, esporádicos e imprevisibles, que no muestran una periodicidad reconocible. Y
= T + E + C + A.
Big Data: midiendo el futuro
3
Por ello, después del trasvase de los datos a Excel y el posterior estudio de la serie, se determinó cuáles presentan una estacionalidad trimestral. Aquellas que sí se ajustaban al modelo estacionalizado, fueron desestacionalizadas. De modo que se colocaron los datos en una tabla de doble entrada y se eliminó el ruido blanco de cada trimestre, volviendo a la raíz unitaria; la cual se obtiene restando al valor de cada mes, el coeficiente estacional de dicho trimestre. Con relación al cálculo de componente estacional, se ha seguido un procedimiento en un afán creciente de captación del fenómeno: el cálculo de simples porcentajes o relaciones de cada valor trimestral a la función de tendencia o media móvil. Posteriormente se multiplicó dicho índice estacional por el valor real de cada trimestre, obteniéndose la serie desestacionalizada. Una vez desestacionalizada, se analizó la tendencia de la serie temporal, estudiando los cambios que se producen, a largo plazo, de la media y observando un movimiento suave de la serie a largo plazo.
Análisis técnico El análisis técnico, inspirado en el análisis técnico y fundamental bursátil que consiste en observar la evolución a lo largo del tiempo de los movimientos que realizan los fenómenos mediante la utilización de gráficos y series temporales En esencia consiste en definir líneas de acotación (𝑋𝑡 = 𝑇𝑡 + 𝐼𝑡). denominadas de “soporte“, que funcionan como una cota inferior en un periodo) y “resistencia” (que funcionan como cota superior).
1. Validez y confiabilidad
Para el caso del análisis de regresión, se toma como referente de validez y confiabilidad de este trabajo destaca el coeficiente de determinación R2; un número que oscila entre 0 y 1 que revela cuál es la proximidad de correspondencia de los valores estimados para la línea de tendencia con sus datos reales. Según el manual de modelos econométricos, Pulido y Pérez (2001) explican: De la propia definición del coeficiente de determinación:
𝑅2 = 1 −𝑆𝑒
2
𝑆𝑦2 =
𝑆𝑦2 − 𝑆𝑒
2
𝑆𝑦2 =
𝑆𝑦ො2
𝑆𝑦2
se deduce que puede interpretarse como la proporción de la variación de la variable endógena que queda explicada por la regresión, es decir, que son capaces de recoger las variables exógenas incluidas en el modelo. Además, para una correcta interpretación del valor alcanzado por R2, deben hacerse diversas matizaciones, empezando por su corrección por los grados de libertad, ya que tanto más difícil resulta un buen ajuste, ceteris paribus, cuanto mayor es el número de datos a tener en cuenta y cuanto menor es el número de variables utilizado para tal fin.
6. Proceso experimental
Figura 2: Distribución temporal de los bloques de contenidos impartidos.
Etapa 1: Recopilación de
datos
22 de diciembre
Etapa 2: Triangulación de
los datos
4 de agosto
Etapa 3: Elaboración de la
ficha de datos
17 de octubre
Etapa 4:
Predicciones
19 de diciembre
Etapa 5: Obtención de los resultados
20 de enero
Big Data: midiendo el futuro
4
El desarrollo experimental consistió en las siguientes etapas:
Figura 3: Etapas del desarrollo experimental.
4. Resultados
Modelo 1: Análisis de regresión
El análisis de regresión consiste en el estudio de la relación que se da entre dos variables cuantitativas, con el objetivo de determinar si ambas se encuentran ligadas testeando la hipótesis de independencia estadística, así como el grado de asociación entre estas mediante el coeficiente de correlación. A partir del tipo de relación que se defina entre las variables será posible predecir el valor de una de ellas.
Figura 4: Etapas previas a la obtención de los resultados mediante el modelo 1.
1. Recogida de datos Se ha realizado la recogida de datos registrados en Google Trends, tomando máximos y mínimos a lo largo de toda la serie para obtener la representación gráfica posteriormente.
2. Depuración Tras la recopilación de los datos, se han expuesto en una hoja de cálculo obteniendo la representación del suceso gráficamente.
3. Aplicación del algoritmo Una vez procesada la información, se aplica el algoritmo que se corresponda con el tipo de serie que optimice el Coeficiente de determinación; esto es: polinómica exponencial u otras.
4. Estimación Una vez aplicado el algoritmo se obtiene el resultado de la predicción del fenómeno mediante el modelo de función seleccionada.
➢ Ejemplo de estimación: Android La ecuación que optimiza la predicción en este caso es la polinómica de grado 2: y = 0,0049x2 - 0,9239x + 78,746; R² = 0,8445.
Recogida de datos
Depuración y traspase
Aplicación algoritmo
Estimación
Etapa preparatoria
- Se definen las etapas previas a la ejecución
- Selección muestras, elaboración de fichas
Etapa A
- Recolección y selección de datos
- Depuración y traspase
Etapa B
- Construcción de modelos
Etapa C
- Representación de los modelos
Big Data: midiendo el futuro
5
Figura 5: Representación gráfica para el fenómeno 1: android. Fuente: adaptado de Google Trends (2019). Gráficamente puede comprobarse que sigue el modelo, pero solo en su vertiente tendencial. Para estimarlo haría falta sustituir la x por la suma del último periodo más 10 periodos futuros, obteniéndose una predicción de 35,57.
Modelo 2: Análisis de series desestacionalizadas En las series temporales sin transformación previa (trabajando con los datos originales), es frecuente que la tendencia de la serie se mantenga en un sentido de aumento o de bajada, salvo en algunos puntos en los que se produce un cambio de signo en la tendencia; estos puntos son de especial interés, precisamente por suponer un contraste de comportamiento correcto del modelo, que debiera saber adaptarse a (predecir) estos cambios.
1. Recogida de datos Se ha realizado la recogida de datos registrados en Google Trends, tomando máximos y mínimos a lo largo de toda la serie para obtener la representación gráfica posteriormente.
Figura 6: Etapas previas a la obtención de los resultados mediante el modelo 2. 2. Depuración
Tras la recopilación de los datos, se han expuesto en una hoja Excel obteniendo la representación del suceso gráficamente.
3. Desestacionalización Observando la serie se aprecia que es necesario desestacionalizar la serie para que la tendencia se mantenga en un cierto sentido de alza o de baja; con lo cual se ha calculado el índice estacional por trimestres para obtener los valores desestacionalizados del suceso.
4. Aplicación del algoritmo Una vez procesada la gráfica, se aplica el algoritmo que se corresponda con el tipo de serie; esto es: polinómica o exponencial.
5. Estimación Una vez aplicado el algoritmo se obtiene el resultado de la predicción del fenómeno.
y = 0,0049x2 - 0,9239x + 78,746R² = 0,8445
0
10
20
30
40
50
60
70
80
90
100
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91
Series1 Polinómica (Series1)
Recogida de datos
Depuración y traspase
Desestacio-nalización
Aplicación algoritmo
Estimación
Big Data: midiendo el futuro
6
➢ Ejemplo de estimación: Android
Tras estudiar la mejor manera de obtener los índices estacionales de cada evento, se han agrupado en trimestres los datos de Google Trends para que sea más fácil el cálculo. Haciendo el promedio por trimestres se obtiene el interés de búsqueda de cada trimestre a lo largo 5 años. Posteriormente, se ha hecho el total de los cuatro trimestres por año, para poder obtener el promedio móvil de cuatro; y, a partir de este, calcular el promedio móvil centrado. Tabla 1 Disposición de los datos entre 2015 y 2019 del interés de búsqueda de Android.
Trimestres
Promedio
por trimestres
Total
de cuatro trimestres
Promedio
móvil de cuatro
Promedio
móvil centrado
Valor
estacional específico
T1 85,33
T2 68,67 287,76 71,94
T3 70,33 224,45 66,23 69,09 1,02
T4 63,43 247,01 61,75 63,99 0,99
T1 62,50 206,30 59,17 60,46 1,03
T2 50,75 224,45 56,11 57,64 0,88
T3 60,00 182,90 53,61 54,86 1,09
T4 51,20 206,30 51,58 52,59 0,97
T1 52,50 166,27 47,58 49,58 1,06
T2 42,60 182,90 45,73 46,65 0,91
T3 44,00 161,38 42,80 44,26 0,99
T4 43,80 166,27 41,57 42,18 1,04
T1 40,80 151,91 41,37 41,47 0,98
T2 37,67 161,38 40,35 40,86 0,92
T3 43,20 138,25 39,20 39,77 1,09
T4 39,71 151,91 37,98 38,59 1,03
T1 36,20 69,25 35,93 36,95 0,98
T2 32,80 138,25 34,56 35,25 0,93
T3 35,00
T4 34,25
Los datos resultantes se recogen en una tabla, para calcular la media de cada trimestre y determinar cuál es el índice estacional. Tabla 2 Cálculo de la media por trimestre y el correspondiente índice estacional de cada uno.
T1 T2 T3 T4
2015
1,02 0,99
2016 1,03 0,88 1,09 0,97
2017 1,06 0,91 0,99 1,04
2018 0,98 0,92 1,09 1,03
2019 0,98 0,93
Media 1,01 0,91 1,05 1,01
Una vez terminado este proceso, se obtiene el valor estacional específico por trimestres, obteniendo los índices estacionales del fenómeno. No obstante, existe un margen de error que debe corregirse mediante el factor de corrección, dividiendo entre 4 la suma de los índices estacionales.
Big Data: midiendo el futuro
7
Tabla 3 Índices estacionales.
T1 1,09
T2 0,91
T3 1,05
T4 1,01
Total 4,05
Para obtener un total de 4, ya que debería ser lo correcto, se ha hecho el factor de corrección; dividiendo 4 entre el total.
4
4,05= 0,99
Tabla 4 Índices estacionales corregidos
T1 1,09 0,99 1,07 109%
T2 0,91 0,99 0,90 91%
T3 1,05 0,99 1,03 105%
T4 1,01 0,99 0,99 101%
Total 4,05 0,99 4
Obteniéndose los datos nuevamente desestacionalizados y su posterior representación gráfica de Android en la Tabla 5 y siguiente Figura 7. Tabla 5 Datos desestacionalizados del interés de búsqueda de Android.
Trimestres Promedio por trimestres
Índice estacional Datos desestacionalizados
T1 85,33 1,09 78,56
T2 68,67 0,91 75,33
T3 70,33 1,05 67,11
T4 63,43 1,01 62,92
T1 62,50 1,09 57,54
T2 50,75 0,91 55,67
T3 60,00 1,05 57,25
T4 51,20 1,01 50,79
T1 52,50 1,09 48,33
T2 42,60 0,91 46,73
T3 44,00 1,05 41,98
T4 43,80 1,01 43,45
T1 40,80 1,09 37,56
T2 37,67 0,91 41,32
T3 43,20 1,05 41,22
T4 39,71 1,01 39,40
T1 36,20 1,09 33,33
T2 32,80 0,91 35,98
T3 35,00 1,05 33,40
T4 34,25 1,01 33,98
Big Data: midiendo el futuro
8
La ecuación de la recta se corresponde con: y = 75,21e-0,044x; R2=0,946.
Figura 7: Representación gráfica del fenómeno 2: Android. Fuente: adaptado de Google Trends (2019). En este caso, tras desestacionalizar los datos de la serie anterior, utilizando la clasificación de los valores por trimestres, se observa que la predicción que se obtiene tras 10 periodos futuros es de 20,09. Asimismo, gráficamente puede comprobarse que la predicción es más exacta que en el caso anterior, dado que el valor de R2 llega hasta 0,95 aproximadamente, casi el 100% de exactitud.
Modelo 3: modelos cíclicos de análisis técnico (bursátil) Este modelo estudia eventos utilizando gráficas donde se reflejan las fluctuaciones entre máximos y mínimos. Se han analizado los puntos de inflexión, con la idea de predecir o especular su futura evolución, a través del estudio de los datos en base a fórmulas matemáticas.
1. Recogida de datos Se ha realizado la recogida de datos registrados en Google Trends, tomando máximos y
mínimos a lo largo de toda la serie para obtener la representación gráfica posteriormente. Figura 6: Etapas previas a la obtención de los resultados mediante el modelo 3.
2. Depuración Tras la recopilación de los datos, se han expuesto en una hoja Excel obteniendo la representación del suceso gráficamente. 3. Desestacionalización Observando la serie se aprecia que es necesario desestacionalizar la serie para que la tendencia se mantenga en un cierto sentido de alza o de baja; con lo cual se ha calculado el índice estacional por trimestres para obtener los valores desestacionalizados del suceso. 4. Aplicación del algoritmo Una vez procesada la gráfica, se aplica el algoritmo que se corresponda con el tipo de serie; esto es: polinómica o exponencial.
Recogida de datos
Depuración y traspase
Desestacio-nalización
Aplicación algoritmo
Estimación
y = 75,21e-0,044x
R² = 0,946
0
10
20
30
40
50
60
70
80
90
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Períodos
promedio por trimestres Datos desestacionalizados
Exponencial (Datos desestacionalizados)
Big Data: midiendo el futuro
9
5. Estimación Una vez aplicado el algoritmo se obtiene el resultado de la predicción del fenómeno.
➢ Ejemplo de estimación: Altas capacidades
Para realizar el análisis del fenómeno, se han tenido en cuenta los máximos y mínimos de la serie; determinando la resistencia y el soporte, además del notorio cambio de tendencia en el punto 81. El análisis técnico está basado en la repetición de patrones de datos; por lo tanto, el soporte es el nivel que mantiene la bajada de la serie en el gráfico, es decir, el punto donde la serie deja de caer y comienza la subida. Sin embargo, la resistencia es el que resiste a las subidas, es ese nivel que no se puede alcanzar y donde empieza un retroceso. Así pues, cuando se alcanza un soporte, éste pasará a ser una resistencia y viceversa. Trabajar con soportes y resistencias puede dar señales de continuación o de cambio de tendencia. Dicho esto, se observan dos máximos absolutos en los puntos 3 y 52, siendo estos los puntos más altos que alcanza el evento hasta el punto 81, es decir, la resistencia 1 de la serie temporal. Así como dos mínimos absolutos en los puntos 32 y 44, siendo estos el soporte 1. Cálculo de las resistencias:
Resistencia 1:
➢ 𝑥 = 3, 𝑦 = 28
➢ 𝑥 = 52, 𝑦 = 27 (𝟐𝟖 = 𝟑𝒎 + 𝒏) − (𝟐𝟕 = 𝟓𝟐𝒎 + 𝒏)
➢ 𝑚 = −0,0204, 𝑛 = 27,94
𝒚 = −𝟎, 𝟎𝟐𝟎𝟒𝒙 + 𝟐𝟕, 𝟗𝟒 Soporte 1:
➢ 𝑥 = 32, 𝑦 = 4 ➢ 𝑥 = 44, 𝑦 = 4
(𝟒 = 𝟑𝟐𝒎 + 𝒏) − (𝟒 = 𝟒𝟒𝒎 + 𝒏)
➢ 𝑚 = 0, 𝑛 = 4 𝒚 = 𝟎𝒙 + 𝟒
Tras el cambio de tendencia son evidentes dos máximos absolutos en los puntos 148 y 185, convirtiéndose en la resistencia 2 de la serie; y, de nuevo, el soporte 2 en los puntos 140 y 176. Resistencia 2:
➢ 𝑥 = 148, 𝑦 = 78
➢ 𝑥 = 185, 𝑦 = 100 (𝟕𝟖 = 𝟏𝟒𝟖𝒎 + 𝒏) − (𝟏𝟎𝟎 = 𝟏𝟖𝟓𝒎 + 𝒏)
➢ 𝑚 = 0,595, 𝑛 = −10
𝒚 = 𝟎, 𝟓𝟗𝟓𝒙 − 𝟏𝟎
Soporte 2:
➢ 𝑥 = 140, 𝑦 = 18 ➢ 𝑥 = 176, 𝑦 = 33
(𝟏𝟖 = 𝟏𝟒𝟎𝒎 + 𝒏) − (𝟑𝟑 = 𝟏𝟕𝟔𝒎 + 𝒏)
➢ 𝑚 = 0,417, 𝑛 = −40,33
𝒚 = 𝟎, 𝟒𝟏𝟕 − 𝟒𝟎, 𝟑𝟑 No obstante, es conveniente decir que el punto máximo que alcanza la serie es relativo; en este caso 100, pero al cabo del tiempo la serie podría incrementar, disminuyendo el punto y=100 actual, dado que la serie tiende a aumentar a lo largo del tiempo.
Big Data: midiendo el futuro
10
La ecuación de la recta se corresponde con: y=0,0023x2-0,067x+13,55; R² = 0,7871.
Figura 8: Representación gráfica del fenómeno 3: altas capacidades. Fuente: adaptado de Google Trends (2019). En resumen, se ha establecido una estimación por regresión acotada superior (resistencias) e inferiormente (soportes) las cuales limitan las previsibles variaciones estacionales. El proceso de estimación será el mismo que el anterior modelo, pero obteniendo los valores adicionales de las dos rectas de acotación. Las previsiones para 10 periodos futuros serán: tendencia 109,6 cota superior (resistencia), cota inferior 43,49 (soporte).
5. Conclusiones En el apartado siguiente se realizan las conclusiones de los objetivos de esta investigación. Para el objetivo general, el cual se corresponde con diseñar modelos predictivos matemáticos de fenómenos sociales en base a su presencia en buscadores por medio del Big Data; se ha concluido que a través de:
1. El análisis de regresión; se ha podido seguir un estudio de la relación que se da entre dos variables cuantitativas, pudiendo determinar que ambas variables se encuentran relacionadas y cuán ligadas están utilizando el coeficiente de relación. Gracias a este modelo, ha sido posible predecir cuál es la tendencia que posiblemente presente el suceso en el año 2020.
2. El análisis de series desestacionalizadas; como se ha explicado en apartados anteriores,
las series temporales presentan puntos de inflexión, siendo necesaria la desestacionalización de la serie; es decir, corregir estos puntos de inflexión que generalmente hacen que la serie tienda a aumentar o disminuir, para determinar cuál es la tendencia real de los eventos que se han estudiado en este trabajo.
3. Los modelos cíclicos de análisis técnico; mediante la representación gráfica de los sucesos
que se han estudiado, se ha llegado a la conclusión de que algunas series temporales son series ‘’a trozos’’, las cuales cambian de tendencia cada cierto período de tiempo.
y = 0,0023x2 - 0,067x + 13,55R² = 0,7871
0
10
20
30
40
50
60
70
80
90
1001 6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
101
106
111
116
121
126
131
136
141
146
151
156
161
166
171
176
181
186
191
196
201
Periodos Series1 Polinómica (Series1)
Resistencia 1y=-0,0204x+27,94
Resistencia 2y=0,595x-10
Soporte 1y=4
Soporte 2y=0,417x-40,33
Big Data: midiendo el futuro
11
Respondiendo a los objetivos específicos de la investigación:
1. Para el objetivo específico 1: definir fenómenos susceptibles de predicción a través de Big Data; se ha observado que, con el apoyo de Google Trends y la búsqueda de las tendencias actuales en las redes sociales, se han definido un total de 8 sucesos susceptibles de predicción a través de modelos matemáticos en base al Big Data.
2. Para el objetivo específico 2: establecer distintas estrategias predictivas utilizando técnicas matemáticas para definir y predecir comportamientos de fenómenos sociales; son tres modelos matemáticos los que se han definido en esta investigación como vía para determinar la tendencia futura de sucesos sociales.
6. Bibliografía Galeano (2019). El número de usuarios de Internet en el mundo crece un 9,1% y alcanza los 4.388 millones (2019). Marketing Ecommerce https://marketing4ecommerce.net/usuarios-internet-mundo/ Mejías (2018). Sistema Big Data para la predicción de conflictos sociales: Análisis y Aplicación web. Meca & Belmonte (2018). RPubs: RUIDO BLANCO. Disponible en: https://rpubs.com/Meca/376836 Orellana (2008): Regresión lineal simple. http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf. Pulido y Pérez (2001); Modelos Econométricos. Ediciones pirámide: COLECCIÓN ECONOMÍA EMPRESA. Romero-Saldaña, M. (2016). Pruebas de bondad de ajuste a una distribución normal. Enfermería del Trabajo, 6(3), 105-114. Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill, 1960, pp. 187, 287.)