big data: midiendo el futuro - um

Big Data: midiendo el futuro.

Valeria Martínez Martínez I IES Los Albares

Resumen El Big Data resulta esencial para facilitar el modo de vida que existe en la actualidad, dotando al mundo de predicciones acerca de enfermedades o catástrofes naturales, por ejemplo, para ayudar a prevenir y evitar que estos eventos tengan un impacto más grave. El presente estudio busca establecer modelos descriptivos de sucesos a través del Big Data, sus usos y ventajas, pero sobre todo su poder predictivo. En este trabajo se enumeran los usos y tipos de funcionalidades del Big Data actualmente; se analizan las posibilidades en el seguimiento y análisis de eventos en Internet que ofrece el Big Data, así como estudiar la vida y la muerte de los sucesos y la repercusión que tiene el registro de estos a través de Google Trends. Finalmente, pero imprescindible en este estudio, se han hecho predicciones de los fenómenos mediante una regresión matemática a partir de los datos recopilados de Google Trends y plasmados en un libro Excel. Respondiendo al problema y a los objetivos propuestos, se han realizado las predicciones correspondientes a siete sucesos elegidos, obteniendo una estimación de cuál será el futuro de dichos sucesos. Además, se ha querido seguir la línea de trabajo con recursos extendidos “de nivel usuario”, ya que la potencia del presente trabajo radica en los procesos matemáticos y económicos predictivos; no por la potencia de herramientas profesionales. Es por ello por lo que, a partir de herramientas de esta naturaleza de nivel básico, como Google o Excel que cualquier usuario las tiene al alcance de la mano, se han obtenido resultados que los datos refrendan como de una alta fiabilidad.

Índice

1. Introducción .................................................................................................................. 1

2. Hipótesis de trabajo y objetivos de la investigación ................................................. 1

3. Metodología .................................................................................................................. 1

1. Enfoque metodológico ............................................................................................. 1

2. Instrumento de toma de datos ................................................................................ 1

3. Método ...................................................................................................................... 2

5. Modelos matemáticos .................................................................................................... 2

1. Validez y confiabilidad ............................................................................................. 3

6. Proceso experimental ................................................................................................... 3

4. Resultados .................................................................................................................... 4

Modelo 1: Análisis de regresión ................................................................................ 4

Modelo 2: Análisis de series desestacionalizadas ................................................ 5

Modelo 3: modelos cíclicos de análisis técnico (bursátil) ................................... 8

5. Conclusiones .................................................................................................................... 10

6. Bibliografía .................................................................................................................. 11

Big Data: midiendo el futuro

1

1. Introducción

El Big Data ha estado muy presente en las últimas décadas, pero es conveniente decir que, aunque puede ser un término poco conocido en ámbitos poco especializados debido fundamentalmente a la juventud del término, a partir de grandes volúmenes de datos, puede ofrecer una profundidad de análisis sin precedentes, dada la tecnología que actualmente se tiene para ello. Hoy en día, Internet tiene 4,388 mil millones de usuarios, y de ellos; 3,03 mil millones son activos. Si seguimos hablando de cifras, los usuarios de redes sociales han crecido en 121 millones, lo que supone que cada 15 segundos hay un usuario nuevo en Internet. De hecho, mientras que en 2018 el número de usuarios de Internet correspondía con 4.021 millones (el 53% de la población mundial), en 2019 el mundo cuenta con 4.388 millones de internautas hasta ahora, una penetración del 57%. A partir del Big Data se ha generado aplicaciones y métodos de análisis para explotar tal cantidad de datos que abarcan desde el sistema sanitario hasta la economía. Cabe destacar una de estas aplicaciones, ya que ha sido en la que se ha basado la metodología de este trabajo: el carácter predictivo del Big Data. El Big Data abarca un volumen ingente de datos, que posibilita un profundo carácter analítico, hace que cada vez más se esté incorporando a la gestión y la estrategia de las empresas. Pero, una de las principales y más llamativas aplicaciones del Big Data, es su carácter predictivo. La determinación personal por profundizar en esta línea de trabajo nació después de investigar sobre cómo, a través del uso de matemáticas puras y modelos econométricos, es posible predecir la evolución futura de cualquier fenómeno social a través de las búsquedas en Internet.

2. Hipótesis de trabajo y objetivos de la investigación

Este trabajo pretende responder al siguiente problema de investigación: ¿es posible predecir la evolución de distintos acontecimientos sociales a través de modelos matemáticos sostenidos en Big Data? Los objetivos que se han establecido a partir del problema definido son:

Figura 1: Objetivo general y objetivos específicos de la investigación.

3. Metodología

1. Enfoque metodológico El enfoque metodológico de esta investigación es cuantitativo y con un doble alcance descriptivo y correlacional.

2. Instrumento de toma de datos

El método de esta investigación estudia y analiza el grado de la relación que existe entre variables a través de modelos matemáticos y representaciones gráficas. Posteriormente se estudiará dicho grado de relación en lo que se denomina análisis de correlación. Mediante una representación gráfica (diagrama de dispersión) y, a partir del estudio de un modelo matemático se estimará el valor de una variable basándose en el valor de otra, un análisis de regresión (Vila, Sedano, López y Juan, 2004).

El objetivo general de esta investigación es diseñar modelos

predictivos matemáticos de

fenómenos sociales en base a su presencia en

buscadores por medio del Big Data.

Objetivo Específico 1:

Definir fenómenos susceptibles de

predicción a través de Big Data.

Objetivo Específico 2:

Establecer distintas estrategias predictivas

utilizando técnicas matemáticas para definir y predecir comportamientos

potenciales de fenómenos sociales.


2

Así pues, se ha utilizado una hoja de cálculo de Excel con datos de series temporales, se ha hecho una recopilación de datos a través de Google Trends acerca de varios sucesos de un importante interés social actualmente, y se han plasmado en una hoja de cálculo de Excel. Una vez clasificados estos datos, se realizó el cálculo del índice estacional de las series temporales desestacionalizadas, de esta manera se obtuvo el valor estacional específico de cada una de ellas y se elaboró una ficha de datos.

3. Método

El método de esta investigación se basa en construir estructuras matemáticas a partir de tres modelos con el objeto de describir y predecir tendencias en base a datos de búsqueda en internet sobre determinados fenómenos seleccionados. Dichos modelos son: 1. Series temporales 2. Análisis de regresión 3. Análisis técnico

5. Modelos matemáticos

Análisis de regresión Tras comprobar cómo han incidido sobre Yt las variaciones ocurridas en Xt (variable dependiente e independiente respectivamente) y determinar la tendencia del fenómeno; se realizó la predicción del suceso gracias a una regresión matemática, estudiando la relación entre las variables. En la aplicación de Microsoft Excel, tras determinar el tipo de serie temporal, están determinados 6 tipos de líneas de tendencia:

→ Exponencial

→ Lineal

→ Logarítmica

→ Polinómica (en este trabajo se ha utilizado únicamente la polinómica de grado 2)

→ Potencial

→ Media móvil

Cabe destacar que en cada caso se ha utilizado la ecuación que ha optimizado la tendencia de la serie, con el fin de obtener el máximo valor de R2. Como esencialmente, con matices que aclarar, aunque esta simplificación es válida para este estudio, el modelo de regresión estima solo una de las cuatro componentes de una serie temporal1. Y tras la estimación con este modelo se observó que las predicciones tendenciales son fiables, pero no contempla las fluctuaciones cíclicas y estacionales. Para subsanar este déficit se evolucionó el modelo proponiendo el siguiente:

➢ Series de regresión desestacionalizadas Según el manual de modelos econométricos, cuando se trabaja con los datos originales de una serie sin transformación previa alguna, es frecuente que la tendencia de la serie se mantenga generalmente en un cierto sentido de alza o de baja, excepto en algunos puntos raros de cambio de signo en la tendencia (turning points). Son, sin embargo, estos puntos de especial interés, precisamente por suponer un contraste de comportamiento correcto del modelo, que debiera saber adaptarse a (predecir) estos cambios.

1

Tendencia: movimiento regular de la serie, a largo plazo; variaciones estacionales: oscilaciones a corto plazo del periodo

regular, de duración menor o igual a un ano; variaciones circulares: movimientos a medio plazo (superior a un ano) en torno a

la tendencia cuyo periodo y amplitud pueden presentar cierta regularidad; variaciones irregulares o accidentales: son

fluctuaciones producidas por factores eventuales, esporádicos e imprevisibles, que no muestran una periodicidad reconocible. Y

= T + E + C + A.


3

Por ello, después del trasvase de los datos a Excel y el posterior estudio de la serie, se determinó cuáles presentan una estacionalidad trimestral. Aquellas que sí se ajustaban al modelo estacionalizado, fueron desestacionalizadas. De modo que se colocaron los datos en una tabla de doble entrada y se eliminó el ruido blanco de cada trimestre, volviendo a la raíz unitaria; la cual se obtiene restando al valor de cada mes, el coeficiente estacional de dicho trimestre. Con relación al cálculo de componente estacional, se ha seguido un procedimiento en un afán creciente de captación del fenómeno: el cálculo de simples porcentajes o relaciones de cada valor trimestral a la función de tendencia o media móvil. Posteriormente se multiplicó dicho índice estacional por el valor real de cada trimestre, obteniéndose la serie desestacionalizada. Una vez desestacionalizada, se analizó la tendencia de la serie temporal, estudiando los cambios que se producen, a largo plazo, de la media y observando un movimiento suave de la serie a largo plazo.

Análisis técnico El análisis técnico, inspirado en el análisis técnico y fundamental bursátil que consiste en observar la evolución a lo largo del tiempo de los movimientos que realizan los fenómenos mediante la utilización de gráficos y series temporales En esencia consiste en definir líneas de acotación (𝑋𝑡 = 𝑇𝑡 + 𝐼𝑡). denominadas de “soporte“, que funcionan como una cota inferior en un periodo) y “resistencia” (que funcionan como cota superior).

1. Validez y confiabilidad

Para el caso del análisis de regresión, se toma como referente de validez y confiabilidad de este trabajo destaca el coeficiente de determinación R2; un número que oscila entre 0 y 1 que revela cuál es la proximidad de correspondencia de los valores estimados para la línea de tendencia con sus datos reales. Según el manual de modelos econométricos, Pulido y Pérez (2001) explican: De la propia definición del coeficiente de determinación:

𝑅2 = 1 −𝑆𝑒

2

𝑆𝑦2 =

𝑆𝑦2 − 𝑆𝑒

2

𝑆𝑦2 =

𝑆𝑦ො2

𝑆𝑦2

se deduce que puede interpretarse como la proporción de la variación de la variable endógena que queda explicada por la regresión, es decir, que son capaces de recoger las variables exógenas incluidas en el modelo. Además, para una correcta interpretación del valor alcanzado por R2, deben hacerse diversas matizaciones, empezando por su corrección por los grados de libertad, ya que tanto más difícil resulta un buen ajuste, ceteris paribus, cuanto mayor es el número de datos a tener en cuenta y cuanto menor es el número de variables utilizado para tal fin.

6. Proceso experimental

Figura 2: Distribución temporal de los bloques de contenidos impartidos.

Etapa 1: Recopilación de

datos

22 de diciembre

Etapa 2: Triangulación de

los datos

4 de agosto

Etapa 3: Elaboración de la

ficha de datos

17 de octubre

Etapa 4:

Predicciones

19 de diciembre

Etapa 5: Obtención de los resultados

20 de enero


4

El desarrollo experimental consistió en las siguientes etapas:

Figura 3: Etapas del desarrollo experimental.

4. Resultados

Modelo 1: Análisis de regresión

El análisis de regresión consiste en el estudio de la relación que se da entre dos variables cuantitativas, con el objetivo de determinar si ambas se encuentran ligadas testeando la hipótesis de independencia estadística, así como el grado de asociación entre estas mediante el coeficiente de correlación. A partir del tipo de relación que se defina entre las variables será posible predecir el valor de una de ellas.

Figura 4: Etapas previas a la obtención de los resultados mediante el modelo 1.

1. Recogida de datos Se ha realizado la recogida de datos registrados en Google Trends, tomando máximos y mínimos a lo largo de toda la serie para obtener la representación gráfica posteriormente.

2. Depuración Tras la recopilación de los datos, se han expuesto en una hoja de cálculo obteniendo la representación del suceso gráficamente.

3. Aplicación del algoritmo Una vez procesada la información, se aplica el algoritmo que se corresponda con el tipo de serie que optimice el Coeficiente de determinación; esto es: polinómica exponencial u otras.

4. Estimación Una vez aplicado el algoritmo se obtiene el resultado de la predicción del fenómeno mediante el modelo de función seleccionada.

➢ Ejemplo de estimación: Android La ecuación que optimiza la predicción en este caso es la polinómica de grado 2: y = 0,0049x2 - 0,9239x + 78,746; R² = 0,8445.

Recogida de datos

Depuración y traspase

Aplicación algoritmo

Estimación

Etapa preparatoria

- Se definen las etapas previas a la ejecución

- Selección muestras, elaboración de fichas

Etapa A

- Recolección y selección de datos

- Depuración y traspase

Etapa B

- Construcción de modelos

Etapa C

- Representación de los modelos


5

Figura 5: Representación gráfica para el fenómeno 1: android. Fuente: adaptado de Google Trends (2019). Gráficamente puede comprobarse que sigue el modelo, pero solo en su vertiente tendencial. Para estimarlo haría falta sustituir la x por la suma del último periodo más 10 periodos futuros, obteniéndose una predicción de 35,57.

Modelo 2: Análisis de series desestacionalizadas En las series temporales sin transformación previa (trabajando con los datos originales), es frecuente que la tendencia de la serie se mantenga en un sentido de aumento o de bajada, salvo en algunos puntos en los que se produce un cambio de signo en la tendencia; estos puntos son de especial interés, precisamente por suponer un contraste de comportamiento correcto del modelo, que debiera saber adaptarse a (predecir) estos cambios.

1. Recogida de datos Se ha realizado la recogida de datos registrados en Google Trends, tomando máximos y mínimos a lo largo de toda la serie para obtener la representación gráfica posteriormente.

Figura 6: Etapas previas a la obtención de los resultados mediante el modelo 2. 2. Depuración

Tras la recopilación de los datos, se han expuesto en una hoja Excel obteniendo la representación del suceso gráficamente.

3. Desestacionalización Observando la serie se aprecia que es necesario desestacionalizar la serie para que la tendencia se mantenga en un cierto sentido de alza o de baja; con lo cual se ha calculado el índice estacional por trimestres para obtener los valores desestacionalizados del suceso.

4. Aplicación del algoritmo Una vez procesada la gráfica, se aplica el algoritmo que se corresponda con el tipo de serie; esto es: polinómica o exponencial.

5. Estimación Una vez aplicado el algoritmo se obtiene el resultado de la predicción del fenómeno.

y = 0,0049x2 - 0,9239x + 78,746R² = 0,8445

0

10

20

30

40

50

60

70

80

90

100

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91

Series1 Polinómica (Series1)

Recogida de datos


Desestacio-nalización


Estimación


6

➢ Ejemplo de estimación: Android

Tras estudiar la mejor manera de obtener los índices estacionales de cada evento, se han agrupado en trimestres los datos de Google Trends para que sea más fácil el cálculo. Haciendo el promedio por trimestres se obtiene el interés de búsqueda de cada trimestre a lo largo 5 años. Posteriormente, se ha hecho el total de los cuatro trimestres por año, para poder obtener el promedio móvil de cuatro; y, a partir de este, calcular el promedio móvil centrado. Tabla 1 Disposición de los datos entre 2015 y 2019 del interés de búsqueda de Android.

Trimestres

Promedio

por trimestres

Total

de cuatro trimestres

Promedio

móvil de cuatro

Promedio

móvil centrado

Valor

estacional específico

T1 85,33

T2 68,67 287,76 71,94

T3 70,33 224,45 66,23 69,09 1,02

T4 63,43 247,01 61,75 63,99 0,99

T1 62,50 206,30 59,17 60,46 1,03

T2 50,75 224,45 56,11 57,64 0,88

T3 60,00 182,90 53,61 54,86 1,09

T4 51,20 206,30 51,58 52,59 0,97

T1 52,50 166,27 47,58 49,58 1,06

T2 42,60 182,90 45,73 46,65 0,91

T3 44,00 161,38 42,80 44,26 0,99

T4 43,80 166,27 41,57 42,18 1,04

T1 40,80 151,91 41,37 41,47 0,98

T2 37,67 161,38 40,35 40,86 0,92

T3 43,20 138,25 39,20 39,77 1,09

T4 39,71 151,91 37,98 38,59 1,03

T1 36,20 69,25 35,93 36,95 0,98

T2 32,80 138,25 34,56 35,25 0,93

T3 35,00

T4 34,25

Los datos resultantes se recogen en una tabla, para calcular la media de cada trimestre y determinar cuál es el índice estacional. Tabla 2 Cálculo de la media por trimestre y el correspondiente índice estacional de cada uno.

T1 T2 T3 T4

2015

1,02 0,99

2016 1,03 0,88 1,09 0,97

2017 1,06 0,91 0,99 1,04

2018 0,98 0,92 1,09 1,03

2019 0,98 0,93

Media 1,01 0,91 1,05 1,01

Una vez terminado este proceso, se obtiene el valor estacional específico por trimestres, obteniendo los índices estacionales del fenómeno. No obstante, existe un margen de error que debe corregirse mediante el factor de corrección, dividiendo entre 4 la suma de los índices estacionales.


7

Tabla 3 Índices estacionales.

T1 1,09

T2 0,91

T3 1,05

T4 1,01

Total 4,05

Para obtener un total de 4, ya que debería ser lo correcto, se ha hecho el factor de corrección; dividiendo 4 entre el total.

4

4,05= 0,99

Tabla 4 Índices estacionales corregidos

T1 1,09 0,99 1,07 109%

T2 0,91 0,99 0,90 91%

T3 1,05 0,99 1,03 105%

T4 1,01 0,99 0,99 101%

Total 4,05 0,99 4

Obteniéndose los datos nuevamente desestacionalizados y su posterior representación gráfica de Android en la Tabla 5 y siguiente Figura 7. Tabla 5 Datos desestacionalizados del interés de búsqueda de Android.

Trimestres Promedio por trimestres

Índice estacional Datos desestacionalizados

T1 85,33 1,09 78,56

T2 68,67 0,91 75,33

T3 70,33 1,05 67,11

T4 63,43 1,01 62,92

T1 62,50 1,09 57,54

T2 50,75 0,91 55,67

T3 60,00 1,05 57,25

T4 51,20 1,01 50,79

T1 52,50 1,09 48,33

T2 42,60 0,91 46,73

T3 44,00 1,05 41,98

T4 43,80 1,01 43,45

T1 40,80 1,09 37,56

T2 37,67 0,91 41,32

T3 43,20 1,05 41,22

T4 39,71 1,01 39,40

T1 36,20 1,09 33,33

T2 32,80 0,91 35,98

T3 35,00 1,05 33,40

T4 34,25 1,01 33,98


8

La ecuación de la recta se corresponde con: y = 75,21e-0,044x; R2=0,946.

Figura 7: Representación gráfica del fenómeno 2: Android. Fuente: adaptado de Google Trends (2019). En este caso, tras desestacionalizar los datos de la serie anterior, utilizando la clasificación de los valores por trimestres, se observa que la predicción que se obtiene tras 10 periodos futuros es de 20,09. Asimismo, gráficamente puede comprobarse que la predicción es más exacta que en el caso anterior, dado que el valor de R2 llega hasta 0,95 aproximadamente, casi el 100% de exactitud.

Modelo 3: modelos cíclicos de análisis técnico (bursátil) Este modelo estudia eventos utilizando gráficas donde se reflejan las fluctuaciones entre máximos y mínimos. Se han analizado los puntos de inflexión, con la idea de predecir o especular su futura evolución, a través del estudio de los datos en base a fórmulas matemáticas.

1. Recogida de datos Se ha realizado la recogida de datos registrados en Google Trends, tomando máximos y

mínimos a lo largo de toda la serie para obtener la representación gráfica posteriormente. Figura 6: Etapas previas a la obtención de los resultados mediante el modelo 3.

2. Depuración Tras la recopilación de los datos, se han expuesto en una hoja Excel obteniendo la representación del suceso gráficamente. 3. Desestacionalización Observando la serie se aprecia que es necesario desestacionalizar la serie para que la tendencia se mantenga en un cierto sentido de alza o de baja; con lo cual se ha calculado el índice estacional por trimestres para obtener los valores desestacionalizados del suceso. 4. Aplicación del algoritmo Una vez procesada la gráfica, se aplica el algoritmo que se corresponda con el tipo de serie; esto es: polinómica o exponencial.

Recogida de datos


Desestacio-nalización


Estimación

y = 75,21e-0,044x

R² = 0,946

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Períodos

promedio por trimestres Datos desestacionalizados

Exponencial (Datos desestacionalizados)


9

5. Estimación Una vez aplicado el algoritmo se obtiene el resultado de la predicción del fenómeno.

➢ Ejemplo de estimación: Altas capacidades

Para realizar el análisis del fenómeno, se han tenido en cuenta los máximos y mínimos de la serie; determinando la resistencia y el soporte, además del notorio cambio de tendencia en el punto 81. El análisis técnico está basado en la repetición de patrones de datos; por lo tanto, el soporte es el nivel que mantiene la bajada de la serie en el gráfico, es decir, el punto donde la serie deja de caer y comienza la subida. Sin embargo, la resistencia es el que resiste a las subidas, es ese nivel que no se puede alcanzar y donde empieza un retroceso. Así pues, cuando se alcanza un soporte, éste pasará a ser una resistencia y viceversa. Trabajar con soportes y resistencias puede dar señales de continuación o de cambio de tendencia. Dicho esto, se observan dos máximos absolutos en los puntos 3 y 52, siendo estos los puntos más altos que alcanza el evento hasta el punto 81, es decir, la resistencia 1 de la serie temporal. Así como dos mínimos absolutos en los puntos 32 y 44, siendo estos el soporte 1. Cálculo de las resistencias:

Resistencia 1:

➢ 𝑥 = 3, 𝑦 = 28

➢ 𝑥 = 52, 𝑦 = 27 (𝟐𝟖 = 𝟑𝒎 + 𝒏) − (𝟐𝟕 = 𝟓𝟐𝒎 + 𝒏)

➢ 𝑚 = −0,0204, 𝑛 = 27,94

𝒚 = −𝟎, 𝟎𝟐𝟎𝟒𝒙 + 𝟐𝟕, 𝟗𝟒 Soporte 1:

➢ 𝑥 = 32, 𝑦 = 4 ➢ 𝑥 = 44, 𝑦 = 4

(𝟒 = 𝟑𝟐𝒎 + 𝒏) − (𝟒 = 𝟒𝟒𝒎 + 𝒏)

➢ 𝑚 = 0, 𝑛 = 4 𝒚 = 𝟎𝒙 + 𝟒

Tras el cambio de tendencia son evidentes dos máximos absolutos en los puntos 148 y 185, convirtiéndose en la resistencia 2 de la serie; y, de nuevo, el soporte 2 en los puntos 140 y 176. Resistencia 2:

➢ 𝑥 = 148, 𝑦 = 78

➢ 𝑥 = 185, 𝑦 = 100 (𝟕𝟖 = 𝟏𝟒𝟖𝒎 + 𝒏) − (𝟏𝟎𝟎 = 𝟏𝟖𝟓𝒎 + 𝒏)

➢ 𝑚 = 0,595, 𝑛 = −10

𝒚 = 𝟎, 𝟓𝟗𝟓𝒙 − 𝟏𝟎

Soporte 2:

➢ 𝑥 = 140, 𝑦 = 18 ➢ 𝑥 = 176, 𝑦 = 33

(𝟏𝟖 = 𝟏𝟒𝟎𝒎 + 𝒏) − (𝟑𝟑 = 𝟏𝟕𝟔𝒎 + 𝒏)

➢ 𝑚 = 0,417, 𝑛 = −40,33

𝒚 = 𝟎, 𝟒𝟏𝟕 − 𝟒𝟎, 𝟑𝟑 No obstante, es conveniente decir que el punto máximo que alcanza la serie es relativo; en este caso 100, pero al cabo del tiempo la serie podría incrementar, disminuyendo el punto y=100 actual, dado que la serie tiende a aumentar a lo largo del tiempo.


10

La ecuación de la recta se corresponde con: y=0,0023x2-0,067x+13,55; R² = 0,7871.

Figura 8: Representación gráfica del fenómeno 3: altas capacidades. Fuente: adaptado de Google Trends (2019). En resumen, se ha establecido una estimación por regresión acotada superior (resistencias) e inferiormente (soportes) las cuales limitan las previsibles variaciones estacionales. El proceso de estimación será el mismo que el anterior modelo, pero obteniendo los valores adicionales de las dos rectas de acotación. Las previsiones para 10 periodos futuros serán: tendencia 109,6 cota superior (resistencia), cota inferior 43,49 (soporte).

5. Conclusiones En el apartado siguiente se realizan las conclusiones de los objetivos de esta investigación. Para el objetivo general, el cual se corresponde con diseñar modelos predictivos matemáticos de fenómenos sociales en base a su presencia en buscadores por medio del Big Data; se ha concluido que a través de:

1. El análisis de regresión; se ha podido seguir un estudio de la relación que se da entre dos variables cuantitativas, pudiendo determinar que ambas variables se encuentran relacionadas y cuán ligadas están utilizando el coeficiente de relación. Gracias a este modelo, ha sido posible predecir cuál es la tendencia que posiblemente presente el suceso en el año 2020.

2. El análisis de series desestacionalizadas; como se ha explicado en apartados anteriores,

las series temporales presentan puntos de inflexión, siendo necesaria la desestacionalización de la serie; es decir, corregir estos puntos de inflexión que generalmente hacen que la serie tienda a aumentar o disminuir, para determinar cuál es la tendencia real de los eventos que se han estudiado en este trabajo.

3. Los modelos cíclicos de análisis técnico; mediante la representación gráfica de los sucesos

que se han estudiado, se ha llegado a la conclusión de que algunas series temporales son series ‘’a trozos’’, las cuales cambian de tendencia cada cierto período de tiempo.

y = 0,0023x2 - 0,067x + 13,55R² = 0,7871

0

10

20

30

40

50

60

70

80

90

1001 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

101

106

111

116

121

126

131

136

141

146

151

156

161

166

171

176

181

186

191

196

201

Periodos Series1 Polinómica (Series1)

Resistencia 1y=-0,0204x+27,94

Resistencia 2y=0,595x-10

Soporte 1y=4

Soporte 2y=0,417x-40,33


11

Respondiendo a los objetivos específicos de la investigación:

1. Para el objetivo específico 1: definir fenómenos susceptibles de predicción a través de Big Data; se ha observado que, con el apoyo de Google Trends y la búsqueda de las tendencias actuales en las redes sociales, se han definido un total de 8 sucesos susceptibles de predicción a través de modelos matemáticos en base al Big Data.

2. Para el objetivo específico 2: establecer distintas estrategias predictivas utilizando técnicas matemáticas para definir y predecir comportamientos de fenómenos sociales; son tres modelos matemáticos los que se han definido en esta investigación como vía para determinar la tendencia futura de sucesos sociales.

6. Bibliografía Galeano (2019). El número de usuarios de Internet en el mundo crece un 9,1% y alcanza los 4.388 millones (2019). Marketing Ecommerce https://marketing4ecommerce.net/usuarios-internet-mundo/ Mejías (2018). Sistema Big Data para la predicción de conflictos sociales: Análisis y Aplicación web. Meca & Belmonte (2018). RPubs: RUIDO BLANCO. Disponible en: https://rpubs.com/Meca/376836 Orellana (2008): Regresión lineal simple. http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf. Pulido y Pérez (2001); Modelos Econométricos. Ediciones pirámide: COLECCIÓN ECONOMÍA EMPRESA. Romero-Saldaña, M. (2016). Pruebas de bondad de ajuste a una distribución normal. Enfermería del Trabajo, 6(3), 105-114. Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill, 1960, pp. 187, 287.)

https://marketing4ecommerce.net/usuarios-internet-mundo/

https://marketing4ecommerce.net/usuarios-internet-mundo/

https://rpubs.com/Meca/376836

http://www.dm.uba.ar/materias/estadistica_Q/2011/1/clase%20regresion%20simple.pdf

https://es.wikipedia.org/wiki/McGraw_Hill

big data: midiendo el futuro - um

Documents