big data y big models en bbva research · las capacidades de programación para trabajar con...
Post on 26-Sep-2018
219 Views
Preview:
TRANSCRIPT
Octubre de 2017
Big Data y Big Models en BBVA
Research Día de estadísticas del BCE
Jorge Sicilia, Álvaro Ortiz y Tomasa Rodrigo
Big Data y Big Models en BBVA Research
2
Índice
01
02
03
Oportunidades en la era digital. Big Data en BBVA Research
Geopolítica, comercio y efectos colaterales
Indicadores económicos y de riesgo en tiempo real
04 Minería de textos y análisis de opiniones
Big Data y Big Models en BBVA Research
01 Oportunidades en la era digital.
Big Data en BBVA Research
Big Data y Big Models en BBVA Research
Los datos tradicionales no podían dar respuesta a algunas preguntas
relevantes...
4
Conciencia social y la Primavera Árabe
Acontecimientos políticos
y reacción social
Desastres naturales y epidemias
... lo que nos impide medir su impacto económico...
... en un mundo en el que los riesgos y la
incertidumbre no paran de crecer
El uso de las técnicas Big Data y Data Science nos permite
cuantificar estas tendencias
Big Data y Big Models en BBVA Research
Nuevo marco en la era digital...
5
Se necesitan nuevos enfoques computacionales basados en datos para
permitir que la nueva era digital explote las nuevas oportunidades en las
que los datos se pueden usar para estudiar el mundo en tiempo real desde
el nivel micro hasta el macro.
Nuevas respuestas a viejas
preguntas
Una infraestructura mejor
y más rápida
Nueva disponibilidad de datos
Mayores capacidades
computacionales para hacer
frente a una mayor granularidad
de los datos
Combinación de datos históricos
con datos en tiempo real
Técnicas y algoritmos
avanzados de ciencia de datos
Big Data y Big Models en BBVA Research
Profundizar en las
habilidades
estadísticas y
econométricas
para analizar y
tratar con datos
de alta dimensión
Interpretación de
los resultados: resumir, describir
y analizar la
información
Desarrollar la
gestión de datos y
las capacidades
de programación
para trabajar con
conjuntos de
datos a gran
escala
Hacer las
preguntas
correctas
...que necesita el desarrollo de nuevas competencias para aprovecharlo
Los nuevos datos pueden terminar cambiando la forma en que los economistas abordan las
preguntas empíricas y las herramientas que utilizan para responderlas 6
Big Data y Big Models en BBVA Research
Big Data en BBVA Research
Nuestros
resul tados
Nuestros
conjuntos de datos
Nuestro trabajo
• Analizamos cuestiones
geopolíticas, políticas,
sociales y económicas
utilizando bases de datos a
gran escala y métodos
basados en datos
cuantitativos en lugar de
introspección cualitativa.
• Datos de medios para explotar
la intensidad de las noticias, la
densidad geográfica de los
eventos (inteligencia de
ubicación) y las emociones en
todo el mundo (análisis de
sentimientos)
• Datos agregados y
anonimizados de BBVA de la
huella digital de los clientes
• Datos de la web (informes de
bancos centrales, entre otros)
• Estamos en la frontera de
investigación en el área
geopolítica y económica que
contribuye a la innovación y
aumenta nuestro alcance
interno y externo.
7
Big Data y Big Models en BBVA Research
Difusión interna y externa
Instituciones
externas
BBVA
Research
BBVA
Instituciones externas
8
Big Data y Big Models en BBVA Research
Nuestro proceso de trabajo
GDELT
Datos de
BBVA
Búsqueda de
Web
Limpiar,
agregar transformar
y modelar
los datos
Fusionar,
visualizar
y analizar
los datos
BigQuery
y
Amazon
Redshift
Bases de datos SaaS Análisis Visualización
9
Big Data y Big Models en BBVA Research
Nuestros productos
Índices políticos, geopolíticos y
sociales (Índices políticos)
Mapas de color TLCAN Temas (Proyecto TLCAN )
Redes Políticas y financieras (Redes políticas )
Mix de datos duros y de sentimiento y
modelos VAR (Índices de sentimiento de CBSI y Turquía)
Análisis geográfico de los precios de
la vivienda (Sentimiento sobre los precios de la vivienda)
Medición del sentimiento (Análisis de sentimiento sobre economía y
sociedad)
Estabilidad financiera y
macroprudencial (Índice BCE y FED FS por el Consejo de la FED)
Tonos monetarios y de estabilidad de los
bancos centrales
10
Big Data y Big Models en BBVA Research
02 Geopolítica, comercio y
efectos colaterales
Big Data y Big Models en BBVA Research
Bases de datos externas: GDELT
... por georreferencia en
todo el planeta...
... incluye más de 300
eventos en todo el mundo y
más de 30 000 temas...
... y que recopila emociones
usando algunos de los
algoritmos más sofisticados.
Base de datos abierta de la
sociedad humana de todos
los rincones del mundo que
data de 1979...
Global Database on Events Location and Tone
(Base de datos global sobre eventos, ubicación y tono)
(Más información en el anexo) 12
Big Data y Big Models en BBVA Research
El seguimiento de la geopolítica en tiempo real es útil para identificar
los principales puntos calientes y los posibles efectos indirectos
Fuente: www.dgelt.org y BBVA Research
Mapa de Intensidad de Conflictos 2017 (Número de conflictos/Total eventos)
13
Big Data y Big Models en BBVA Research
Desde una perspectiva histórica...
Índice mundial de intensidad de conflictos y protestas de BBVA Research 1979-2017
Mapa mundial de Intensidad de Protestas 1979- 2017
79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17
USA
UK
Norway
Sweden
Austria
Germany
France
Netherlands
Italy
Spain
Belgium
Ireland
Portugal
Greece
Poland
Czech Republic
Hungary
Bulgaria
Romania
Croatia
Turkey
Russia
Ukraine
Georgia
Kazakhstan
Moldova
Azerbaijan
Armenia
Morocco
Algeria
Tunisia
Libya
Egypt
Israel
Jordan
Syria
Iraq
Iran
UAE
Bahrain
Qatar
Oman
Saudi Arabia
Mexico
Brazil
Chile
Colombia
Peru
Argentina
Venezuela
China
Hong Kong
Korea
Thailand
Indonesia
Malaysia
Philippines
India
Pakistan
Afghanistan
EM
Eu
ro
pe &
CIS
Develo
ped
Markets
N.
Afric
a &
Mid
dle
East
LA
TA
MA
sia
Protestas Conflicto
14 Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
...hasta los principales puntos calientes...
Fuente: www.gdelt.org & BBVA Research 15
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
Jan-0
8M
ay-0
8Se
p-0
8Ja
n-0
9M
ay-0
9Se
p-0
9Ja
n-1
0M
ay-1
0Se
p-1
0Ja
n-1
1M
ay-1
1Se
p-1
1Ja
n-1
2M
ay-1
2Se
p-1
2Ja
n-1
3M
ay-1
3Se
p-1
3Ja
n-1
4M
ay-1
4Se
p-1
4Ja
n-1
5M
ay-1
5Se
p-1
5Ja
n-1
6M
ay-1
6Se
p-1
6Ja
n-1
7M
ay-1
7Se
p-1
7
Alto
Bajo
Rangomedio
mundial
Las tensiones que rodean a Corea del Norte aumentaron bruscamente dadas las pruebas de los programas nucleares
Mapa de flujos de refugiados de BBVA Research en 2015-17 Número de citas de los medios sobre los flujos de entrada y salida de refugiados
Índice de intensidad de conflictos en Asia 2008-17 de BBVA Research
Big Data y Big Models en BBVA Research
Eventos de disturbios sociales en todo el mundo: casos de El Cairo, Estambul y Hong Kong Eventos de protesta
...en la geolocalización exacta
16 Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
Las nuevas amenazas como los ataques cibernéticos también se
pueden supervisar
Cobertura de medios de guerra cibernética,
ciberataques, violaciones de datos y otros problemas
relacionados con la seguridad informática y en línea en
todo el mundo 2015-2016
Los ciberataques se han convertido en una de las principales amenazas en 2015-2017 (Indicador basado en GDELT de ciberguerra, ciberataques, violaciones de datos u otros problemas de seguridad en línea)
0
100000
200000
300000
400000
500000
600000
700000
800000
900000
feb
-15
abr-
15
jun-1
5
ago-1
5
oct-
15
dic
-15
feb
-16
abr-
16
jun-1
6
ago-1
6
oct-
16
China-EE. UU.
Escandalo de
ciberataques y
hackeo de
Ashley Madison
Sospecha de ciberataques
basados en Rusia contra Ucrania y
el Medio Oriente
Ciberataques
basados en EE.UU
contra ISIS
Ciberataques
procedentes
de China
contra el
ejército de los
EE.UU.
Ciberataques en el
Mar del Sur de China
Cobertura mundial de los ciberataques en 2015-2016
17
Ciberataques de
gran escala
contra EE. UU.
Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
-2
0
2
4
6
8
10
12
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
08
20
09
20
10
20
11
20
12
20
13
20
14
20
15
20
16
Verbal Cooperation (3 months mov.avg)
Material Cooperation (3 months mov.avg)
18
Cooperación verbal (promedio móvil de 3 meses)
Cooperación material (promedio móvil de 3 meses)
Gracias a Big Data podemos verificar en tiempo real cómo es el
soporte material y verbal en el comercio mundial...
Índice de soporte del comercio mundial de BBVA Research (Cobertura verbal de cooperación y tono en la OMC)
Cambios en el índice de soporte del comercio mundial de BBVA Research 2008-17
Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
4
5
6
7
8
9
10
11
12
19
80
19
82
19
84
19
86
19
88
19
90
19
92
19
94
19
96
19
98
20
00
20
02
20
04
20
06
20
08
20
10
20
12
20
14
20
16
Cooperation Index (North America, trend)
Cooperation Index (World, trend)
5
6
7
8
9
10
11
12
13
14
19
79
19
81
19
83
19
85
19
87
19
89
19
91
19
93
19
95
19
97
19
99
20
01
20
03
20
05
20
07
20
09
20
11
20
13
20
15
20
17
Europe US China
19
Índice de Cooperación (tendencia, Mundo)
Índice de cooperación (tendencia, América del norte)
Europa EE.UU
...así como la evolución del índice de cooperación en el tiempo de las
principales potencias mundiales
El índice se define como la relación del número de eventos de cooperación y demanda.
Tendencias del índice (Filtro HP)
Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
Efectos colaterales de la desaceleración de China
Desaceleración de China: percepción de los medios y red de países
Oman
Qatar
Iran
Kazakhstan
Russia
U.A.E.
Iraq
NicaraguaSaudi ArabiaMexico
Chile
Dominican R.Brazil
Bolivia
Ecuador
Venezuela
Peru
Panama
Argentina
Spain
Austria
Ukraine
Israel
Greece
Poland
Belgium
Czech Republic
ItalyNetherlands
Finland
Ireland
Iceland
Portugal
Hungary
Yemen
Sri Lanka
Macau
Indonesia
Philippines
Taiwan
Cambodia
Pakistan
Turkey
Brunei
N. Zealand
Burkina Faso
Singapore
Thailand
Malaysia
Zimbabwe
UgandaNigeria
Zambia
CongoMozambique
Kenya
Sweden
Angola
E. Guinea
EthiopiaSouth Africa
France
US
UK
Japan
Australia
Canada
S. Korea India
Switzerland
Germany
Hong Kong
China
20 Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
...o efectos colaterales de las sanciones comerciales impuestas a Rusia
Red de sanciones económicas rusas
Círculo financiero
Algunos países y centros
financieros se verán
afectados por las
sanciones financieras
impuestas a Rusia.
Comercio con
Europa central y del este
Los efectos comerciales de las
sanciones comerciales impuestas a
Rusia se extenderán a otros países.
En particular, a socios comerciales
tradicionales en el este.
La demanda externa de algunos
países de Europa Central (Francia,
Alemania, Italia) también se verá
afectada.
Comercio de Asia Central
Las restricciones al intercambio de
tecnología afectarán a la capacidad
rusa a medio/largo plazo para
extraer nueva energía, lo que podría
afectar a las relaciones de Asia
Central.
Círculo financiero
y comercial
Las inversiones rusas
en algunas regiones
son enormes
(p.e.j. los Balcanes).
21 Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
Los controles de solidez con datos oficiales muestran una gran
similitud entre las series. De los problemas de salud...
Ébola: deudas oficiales por la OMS
(muertes hasta mediados de septiembre)
Ébola: brote según GDELT
(muertes hasta mediados de septiembre)
22 Fuente: OMS y BBC
Muertes por ebola
Fronteras cerradas
Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
...a los temas relacionados con el comercio.
Cambios en el índice de soporte del comercio
mundial de BBVA Research 2008-17
La incidencia mundial del proteccionismo
2008-2015 (alerta comercial global)
23
Número de veces
perjudicados por medidas
proteccionistas actualmente
vigentes
Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
03 Indicadores económicos y de riesgo a través de
transacciones, búsquedas de Google y noticias
internacionales
Big Data y Big Models en BBVA Research
Bases de datos internas: trabajar con datos de BBVA agregados y
anonimizados
710 millones de transacciones con tarjeta
desde 1 millón de puntos de venta, hechas por
53 millones de personas, que representan
43 000 millones de euros
1 500 millones de transacciones con tarjeta
desde 1,1 millones de puntos de venta,
realizadas por 88 millones de personas, que
representan 41 000 millones de euros 25
Big Data y Big Models en BBVA Research
Un indicador de actividad de "alta definición" para España (y México) (Indicador de consumo de BBVA para la asignación óptima de los recursos y productos de BBVA)
Qué significa "ALTA DEFINICIÓN (*)" aquí:
Utilizando datos de BBVA, replicamos cifras nacionales, mejorando la
frecuencia...
alta granularidad:
dinámica hasta el nivel subnacional
Frecuencia ultra alta:
dinámica hasta frecuencia submensual
Multidimensional: características socioeconómicas más
detalladas
Índice ICM-BBVA, en millones de euros y a diario Comparación de ventas minoristas del INE y BBVA
mensualmente
0
10
20
30
40
50
60
Jan-1
3
Apr-
13
Jul-1
3
Oct-
13
Jan-1
4
Apr-
14
Jul-1
4
Oct-
14
Jan-1
5
Apr-
15
Jul-1
5
Oct-
15
Jan-1
6
Apr-
16
Jul-1
6
-0,3
-0,2
-0,1
0,0
0,1
0,2
0,3
0,4
Jan-1
3
Apr-
13
Jul-1
3
Oct-
13
Jan-1
4
Apr-
14
Jul-1
4
Oct-
14
Jan-1
5
Apr-
15
Jul-1
5
Oct-
15
Jan-1
6
Apr-
16
Jul-1
6
BBVA transactions Retail sales
26
Transacciones BBVA Ventas minoristas
Big Data y Big Models en BBVA Research
Transacciones de BBVA 1S15 frente a 1S16 (% a/a) País Vasco
...y granularidad, hasta el nivel regional
-0,4
-0,2
0,0
0,2
0,4
Jan-13 Jul-13 Jan-14 Jul-14 Jan-15 Jul-15 Jan-16 Jul-16
BBVA transactions Retail salesTransacciones BBVA Ventas minoristas
Álava Guipúzcoa Vizcaya
-0,4
-0,2
0,0
0,2
0,4
Ja
n-1
3
Ju
l-13
Ja
n-1
4
Ju
l-14
Ja
n-1
5
Ju
l-15
Ja
n-1
6
Ju
l-16
BBVA transactions
-0,4
-0,2
0,0
0,2
0,4
Ja
n-1
3
Ju
l-13
Ja
n-1
4
Ju
l-14
Ja
n-1
5
Ju
l-15
Ja
n-1
6
Ju
l-16
BBVA transactions
-0,4
-0,2
0,0
0,2
0,4
Ja
n-1
3
Ju
l-13
Ja
n-1
4
Ju
l-14
Ja
n-1
5
Ju
l-15
Ja
n-1
6
Ju
l-16
BBVA transactions
27 Fuente: BBVA Research y Datos y análisis de BBVA
crecimiento interanual de transacciones (%, 1S15—1S16)
Transacciones BBVA Transacciones BBVA Transacciones BBVA
Big Data y Big Models en BBVA Research
Bases de datos externas:
base de datos de búsquedas de Google
Ejemplo: una base de datos con información agregada sobre las
consultas de Google relacionadas con España como destino
turístico desarrollada junto con Google. Las consultas relacionadas con
el turismo en Google siguen el mismo patrón estacional que las
estadísticas de turismo, anticipándose con uno o dos meses.
La medición de las consultas de Google, dado el uso
cada vez mayor de las búsquedas en internet, tiene un
gran potencial para predecir la evolución futura de la
situación.
Las búsquedas de Google (Google Search) ofrecen
varias funciones más allá de la búsqueda de palabras y
están disponibles desde julio de 2007.
El análisis de la frecuencia de los términos de búsqueda
puede indicar la evolución de las tendencias
económicas, sociales y de salud.
28
Big Data y Big Models en BBVA Research
Pernoctaciones de turistas no residentes en
hoteles y tendencias de búsqueda en Google (Pernoctaciones en miles, índice de búsquedas = 100, julio de 2007)
Pernoctaciones de no residentes en hoteles y
previsiones (% a/a, último pronóstico a 30 de noviembre de 2016)
29
(Más información en el siguiente enlace)
Fuente: BBVA Research, INE y Google
La similitud en la dinámica de las estadísticas oficiales y las consultas
de Google nos permiten hacer pronósticos para el turismo español
0
50
100
150
200
250
300
350
400
450
500
5.000
10.000
15.000
20.000
25.000
30.000
jul-07
en
e-0
8
jul-08
en
e-0
9
jul-09
en
e-1
0
jul-10
en
e-1
1
jul-11
en
e-1
2
jul-12
en
e-1
3
jul-13
en
e-1
4
jul-14
en
e-1
5
jul-15
en
e-1
6
jul-16
Overnight-stays (LHS) Google query (RHS)
0
2
4
6
8
10
12
14
jul-16 ago-16 sep-16 oct-16 nov-16 dic-16
20% 40% 60% Overnight-staysPernoctaciones (izda) Consulta Google (dcha) Pernoctaciones
Big Data y Big Models en BBVA Research
El sentimiento de las noticias nos permite elaborar un índice compuesto
Índice de sentimiento macroeconómico para
Turquía (Evolución del "tono" de los principales temas seguidos)
-3
-2
-1
0
1
2
3
ab
r-1
3m
ay-1
3ju
n-1
3ju
l-13
ag
o-1
3sep-1
3oct-
13
no
v-1
3dic
-13
en
e-1
4fe
b-1
4m
ar-
14
ab
r-1
4m
ay-1
4ju
n-1
4ju
l-14
ag
o-1
4sep-1
4oct-
14
no
v-1
4dic
-14
en
e-1
5fe
b-1
5m
ar-
15
ab
r-1
5m
ay-1
5ju
n-1
5ju
l-15
ag
o-1
5sep-1
5oct-
15
no
v-1
5
30 Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
Podemos usarlo para mejorar nuestros modelos mensuales de PBI...
aprovechando las noticias en tiempo real
Mensual Trimestral Año
PIB MFD mensual 0,085 0,256 1,024
PIB MFD mensual + Índice MU 0,046 0,139 0,558
PIB MFD mensual + Ponderado MU 0,063 0,190 0,569
PIB MFD mensual + P. Monetaria MU 0,046 0,139 0,556
PIB MFD mensual + Política MU 0,046 0,139 0,556
PIB MFD mensual + P. Fiscal MU 0,046 0,138 0,550
PIB MFD mensual + I. Global MU 0,063 0,188 0,563
Modelo de factor dinámico para el PBI turco
Pseudo de errores RMS de muestra
Indicador mensual de crecimiento del PIB turco
y previsiones a corto plazo (% de variación interanual)
31 Fuente: BBVA Research
-4%
-3%
-2%
-1%
0%
1%
2%
3%
4%
5%
6%
7%
8%
9%
10%
11%
se
p-1
3
dic
-13
mar-
14
jun
-14
se
p-1
4
dic
-14
mar-
15
jun
-15
se
p-1
5
dic
-15
mar-
16
jun
-16
se
p-1
6
dic
-16
mar-
17
jun
-17
se
p-1
7
Cie
nto
s
Crecimiento del PIB
BBVA-GB Crecimiento del PIB (mensual)
Crecimiento del PIB nowcast Julio: 7.4% (96% de inf.)
Agosto: 7.7% (92% de inf.)
Septiembre: 8.2% (26% de inf.)
Big Data y Big Models en BBVA Research
-0,002
0
0,002
0,004
0,006
0,008
0,01
1 2 3 4 5 6 7 8 9 101112131415161718192021222324
Uncertainty Index
Uncertainty Index (equally weighted)
Fiscal
Monetary
Global
Politics
Turquía: Impulso respuesta del tipo de cambio
a los shocks en el sentimiento (en desviaciones estándar)
-2,00
-1,50
-1,00
-0,50
0,00
0,50
1,00
1,50
2,00
ene
-15
ene
-15
ene
-15
feb-1
5
feb-1
5
ma
r-15
ma
r-15
abr-1
5
abr-1
5
ma
y-1
5
ma
y-1
5
jun
-15
jun
-15
jul-1
5
jul-1
5
jul-1
5
ago
-15
ago
-15
sep
-15
sep
-15
oct-1
5
oct-1
5
nov-1
5Global Policy Uncertainty
Political Uncertainty
Monetary Policy Uncertainty
Fiscal Policy Uncertainty
Turquía: Incertidumbre macroeconómica
en 2015 (en desviaciones estándar)
• La respuesta al impulso corresponde a un modelo VAR bayesiano con PIB global,
inflación, tasa de interés, PIB local mensual, incertidumbre y tipo de cambio. Se estimó
a través del muestreo de Gibbs debido a la restricción de datos.
Fuente: BBVA Research 32 Fuente: www.gdelt.org & BBVA Research
Incertidumbre Política
Incertidumbre sobre la política monetaria
Incertidumbre sobre la política fiscal
Índice de incertidumbre
Índice de incertidumbre (ponderado)
Monetario
Político
Incertidumbre sobre política global
Podemos verificar la evolución a lo largo del tiempo...y cómo los
activos financieros responden a diferentes variables de sentimiento...
Big Data y Big Models en BBVA Research
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
-2,0
-1,0
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
ma
y-1
5
jul-15
sep-1
5
no
v-1
5
en
e-1
6
ma
r-1
6
ma
y-1
6
jul-16
sep-1
6
no
v-1
6
en
e-1
7
ma
r-1
7
ma
y-1
7
BBVA Monthly GDP Indicator
Economic Sentiment (English Media)
PIB de Turquía y sentimiento económico (%a/a y sentimiento económico escrito en turco)
PIB de Turquía y sentimiento económico (%a/a y sentimiento económico escrito en turco)
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
-2,0
-1,0
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
ma
y-1
5
jul-15
sep-1
5
no
v-1
5
en
e-1
6
ma
r-1
6
ma
y-1
6
jul-16
sep-1
6
no
v-1
6
en
e-1
7
ma
r-1
7
ma
y-1
7
BBVA Monthly GDP Indicator
Economic Sentiment (Turkish Media)
33 Fuente: www.gdelt.org & BBVA Research
Indicador mensual del PIB hecho por BBVA
Sentimiento económico (medios ingleses) Sentimiento económico (medios turcos)
Indicador mensual del PIB hecho por BBVA
...o para analizar la importancia de las narrativas y el sesgo del
lenguaje: y sí, importan...
Big Data y Big Models en BBVA Research
No se trata solo del sentimiento económico... sino también de
complementar los datos oficiales...
Índice de Sentimiento de Vulnerabilidad Chino (CVSI): componentes y evolución
34 Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
Índice de Sentimiento de Vulnerabilidad Chino (CVSI) (Evolución del "tono" de los principales temas seguidos sobre la vulnerabilidad en China. Los valores más bajos indican un deterioro del sentimiento y una mayor vulnerabilidad)
Sentim
iento
en d
ete
rioro
(mayo
r v
uln
era
bilid
ad
)
Sentim
iento
en m
ejo
ra
(men
or
vu
lnera
bilid
ad
)
-3
-2
-1
0
1
2
3
ma
r-1
5
ab
r-1
5
ma
y-1
5
jun-1
5
jul-15
ag
o-1
5
sep-1
5
oct-
15
no
v-1
5
dic
-15
en
e-1
6
feb
-16
ma
r-1
6
ab
r-1
6
ma
y-1
6
jun-1
6
jul-16
ag
o-1
6
sep-1
6
oct-
16
no
v-1
6
dic
-16
en
e-1
7
feb-1
7
ma
r-1
7
ab
r-1
7
ma
y-1
7
jun-1
7
jul-17
ag
o-1
7
sep-1
7
Crash del
mercado de
valores
“Lunes
Negro"
Caída del
PMI a
mínimos de
hace 4 años
RMB entra en la cesta
de DEG del FMI
Asamblea
Popular
Nacional de
China –
Reunión
3%
Devaluación
La Asamblea Popular
Nacional de China acepta
índices de crecimientos mas
bajos que el objetivo
Área neutral+- 1 deviación estándar
Extr
em
ad
am
en
te
po
sitiv
o
Extt
rem
ad
am
en
te n
eg
ativo
Crash del mercado
de valores, ,
transacciones
detenidas durante 3
días
35 Nota: más información y detalles técnicos en el siguiente enlace link. Próxima presentación en la conferencia en Big Data en el Banco de Inglaterra
Fuente: www.gdelt.org & BBVA Research
...para rastrear los riesgos en tiempo real...
Big Data y Big Models en BBVA Research
-3
-2
-1
0
1
2
3
Ma
r-1
5
Apr-
15
Ma
y-1
5
Jun-1
5
Jul-1
5
Aug-1
5
Sep-1
5
Oct-
15
No
v-1
5
De
c-1
5
Jan-1
6
Feb
-16
Ma
r-1
6
Apr-
16
Ma
y-1
6
Jun-1
6
Jul-1
6
Aug-1
6
Sep-1
6
Oct-
16
No
v-1
6
De
c-1
6
Jan-1
7
Feb
-17
Ma
r-1
7
Apr-
17
Ma
y-1
7
Jun-1
7
Jul-1
7
Aug-1
7
Sep-1
7
Chinese Vulnerability Index (news in Chinese) Chinese Vulnerability Index (all news) Chinese Vulnerability Index (news in English)
36 Fuente: www.gdelt.org & BBVA Research
Índice de vulnerabilidad en China
(noticias en chino)
Índice de vulnerabilidad en china
(todas las noticias) Índice de vulnerabilidad en china
(noticias en ingles)
Índice de Sentimiento de Vulnerabilidad en China por idioma de los medios: total, chino e inglés (Evolución del "tono" de los principales temas seguidos sobre la vulnerabilidad en China. Los valores más bajos indican un deterioro del sentimiento y una mayor vulnerabilidad)
...desenmarañando los efectos del lenguaje de los
medios...
Big Data y Big Models en BBVA Research
...y analizado los riesgos en un alto grado de granularidad
Componentes del Índice de Sentimiento de Vulnerabilidad Chino (CVSI)
Mapa de empresas estatales de China (sentimiento sobre empresas estatales)
Análisis geográfico Precios de la vivienda (sentimiento sobre los precios de la vivienda)
37 Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
Las previsiones a corto plazo (nowcast) de los precios de la vivienda
también son un aspecto prometedor del Big Data
Precios de la vivienda y tono de los precios de la vivienda en Turquía (Azul oscuro: tono más negativo)
Distribución geográfica del tono de los precios de la vivienda 2015 (Azul oscuro: tono más negativo)
38
Tono GDELT, precios de las viviendas
Tono GDELT, precios anualizados viviendas
Fuente: www.gdelt.org & BBVA Research
Big Data y Big Models en BBVA Research
04 Minería de textos y
análisis de opiniones
Big Data y Big Models en BBVA Research
Bases de datos externas: técnicas de web scrapping y NPL
Extracción de
información
Preprocesamiento y
análisis de texto Transformación Minería de texto y NPL
Análisis de los
sentimientos
• Documentos
• Páginas web
• Extraer palabras
• Identificar partes del
discurso
• Tokenización y
tokens de varias
palabras
• Eliminación de
palabras vacías
• Stemming
• Case-folding
• Filtrado de texto
• Indexación para
cuantificar texto en
listas de recuentos
de términos
• Crear la matriz de
término de
documento
• Matriz de
ponderación
• Factorización (SVD)
• Análisis y
aprendizaje
automático
• Extracción de
temas (LDA)
• Agrupación
• Modelado (STM y
DTM)
• Aplicar diccionarios
de sentimientos
• Análisis semántico
y clasificación
• Agrupación
(Más información en el anexo 40
Big Data y Big Models en BBVA Research
Primero, examinamos los temas: las nubes de palabras nos permiten
comprender e identificar temas...
Cada nube de palabras representa la distribución de probabilidad de las palabras dentro de un tema
determinado. El tamaño de la palabra y el color indican la probabilidad de que aparezca dentro de ese tema
Inflación Flujos globales
Política monetaria
41
Big Data y Big Models en BBVA Research
0
0,1
0,2
0,3
0,4
0,5
0,6
20
06
20
06
20
07
20
07
20
08
20
08
20
09
20
10
20
10
20
11
20
11
20
12
20
13
20
13
20
14
20
14
20
15
20
15
20
16
20
17
Liquidity & FX Policy Interest Rate Policy Macroprudential PolicyPolítica de liquidez Y cambio
Política de tasa de interés
Política macroprudencial
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
20
06
20
07
20
08
20
09
20
10
20
11
20
12
20
13
20
14
20
15
20
16
20
17
Global Flows Economic Activity
Labor Market Fiscal &Structural Policies
Inflation Monetary Policy
Other
Flujos globales Mercado laboral Inflación
Otros
Actividad económica Política fiscal y estructurales Política monetaria
42
...y podemos verificar "de lo que habla el Banco Central"...
Banco Central de Turquía: Evolución de los temas Distribución de los temas de política monetaria (% del total)
Fuente: BBVA Research
Big Data y Big Models en BBVA Research
-15
-10
-5
0
5
10
15
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Confidence bands +/-1SD Inflation
Accelerating inflation pressures
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Tightening
Easing
43 Fuente: BBVA Research
Inflación Bandas de confianza
+/-1de
Endurecimiento
Flexibilización
Presiones inflacionarias en aceleración
...así como el sentimiento del tema y la postura de los informes de CB...
Sentimiento del Banco Central sobre la inflación (Técnicas estandarizadas de Big Data LDA aplicadas a las actas y declaraciones)
Sentimiento de la política monetaria (Estandarizado, estimado mediante técnicas de Big Data LDA a partir de actas y declaraciones)
Big Data y Big Models en BBVA Research
-3
-2
-1
0
1
2
3
20
06
20
07
20
08
20
09
20
10
20
11
20
12
20
13
20
14
20
15
20
16
20
17
Global Flows Liquidity & FX Policy
-4
-3
-2
-1
0
1
2
3
20
06
20
07
20
08
20
09
20
10
20
11
20
12
20
13
20
14
20
15
20
16
20
17
Economic Activity Labor MarketActividad
económica Mercado laboral
Flujos globales Política de liquidez y cambio
Fuente: BBVA Research
Lo que cambia con el tiempo...según las técnicas de minería de textos
y aprendizaje automático...
Evolución del sentimiento de los temas en los informes de BC en 2006-17.
44
Big Data y Big Models en BBVA Research
...así como las relaciones entre los temas y su evolución en el tiempo
mediante el análisis de redes de temas
La red de los temas estimados y correlacionados usando STM. Los nodos en el gráfico representan los temas identificados. El tamaño del nodo es proporcional al número de palabras
en el corpus dedicado a cada tema (peso). El color del nodo indica clústers que usan un algoritmo de detección de comunidad llamado modularidad desarrollado por Blondel et al
(2008). Los temas cuyo etiquetado se desconoce se eliminan del gráfico por razones de claridad visual. Los bordes representan palabras que son comunes a los temas que conectan
(coocurrencia de palabras entre los temas). El ancho del borde es proporcional a la fuerza de esta coocurrencia entre los temas. 45
Red de temas 2006-09: la meta de inflación
Red de temas 2010-15: el período de la crisis financiera mundial
Red de temas 2016-17: en busca de la estabilidad de precios
Big Data y Big Models en BBVA Research
ANEXO
Big Data y Big Models en BBVA Research
Tono medio: GDELT utiliza más de 40 diccionarios tonales para generar una puntuación que va de -100
(extremadamente negativo) a +100 (extremadamente positivo) para cada noticia, con valores comunes que
oscilan entre -10 (negativo) y +10 (positivo), donde 0 indica un tono neutral. Un sentimiento neutral puede ser
el resultado de un lenguaje neutral o un equilibrio de algunos sentimientos positivos extremos
compensados por los negativos. La variable de sentimiento se basa en el equilibrio entre el porcentaje de
todas las palabras en el artículo que tiene una connotación emocional positiva y negativa dentro de un artículo
dividido por el número total de palabras incluidas en el artículo.
Ejemplo del sistema de codificación PETRARCH:
Sistema de codificación e indicador emocional en GDELT
47
Big Data y Big Models en BBVA Research
Minería de texto y NPL: preprocesamiento y transformación
Los documentos se definen como párrafos.
Se excluyen los documentos con menos de 200 caracteres (títulos, secciones de contenido...)
A continuación, se derivan las palabras (reducir una palabra a su raíz semántica) para generar tokens.
La selección de características se realiza en los tokens: las palabras vacías comunes y las palabras con
una longitud de 3 o menos caracteres se eliminan y las palabras restantes se derivan. Los tokens se filtran
en función de un índice de frecuencia de término – frecuencia inversa de documento (tf.idf) (Manning y
Schutze 1999); se eliminan las palabras del cuantil más bajo. Este esquema de indexación es una
combinación de un índice de frecuencia de término (tf) y un índice de frecuencia de documento (df). tf es
solo el recuento de una palabra dada en un documento, la media tf se usa para construir el índice final. df
es la cantidad de documentos que contienen una palabra dada. Entonces, el tf.idf usado para filtrar
palabras es:
𝑡𝑓. 𝑖𝑑𝑓𝑖 = 𝑚𝑒𝑎𝑛 𝑡𝑓𝑖𝑗 ∗ 𝑙𝑜𝑔2𝑁
𝑑𝑓𝑖
donde i indexa términos y j documentos. Este índice otorga un gran peso a las palabras frecuentes a través
del componente tf, pero si una palabra es muy frecuente a través del corpus; su peso se reduce a través del
componente idf. El objetivo de este procedimiento de filtrado es eliminar palabras muy poco frecuentes y
muy frecuentes para eliminar palabras con bajo contenido semántico.
48
Big Data y Big Models en BBVA Research
Algoritmos de aprendizaje automático en texto: LDA, STM y DTM
La asignación latente de Dirichlet (LDA) (Blei, Ng y Jordan 2003) es un modelo bayesiano con una
distribución previa con respecto a las probabilidades de mezcla específicas del documento, donde el
recuento de términos dentro de los documentos se distribuye de manera independiente e idéntica dada
una distribución previa de Dirichlet.
Para introducir dependencias temporales en el proceso de generación de datos, utilizamos el modelo de
tema dinámico (DTM), una particularización de los Modelos de tema estructural (STM) donde cada
período de tiempo tiene un modelo de tema separado y los períodos de tiempo están vinculados a través
de parámetros que evolucionan con fluidez.
STM (Roberts et al. 2016) introduce de manera explícita covariables en un modelo de temas que nos
permite valorar el impacto de las covariantes a nivel de documento sobre el contenido del tema y la
prevalencia como parte del modelo del tema en sí mismo.
El proceso para generar palabras individuales es el mismo que para el LDA simple. Sin embargo, ambos
objetos pueden depender de conjuntos potencialmente diferentes de covariables a nivel de documento:
prevalencia de temas (cada documento tiene atributos P que pueden afectar a la probabilidad de discutir el
tema k) y el contenido temático (cada documento tiene un atributo categórico de nivel A que afecta a la
probabilidad de discutir el término v en general y de analizarlo dentro del tema k. La generación de los
términos k y d se realiza mediante regresión logística multinomial
49
Big Data y Big Models en BBVA Research
Análisis del sentimiento en el texto: enfoque léxico
Empleamos los métodos Lexicon utilizando el diccionario Loughran-McDonald (Loughran McDonald
2009), un diccionario creado específicamente para analizar textos financieros y el diccionario de la FED
para la estabilidad financiera (Correa et al, 2017)
Usando las palabras negativas y positivas de este diccionario, el "tono" promedio de un documento dado
se calcula del siguiente modo:
Tono medio = 100 ∗ 𝑃𝑎𝑙𝑎𝑏𝑟𝑎𝑠 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎𝑠 − 𝑃𝑎𝑙𝑎𝑏𝑟𝑎𝑠 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎𝑠
𝑃𝑎𝑙𝑎𝑏𝑟𝑎𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠
la puntuación oscila entre -100 (extremadamente negativo) y +100 (extremadamente positivo), pero los
valores comunes oscilan entre -10 y +10, donde 0 indica neutral.
Para crear los índices de sentimiento finales, usamos la mezcla de temas que combina los métodos de
diccionario con el resultado de LDA para recuentos de palabras de peso por tema, siguiendo el enfoque
propuesto por Hansen y McMahon (2015). Esto permite generar diferentes medidas de sentimiento a partir
de un conjunto de texto, y enfocar ese sentimiento en los temas de interés.
50
Big Data y Big Models en BBVA Research
Metodología de impacto causal
Para medir el impacto de los ataques sobre el rendimiento del comercio en la ciudad de Barcelona se ha
utilizado un modelo bayesiano de series temporales (aquí el documento de referencia). Este modelo se
basa en la comparación del comportamiento observado en una serie temporal objetivo, a partir de la fecha
del evento analizado, con una predicción de los valores esperados de que no se haya producido. Para
crear esta serie contrafáctica, usamos un conjunto de series de control no afectadas por el evento
En este caso particular, la serie temporal utilizada corresponde al gasto diario con tarjeta de crédito en el
comercio físico. El período cubierto por la serie va desde el 1 de enero de 2015 hasta el 24 de septiembre
de 2017, fijando la fecha del evento el 17 de agosto de 2017. La serie objetivo es el gasto registrado en la
ciudad de Barcelona y la serie de control corresponde al resto de municipios españoles con mayor
correlación con Barcelona en el período anterior
Por lo tanto, la predicción contrafáctica se obtiene mediante un proceso de inferencia bayesiana en el cual
cada uno de los componentes de las series temporales objetivas (tendencias, estacionalidad, ciclos...) se
aproxima utilizando el conjunto de series de control. Una vez hecho esto, se combinan para obtener las
probabilidades a priori de la serie objetivo
La metodología utiliza el método de la cadena Monte Carlo Markov para simular distribuciones posteriores.
Esto permite no solo generar un valor esperado para cada uno de los días posteriores al evento, sino
también permitir intervalos de confianza para determinar si las diferencias entre las series observadas y
pronosticadas (crecimiento y decremento) podrían haber ocurrido incluso si el evento no se produce o si
estadísticamente no se justifican sin el evento. En este análisis, se ha considerado estadísticamente
demostrado que una diferencia se debe al ataque cuando su valor se encuentra en el 1 % final de la
distribución de probabilidad calculada 51
Octubre de 2017
Big Data y Big Models en BBVA
Research Día de estadísticas del BCE
Jorge Sicilia, Álvaro Ortiz y Tomasa Rodrigo
top related