seo y big data, rastreando lo que google rastrea - clinic seo - eshow

114
Big Data con herramientas Analisis de logs para SEO en Rastreando lo que Google Rastrea Iñaki Huerta

Upload: inaki-huerta-ikhuerta

Post on 05-Apr-2017

2.370 views

Category:

Marketing


0 download

TRANSCRIPT

Big Datacon herramientas

Analisis de logs para SEO

en

Rastreando lo que Google Rastrea

Iñaki Huerta

#ClinicSEO @ikhuerta

¡Hola! Soy Iñaki Huerta

Ikaue.com

@ikhuerta

[email protected]

#ClinicSEO @ikhuerta

Elección de Keywords y temáticas

Content Marketing

Optimización de Contenidos

Priorización del HTML

Marcado Semántico (HTML5 & Schema)

Links de temáticas recibidos

Links Entrantes

Link Sculpting

Crecimiento (Natural, Building & Baiting)

Links Tóxicos

Velocidad de Carga

Calidad del contenido

Señales Sociales y Marca

Crawling

Priorización de la indexación

Velocidades de rastreo

Redirecciones y Canonicals

Orientación hacia distintos bots

Restricciones y ayudas a las arañasIndexación

Semántica Autoridad

Calidad

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

ÍNDICE Relevancia(Authority + Semántica)

Resultado(SERP)

#ClinicSEO @ikhuerta

Rastreo ÍNDICE Relevancia(Authority + Semántica)

Resultado(SERP)

#ClinicSEO @ikhuerta

Rastreo ÍNDICE Relevancia(Authority + Semántica)

Resultado(SERP)

INDEXACIÓNSEMÁNTICA

AUTORIDAD

↑ SEO ↑

#ClinicSEO @ikhuerta

“Con habilidad

y con maña,

se comió

al ELEFANTE

la araña”

- Anónimo

#ClinicSEO @ikhuerta

Cómo trabaja GOOGLEBOTSoy una linda web

que espera a ser

indexada .

#ClinicSEO @ikhuerta

¡Hola guapa!

Busco . LINKS

LINK LINK LINK

LINK

LINK

LINK LINK LINK

LINK

LINK

LINK

LINK

¡Pues yo tengo

muchos machote!

#ClinicSEO @ikhuerta

Acabé contigo,

preséntame a tus

amigas…

LINK LINK LINK

LINK

LINK

LINK LINK LINK

LINK

LINK

LINK

LINK

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

#ClinicSEO @ikhuerta

Y ahora las amigas

de tus amigas…

LINK LINK LINK

LINK

LINK

LINK LINK LINK

LINK

LINK

LINK

LINK

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

KL

I

N

KL

I

N

K

L

I

N

K

L

I

N

KL

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

#ClinicSEO @ikhuerta

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

L

I

N

K

#ClinicSEO @ikhuerta

Trabajo a nivel teórico de la INDEXACIÓN

Distancia de

Rastreo

&

Crawl Budget

Trabajamos en…

#ClinicSEO @ikhuerta

Distancia de rastreo

Número de saltos que necesita dar la araña desde una URL de gran

autoridad para encontrar tu contenido.

Home

Categoría

Contenido

Página 2

Punto de gran

autoridad

Contenido a

posicionar

#ClinicSEO @ikhuerta

Distancia de rastreo

Número de saltos que necesita dar la araña desde una URL de gran

autoridad para encontrar tu contenido.

Home

Categoría

Contenido

Página 2

21

3Punto de gran

autoridad

Contenido a

posicionar

#ClinicSEO @ikhuerta

Nuestras herramientas de optimización OnSite del Rastreo

Gran mejora

No afectamos

a la UX del site

Afectamos mucho

a la UX del site

Sin mejora

#ClinicSEO @ikhuerta

Nuestras herramientas de optimización OnSite del Rastreo

Gran mejora

No afectamos

a la UX del site

Afectamos mucho

a la UX del site

Sin mejora

Cambios en la AI

Menús dinámicos y

Breadcrumbs

Rel=nofollow

Robots.txt

Sitemaps.xml

Etiquetados HTML Bloques de linking

Sitemaps HTML

Content Links

Meta Robots

#ClinicSEO @ikhuerta

Nuestras herramientas de optimización OnSite del Rastreo

Gran mejora

No afectamos

a la UX del site

Afectamos mucho

a la UX del site

Sin mejora

Cambios en la AI

Menús dinámicos y

Breadcrumbs

Rel=nofollow

Robots.txt

Sitemaps.xml

Etiquetados HTML Bloques de linking

Sitemaps HTML

OPTIMIZACIONES TÉCNICAS LINK SCULPING

Content Links

Meta Robots

#ClinicSEO @ikhuerta

Crawl Budget

Se basa en “suponer” que google nos dedica un tiempo de proceso de sus

arañas por día y por lo tanto cada página supone un gasto de este tiempo.

“Mi tiempo para ti es limitado!”

#ClinicSEO @ikhuerta

Tiempo que nos dedican las arañas de Google

Página

404

No se

indexa

Página

Rastreada

Página

Rastreada

Redi-

rección

Página

503

No se

indexa

Página

RastreadaA esta

página las

arañas ya no

llegan

#ClinicSEO @ikhuerta

Optimización del Crawl Budget

- Errores de servidor (5xx)

- Redirecciones (3xx)

- Páginas que no existen o sin acceso (4xx)

- Páginas “Thin Content”

- Páginas con KW duplicadas

- Páginas y filtros sin KW de negocio

1. Eliminar Rastreos innecesarios

#ClinicSEO @ikhuerta

Optimización del Crawl Budget

- Tiempos de respuesta del servidor (rendimiento y caché)

- Peso de las páginas (imágenes, scripts, css, html)

- Respuesta de dominios y DNS

- Localización del servidor que da la respuesta

- Negociaciones (cookies, etc.)

2. Mejorar velocidad de rastreo (WPO)

#ClinicSEO @ikhuerta

Optimización del Crawl Budget

- Productos estrella sobre productos

- Categorías con volumen sobre menores

- Primera página sobre el resto

- Páginas de KW con volumen

- Páginas de KW con potencial de volumen (TOP10-15)

- Etc…

3. Priorizar recursos con mayor potencial SEO

#ClinicSEO @ikhuerta

Teoría vs Práctica

#ClinicSEO @ikhuerta

Dos sistemas,

Dos sabores….1. Crawling Emulado

(con Bots/Crawlers)

2. Crawling Real

(con Logs)

#ClinicSEO @ikhuerta

LO BUENO

LOGSEMULADORES(Crawlers)

LO MALO

- Info REAL del crawling

- Reflejan el momento en el

que sucedió la información.

- Fácil manejo

- Bajo coste

- Información sobre

etiquetas HTML

- Muy técnicos

- Archivos muy pesados

- Debemos capturarlos

ANTES de trabajar

- Debes lanzarlos sobre

toda la web

- No garantizan que sea así

como rastrea Google

#ClinicSEO @ikhuerta

https://es.slideshare.net/ikhuerta/

screaming-frog-sin-indexacin-

no-hay-seo-clinic-seo-eshow-

2016

LA herramienta para

emular a GoogleBot

Si queréis saber mucho más sobre

screaming aquí tenéis 101 slides…

#ClinicSEO @ikhuerta

20€/mes - 100K Urls

100€/mes - 500K Urls

200€/mes - 2M Urls

Solo planes a medida:Aproximación de ejemplo:

300€/mes - 2M Urls

API(solo planes altos)

API(depende del plan)

LOGS

LOGS(solo planes a medida)

API(bajo demanda)

70€/mes - 100K Urls

170€/mes - 500K Urls

440€/mes – 1,5M Urls

Crawlers Emuladores en la Nube:

#ClinicSEO @ikhuerta

Analizadores de Logs en la nube

Se implementa en el servidor.

Es capaz de procesar grandes volúmenes de datos

Pero no está orientado a SEO, hay que saber manejarlo

De pago, con precio a negociar, siempre como añadido al crawler

Se sincroniza con las URLs recogidas

Puedes sincronizar o subir tus logs

De pago, con precio a negociar, siempre como añadido al crawler

Se sincroniza con las URLs recogidas

Subes tus logs

#ClinicSEO @ikhuerta

Trabajando con Datos…

FUENTE(Conseguir

los datos correctos)

MODELADO(tranformarlos

información útil)

ACCESO(poder sacar el informe

que necesitemos)

CONSUMO(Visualizar la información

de forma comprensible)

#ClinicSEO @ikhuerta

Nuestra receta:

LOGS + BIGQUERY + DATASTUDIO

CERTIFIED ✔

#ClinicSEO @ikhuerta

Trabajando con Datos…

FUENTE(Conseguir

los datos correctos)

MODELADO(tranformarlos

información útil)

ACCESO(poder sacar el informe

que necesitemos)

CONSUMO(Visualizar la información

de forma comprensible)

#ClinicSEO @ikhuerta

Los sacamos del servidor

FUENTE(Conseguir

los datos correctos)

#ClinicSEO @ikhuerta

Encuentra las 7 diferencias

THE

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /robots.txt HTTP/1.0" 200 67 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /sobre/seo-onpage HTTP/1.1" 200 18942 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

186.134.141.243 - - [18/Nov/2016:00:00:03 +0100] "GET /maquetacion-seo-en-html5-div-article-section-o-aside

HTTP/1.1" 200 23579 "http://blog.ikhuerta.com/crea-tus-informes-y-dashboards-de-analitica-con-excel" "Mozilla/5.0

(Windows NT 10…

186.134.141.243 - - [18/Nov/2016:00:00:04 +0100] "GET /wp-content/themes/ikhuerta3/images/icon_twitter.gif

HTTP/1.1" 200 1235 "http://blog.ikhuerta.com/wp-content/themes/ikhuerta3/style.css?a=asdfadsg" "Mozilla/5.0

(Windows NT 10.0; WOW…

37.15.60.149 - - [18/Nov/2016:00:01:17 +0100] "GET /crea-tus-informes-y-dashboards-de-analitica-con-excel

HTTP/1.1" 200 42672 "-" "Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko)

Version/10.0 Mob…

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /robots.txt HTTP/1.0" 200 67 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /sobre/seo-onpage HTTP/1.1" 200 18942 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

186.134.141.243 - - [18/Nov/2016:00:00:03 +0100] "GET /maquetacion-seo-en-html5-div-article-section-o-aside

HTTP/1.1" 200 23579 "http://blog.ikhuerta.com/crea-tus-informes-y-dashboards-de-analitica-con-excel" "Mozilla/5.0

(Windows NT 10…

186.134.141.243 - - [18/Nov/2016:00:00:04 +0100] "GET /wp-content/themes/ikhuerta3/images/icon_twitter.gif

HTTP/1.1" 200 1235 "http://blog.ikhuerta.com/wp-content/themes/ikhuerta3/style.css?a=asdfadsg" "Mozilla/5.0

(Windows NT 10.0; WOW…

37.15.60.149 - - [18/Nov/2016:00:01:17 +0100] "GET /crea-tus-informes-y-dashboards-de-analitica-con-excel

HTTP/1.1" 200 42672 "-" "Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko)

Version/10.0 Mob…

1. IP QUE NOS

VISITÓ

IP de GOOGLE

IP de Usuario en Chrome

IP de Usuario en IPAD

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /robots.txt HTTP/1.0" 200 67 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /sobre/seo-onpage HTTP/1.1" 200 18942 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

186.134.141.243 - - [18/Nov/2016:00:00:03 +0100] "GET /maquetacion-seo-en-html5-div-article-section-o-aside

HTTP/1.1" 200 23579 "http://blog.ikhuerta.com/crea-tus-informes-y-dashboards-de-analitica-con-excel" "Mozilla/5.0

(Windows NT 10…

186.134.141.243 - - [18/Nov/2016:00:00:04 +0100] "GET /wp-content/themes/ikhuerta3/images/icon_twitter.gif

HTTP/1.1" 200 1235 "http://blog.ikhuerta.com/wp-content/themes/ikhuerta3/style.css?a=asdfadsg" "Mozilla/5.0

(Windows NT 10.0; WOW…

37.15.60.149 - - [18/Nov/2016:00:01:17 +0100] "GET /crea-tus-informes-y-dashboards-de-analitica-con-excel

HTTP/1.1" 200 42672 "-" "Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko)

Version/10.0 Mob…

2. CUANDO NOS

VISITARON

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /robots.txt HTTP/1.0" 200 67 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /sobre/seo-onpage HTTP/1.1" 200 18942 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

186.134.141.243 - - [18/Nov/2016:00:00:03 +0100] "GET /maquetacion-seo-en-html5-div-article-section-o-aside

HTTP/1.1" 200 23579 "http://blog.ikhuerta.com/crea-tus-informes-y-dashboards-de-analitica-con-excel" "Mozilla/5.0

(Windows NT 10…

186.134.141.243 - - [18/Nov/2016:00:00:04 +0100] "GET /wp-content/themes/ikhuerta3/images/icon_twitter.gif

HTTP/1.1" 200 1235 "http://blog.ikhuerta.com/wp-content/themes/ikhuerta3/style.css?a=asdfadsg" "Mozilla/5.0

(Windows NT 10.0; WOW…

37.15.60.149 - - [18/Nov/2016:00:01:17 +0100] "GET /crea-tus-informes-y-dashboards-de-analitica-con-excel

HTTP/1.1" 200 42672 "-" "Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko)

Version/10.0 Mob…

3. QUÉ BOT O

NAVEGADOR

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /robots.txt HTTP/1.0" 200 67 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /sobre/seo-onpage HTTP/1.1" 200 18942 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

186.134.141.243 - - [18/Nov/2016:00:00:03 +0100] "GET /maquetacion-seo-en-html5-div-article-section-o-aside

HTTP/1.1" 200 23579 "http://blog.ikhuerta.com/crea-tus-informes-y-dashboards-de-analitica-con-excel" "Mozilla/5.0

(Windows NT 10…

186.134.141.243 - - [18/Nov/2016:00:00:04 +0100] "GET /wp-content/themes/ikhuerta3/images/icon_twitter.gif

HTTP/1.1" 200 1235 "http://blog.ikhuerta.com/wp-content/themes/ikhuerta3/style.css?a=asdfadsg" "Mozilla/5.0

(Windows NT 10.0; WOW…

37.15.60.149 - - [18/Nov/2016:00:01:17 +0100] "GET /crea-tus-informes-y-dashboards-de-analitica-con-excel

HTTP/1.1" 200 42672 "-" "Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko)

Version/10.0 Mob…

4. QUÉ CONTENIDO

VIERON

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /robots.txt HTTP/1.0" 200 67 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /sobre/seo-onpage HTTP/1.1" 200 18942 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

186.134.141.243 - - [18/Nov/2016:00:00:03 +0100] "GET /maquetacion-seo-en-html5-div-article-section-o-aside

HTTP/1.1" 200 23579 "http://blog.ikhuerta.com/crea-tus-informes-y-dashboards-de-analitica-con-excel" "Mozilla/5.0

(Windows NT 10…

186.134.141.243 - - [18/Nov/2016:00:00:04 +0100] "GET /wp-content/themes/ikhuerta3/images/icon_twitter.gif

HTTP/1.1" 200 1235 "http://blog.ikhuerta.com/wp-content/themes/ikhuerta3/style.css?a=asdfadsg" "Mozilla/5.0

(Windows NT 10.0; WOW…

37.15.60.149 - - [18/Nov/2016:00:01:17 +0100] "GET /crea-tus-informes-y-dashboards-de-analitica-con-excel

HTTP/1.1" 200 42672 "-" "Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko)

Version/10.0 Mob…

5. DE DONDE VENÍA EL

USUARIO o POR QUÉ

CARGÓ ESE CONTENIDO

(Referrer)

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /robots.txt HTTP/1.0" 200 67 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /sobre/seo-onpage HTTP/1.1" 200 18942 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

186.134.141.243 - - [18/Nov/2016:00:00:03 +0100] "GET /maquetacion-seo-en-html5-div-article-section-o-aside

HTTP/1.1" 200 23579 "http://blog.ikhuerta.com/crea-tus-informes-y-dashboards-de-analitica-con-excel" "Mozilla/5.0

(Windows NT 10…

186.134.141.243 - - [18/Nov/2016:00:00:04 +0100] "GET /wp-content/themes/ikhuerta3/images/icon_twitter.gif

HTTP/1.1" 200 1235 "http://blog.ikhuerta.com/wp-content/themes/ikhuerta3/style.css?a=asdfadsg" "Mozilla/5.0

(Windows NT 10.0; WOW…

37.15.60.149 - - [18/Nov/2016:00:01:17 +0100] "GET /crea-tus-informes-y-dashboards-de-analitica-con-excel

HTTP/1.1" 200 42672 "-" "Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko)

Version/10.0 Mob…

6. SI EL CONTENIDO

CARGÓ BIEN, LE REDIRIGIÓ

O DIO ERROR

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /robots.txt HTTP/1.0" 200 67 "-" "Mozilla/5.0 (compatible;

Googlebot/2.1; +http://www.google.com/bot.html)“

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET /sobre/seo-onpage HTTP/1.1" 200 18942 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

186.134.141.243 - - [18/Nov/2016:00:00:03 +0100] "GET /maquetacion-seo-en-html5-div-article-section-o-aside

HTTP/1.1" 200 23579 "http://blog.ikhuerta.com/crea-tus-informes-y-dashboards-de-analitica-con-excel" "Mozilla/5.0

(Windows NT 10…

186.134.141.243 - - [18/Nov/2016:00:00:04 +0100] "GET /wp-content/themes/ikhuerta3/images/icon_twitter.gif

HTTP/1.1" 200 1235 "http://blog.ikhuerta.com/wp-content/themes/ikhuerta3/style.css?a=asdfadsg" "Mozilla/5.0

(Windows NT 10.0; WOW…

37.15.60.149 - - [18/Nov/2016:00:01:17 +0100] "GET /crea-tus-informes-y-dashboards-de-analitica-con-excel

HTTP/1.1" 200 42672 "-" "Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko)

Version/10.0 Mob…

GoogleBot visita nuestra HOME

Luego mira nuestro robots.txt

Y luego mira un artículo

Un usuario con Chrome mira otro

artículo

El mismo usuario carga el icono

de twitter

Y luego otro usuario desde IPAD

visita otro artículo distinto

#ClinicSEO @ikhuerta

Hazte la vida Fácil…

¡Modela!MODELADO

(tranformarlos

información útil)

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

ESTO ES UNA LÍNEA DE LOG:

#ClinicSEO @ikhuerta

91.121.115.186 - - [18/Nov/2016:00:00:01 +0100] "GET / HTTP/1.1" 200 19548 "-" "Mozilla/5.0

(compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

ESTO ES UNA LÍNEA DE LOG:

#ClinicSEO @ikhuerta

MODELADO

#ClinicSEO @ikhuerta

¿No sería genial que los logs fuesen CSVs?

- Día de la solicitud;

- Hora;

- IP desde donde se pidió la página;

- Método de la petición (GET, POST, ...);

- Protocolo (http,https);

- Host del servidor (dominio + subdominio);

- URL solicitada (sin parámetros de consulta);

- Parámetros de la consulta en la query;

- Referrer de la solicitud;

- User Agent que hace la petición;

- Tamaño de la descarga;

- Tiempo de proceso antes de servir la descarga

Ejemplo de línea de Log CSV:

2017-03-23;17:00;91.23.1.5;GET;https;”blog.ikhuerta.com”;;”http://www.google.es”;” Mozilla/5.0 (compatible; …

#ClinicSEO @ikhuerta

root@myServer> LogFormat%{%Y-%m-%d}t;%{%T}t;%a;%m;%h;%H;\"%U\";\"%q\";\"%{Referer}i\";\"%{User-agent}i\";%B;%D

LogFormat

Documentación oficial:

https://httpd.apache.org/docs/1.3/mod

/mod_log_config.html#logformat

Los servidores nos permiten definir el formato de los logs,

y así podemos hacerlos más amigables e incluir la info que

deseemos…

Definición del log, para el formato en CSV que proponíamos antes:

#ClinicSEO @ikhuerta

Lo Bueno Trabajar con LOGs se vuelve más Fácil

Lo Malo Sin histórico,

Recoges datos desde que cambies el

formato.

Lo Feo Cambiar como trabaja Sistemas solo

por analizar logs no siempre cuaja…

#ClinicSEO @ikhuerta

MODELADO

LOG FILE ANALYSER

Cómo herramienta aún no

es muy potente.

Pero la lectura del LOGS la

hace muy bien.

Y la exportación a CSV o

Excel después de leerlos

también…

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

Lo BuenoSin Ayuda

ni conocimientos técnicos

Lo Malo Solo para logs pequeños

“lo que aguante la RAM de tu PC”

Lo Feo Pagar 115€ al año, solo para

convertir a CSV no acaba de salir

a cuenta…

#ClinicSEO @ikhuerta

https://cloud.google.com/

- Almacenamiento Cloud

- Servidores Cloud

- Cloud Computing

- Gestión de API’s

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuertaSeleccionar o crear Proyectos

(necesitamos crear al menos uno)

#ClinicSEO @ikhuertaSeleccionar

Servicio

(dentro del

proyecto)

Los Servicios de Google Cloud

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

Nos permite almacenar grandes archivos en la nube de

Google.

(Recuerda, los logs pueden medir fácilmente varios GB)

Nos permite transformar los datos en una Base de

datos orientada a Big Data y consultarlos a gran

velocidad.

#ClinicSEO @ikhuerta

Para poder trabajar

con cualquier

servicio,

HAY QUE DEFINIR

UN MÉTODO DE

PAGO

(Aunque sea para no pagar nada)

#ClinicSEO @ikhuerta

Pero tenemos 300$gratis para los primeros

3 Meses.

Más que suficiente para probarlo e incluso para hacer muchos análisis puntuales

#ClinicSEO @ikhuerta

Coste de

Coste de

#ClinicSEO @ikhuerta

https://cloud.google.com/products/calculator/

#ClinicSEO @ikhuerta

No deberíais asustaros por el precio (para el análisis de logs)

Coste al año para analizar casi 10 GB de logs: < 5 €

#ClinicSEO @ikhuerta

No deberíais asustaros por el precio (para el análisis de logs)

Coste al año para analizar casi 10 GB de logs: < 5 €

El precio empieza a crecer cuando realizas

consutlas de más de 1TB al mes.

#ClinicSEO @ikhuerta

1. Subiendo tus Logs

a

#ClinicSEO @ikhuerta

En el servicio de “Storage” debemos crear un “Segmento”

donde iremos almacenando los logs

1. Subiendo tus Logs

#ClinicSEO @ikhuerta

0,026$ por GB/MES

Alta disponibiliad en todo el mundo.

0,020$ por GB/MES

Alta disponibilidad solo en tu región(el más cercano es OestedeEuropa)

0,010$ por GB/MES - Mínimo 30 días duración

Y cobran 0,01$ por GB consultado

0,007$ por GB/MES – Mínimo 90 días duración

y cobran 0,05$ por GB consultado.

Nombre del segmento (¡¡¡que sea fácil de escribir!!!)

#ClinicSEO @ikhuerta

0,026$ por GB/MES

Alta disponibiliad en todo el mundo.

0,020$ por GB/MES

Alta disponibilidad solo en tu región(el más cercano es OestedeEuropa)

0,010$ por GB/MES - Mínimo 30 días duración

Y cobran 0,01$ por GB consultado

0,007$ por GB/MES – Mínimo 90 días duración

y cobran 0,05$ por GB consultado.

REGIONAL: Tu opción si vas a realizar una sola carga y borrar los datos.

O si vas a ir recargando los logs varias veces al mes.

NEARLINE: Tu opción si vas a dejar los datos ahí para ir consultando la

misma colección de datos una y otra vez

#ClinicSEO @ikhuerta

SUBIMOS LOS ARCHIVOS QUE DESEEMOS

Una vez subidos accederemos a ellos con la dirección:

{nombre segmento}/{nombre archivo}

Por ejemplo:Nombre Segmento: logs-midominio

Nombre-archivo: logs-2017-02.log

Accederíamos con: “logs-midomio/logs-2017-02.log”

#ClinicSEO @ikhuerta

2. Cargando tus logs

en

#ClinicSEO @ikhuerta

Dos posibilidades:

Los cargamos directamente como

tabla en Big Query

Los cargamos como líneas en Big

Query

Y los modelamos en la propia

herramienta

#ClinicSEO @ikhuerta

¿Cómo se organiza Big Query?

Proyectos

DataSets

Tablas y vistas

#ClinicSEO @ikhuerta

¿Cómo se organiza Big Query?

Proyectos

DataSets

Tablas y vistas

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

Indicamos el archivo

que acabamos de subir

Ponemos nombre a la

tabla

Formato CSV

Creando Tabla de big query 1/2

Segmento Archivo

#ClinicSEO @ikhuerta

Creando Tabla de big query 2/2

Creamos solo un campo

al que llamamos “data”

Los campos van

separados por cualquier

carácter que

NO EXISTA en el log

Asi no lo separará…

#ClinicSEO @ikhuerta

Nuestro Log ya está en BIG QUERY

pero los campos aun no están modelados para poder trabajar

#ClinicSEO @ikhuerta

Le añadimos además

esta tabla para poder

trabajar los meses

(que en los logs vienen

así escritos)

(subimos un CSV que asocie nombres de

meses con sus números)

DESCARGA EL CSV AQUI

#ClinicSEO @ikhuerta

¡¡¡VIENE LA PARTE MÁS TÉCNICA DE

TODA LA CHARLA!!!

#ClinicSEO @ikhuerta

Nuestra Query Mágica

SELECTDATE(CONCAT(

regexp_extract( l.data , r'\[[0-9]{2}/(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Ago|Sep|Oct|Nov|Dec)/([0-9]{4})' ) , "-",STRING(m.number), "-",regexp_extract( l.data , r'\[([0-9]{2})/(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Ago|Sep|Oct|Nov|Dec)/[0-9]{4}' )

)) as date,regexp_extract( l.data , r'[ "]([^ "/]*[Gg]oogle[^ ";]*);?[ "]' ) as bot,regexp_extract( l.data , r' ([1-5][0-9]{2}) ' ) as code,regexp_extract( l.data , r' (/[^\s]*)' ) as uri,regexp_extract( l.data , r' (/[^\s\?]*)' ) as clean_uri,regexp_extract( l.data , r'^(?:[^"]*"){5}([^"]*)') as useragent,regexp_extract( l.data , r'([\.a-z0-9]*midominio[\.a-z]+)' ) as host

FROM [dataSet.nombreTabla] l CROSS JOIN [dataSet.months] m WHERE

regexp_extract( l.data , r'[[0-9]{2}/(Jan|Feb|Mar|Apr|May|Jun|Jul|Ago|Sep|Oct|Nov|Dec)/[0-9]{4}' ) = m.textAND( REGEXP_MATCH(l.data, r'"[^"/h][^"]*oogle[Bb]ot[^"]*"' ) OR REGEXP_MATCH(l.data,

r'"[^"/h][^"]*([Mm]ediapartners|[Aa]ds[Bb]ot)-[gG]oogle[^"]*"' ) )

Solo debes descargarla y reemplazar los trozos en rojo por los de tu

host (sin extensión), nombre de dataSet y el de las tablas

DESCARGA LA QUERY AQUI

#ClinicSEO @ikhuerta

Clicamos en ver

opciones

#ClinicSEO @ikhuerta

Copiamos la Query

Mágica

Ponemos nombre a la

nueva tabla donde se

guardarán los datos

Permitimos resultados

grandes

Y lanzamos la consulta

#ClinicSEO @ikhuerta

¡Y ya lo tenemos modelado en Big Query!

MODELADO

#ClinicSEO @ikhuerta

¡Y ya lo tenemos modelado en Big Query!

MODELADO

#ClinicSEO @ikhuerta

3. Accediendo a ellos

en y/o

#ClinicSEO @ikhuerta

Los datos ya están en

Big Query

y pueden consultarse…

ACCESO(poder sacar el informe

que necesitemos)

#ClinicSEO @ikhuerta

ACCESO(poder sacar el informe

que necesitemos)

Pero esto es mucho más

sencillo de analizar

#ClinicSEO @ikhuerta

Welcome to

#ClinicSEO @ikhuerta

Antonio ya os ha presentado la

herramienta esta misma mañana…

@seoito

http://blog.ikhuerta.com/dashboards-profesionales-de-

google-analytics-con-google-datastudio

Y os añado un par de posts…

http://blog.ikhuerta.com/introduccion-a-google-

datastudio-los-dashboards-de-google

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

#ClinicSEO @ikhuerta

1. Seleccionamos Big

Query

2. Seleccionamos el

proyecto con los logs

3. Seleccionamos el

dataSet

4. Seleccionamos la

tabla con los logs

modelados

#ClinicSEO @ikhuerta

Debemos editar nuestros datos para poder crear los dashboards

#ClinicSEO @ikhuerta

1. Nombre del campo2. ID interno de data

studio (no se puede

editar luego)

3. Definición de la

Fórmula

#ClinicSEO @ikhuerta

CAMPO ¿QUÉ REPRESENTA? Fórmula en DataStudio

Hits Número de visitas del BOT COUNT(1)

URIs Visitadas Número de URIs únicas visitadas por el BOT COUNT_DISCTINCT(URI)

URIs (Sin parámetros)

VisitadasEliminando paramentros (Tras el ?) cuantas URIs

únicas visitadasCOUNT_DISTICNT(URI (sin parámetros) )

Hits por URINúmero de Hits en el periodo por cada URI

contempladaHits / URIs Visitadas

Hits por URI (sin parámetros)Número de Hits en el periodo por cada URI única

(sin parámetros) visitadaHits / URIs (sin parámetros) Visitadas

URI nivel 1 Primera carpeta/directorio de la URI REGEXP_EXTRACT(URI, '^/([^/]*)')

URI nivel 2 Segunda carpeta/directorio de la URI REGEXP_EXTRACT(URI, '^/[^/]+/([^/]*)')

Nuestra colección de Métricas y Dimensiones calculadas…

#ClinicSEO @ikhuerta

Ahora

ya podemos

crear nuestros

dashboards…

#ClinicSEO @ikhuerta

4. Creando dashboards de logs

en

#ClinicSEO @ikhuerta

CONSUMO(Visualizar la información

de forma comprensible)

“Dibujar” en Google Data

Studio es realmente

sencillo…

#ClinicSEO @ikhuerta

CONSUMO(Visualizar la información

de forma comprensible)

Pero lo realmente interesante es

“IR A BUSCAR LA INFORMACIÓN ACCIONABLE”

Eliminar Rastreos innecesarios

Entender tu crawl budget

Priorizar tus páginas

#ClinicSEO @ikhuerta

Eliminar Rastreos innecesarios

• Los 200 son correctos.

• Los 404 y 410 deben minimizarse (pero no

desaparecerán nunca)

• Los 302 y 301 deben ir eliminándose del rastreo

• Los 500, 501 y 502 son errores de servidor y

perdida de autoridad que no debería suceder

• Los 503 de forma temporal no hacen daño

• Los códigos inventandos (499, 599, etc.) nunca

deberían haber existido

Códigos de servidor

#ClinicSEO @ikhuerta

Eliminar Rastreos innecesarios

• Las visitas a la versión que redirige son perdidas

de rastreo, pero un resto siembre es inevitable.

• Incluso en sites en los que nunca ha existido

http, google valida ambas versiones de los

datos.

Protocolo

En los logs por defecto de servidor no se suele guardar el protocolo y

esto supone no saber que hits son a http o https

#ClinicSEO @ikhuerta

Eliminar Rastreos innecesarios

• Si tenemos varios dominios no

debemos confundir las visitas de bots

entre ellos

• Muchos sites reciben visitas en

dominios que no sabían que tenían

activos

Hots y Subdominios

El host es otro campo que muchos logs no incluyen de serie

#ClinicSEO @ikhuerta

Entender tu crawl budget

Normalmente mirábamos esta información en Google Search Console

#ClinicSEO @ikhuerta

Los picos son similares,

Pero Search Console normaliza mucho la información

Entender tu crawl budget

#ClinicSEO @ikhuerta

Por lo general GoogleBot realiza gran cantidad de hits

a URLs de gran autoridad y las que tienen pocos hits corren riegos

Entender tu crawl budget

• Más importante que los hits

son las URIs visitadas

• Y la cantidad de hits por URL

que realizan los robots

#ClinicSEO @ikhuerta

Priorizar tus páginas

• Crear una página

“buscadora de URLs” es

vital para encontrar

problemas y ver el

número de Hits de

cada URL

Filtros, para poder

escoger cuales ver

URIs con el número de

hits recibidos

#ClinicSEO @ikhuerta

Priorizar tus páginas

• Si además podemos

clasificarlas por

tipologías o carpetas, el

análisis resulta mucho

más fácil e intuitivo

#ClinicSEO @ikhuerta

BONUS : Esto es solo el principio…

1. ¿Montamos dashboards con datos de Logs, Google Search

Console y Analytics?

2. ¿Automatizamos la subida de logs a Google Big Query?

3. ¿Subimos a BigQuery datos de ScreamingForg, Analytics,

Sistrix y Semrush asociados a los logs?

#ClinicSEO @ikhuerta

Trabajar logs ya es

accesible a cualquiera,

sencillo de analizar

y prácticamente gratuito

#ClinicSEO @ikhuerta

Ikaue.com

@ikhuerta

[email protected]