View
1.117
Download
5
Category
Preview:
Citation preview
SEO, Logs y Big Data 24/06/2016 → By Lino Uruñuela
¿Qué son los logs?
Información que guarda nuestro servidor de cualquier interacción que se realiza en él.
¿Dónde y cómo se guardan?● Se guardan en ficheros .tar.gz● Se suelen borrar cada X días● Pregúntale a tu proveedor de hosting cómo obtenerlos● Pideselo a tus técnicos
¿Qué información nos ofrecen?
CLF → Formato común de registro● Ip del cliente● “-” Id cliente máquina● Id del usuario● Fecha → fecha y hora de cuando el servidor recibió esa petición● Método, url, protocolo -> “Get url HTTP/1.0”● Código de estado → 200 (correcto), 40x (error del cliente), 30x
(redirección), 50x (error del servidor)● Tamaño
Formato de registro combinado● Referer → url de referencia● User Agent → Navegador, sistema operativo, Googlebot, Bingbot
Ejemplo de log
¿Por qué son importantes?
● Cuándo → ○ Sin tener en cuenta las fechas los datos pierden valor
● ¿Dónde? →○ La url de nuestro site, o un grupo de urls (mediante regex)
● ¿Desde? →○ Puede ser un buscador, como este ejemplo.○ Puede ser otro dominio, enlace desde otro site (referencia)○ Puede ir en blanco, normalmente bots
¿Por qué son importantes?
● ¿Quién? →
○ Nos interesan solamente tres:
■ contienen “GoogleBot” o el bot que quieras
■ Usuarios normales
● No lo llevan vacío● No contiene “bot” (muchas posibilidades)
Y además, tiene referer no vació
¿Por qué son importantes?
● Estado →
○ Es uno de los campos por los que “pivotaremos” todos nuestros logs
○ Nos dice que URLs son
● Errores● Redirecciones● Correctas
Filtrando datos para darle valor
Urls 200 ok● ¿Quién? → Googlebot● ¿Cuándo? → 1 mes● ¿Dónde? → grupo Urls● ¿Status? -> 200
Urls con 200 rastreadas por Google, también Hits
Urls error 410 ● ¿Quién? → Googlebot● ¿Cuándo? → 1 mes● ¿Dónde? → grupo Urls● ¿Status? -> 410
Páginas con error “para siempre” rastreadas por Google
Si segmentamos los datos por grupo de urls podemos analizar todo lo anterior por tipo de plantilla/página, por ejemplo sobre:
● Filtro o sección del site (filtro por tipo de producto,etc)● Paginaciones● Parámetros
Segmentando datos por URL
Segmentando errores 410
¿Segmento que genera errores 410?
Segmentando urls con 200
Filtrando datos para darle valor
Urls redirección 301● ¿Quién? → Googlebot● ¿Cuándo? → 1 mes● ¿Dónde? → grupo Urls● ¿Status? -> 301
URLs con redirección que rastrea Google
Urls error 404 ● ¿Quién? → Googlebot● ¿Cuándo? → 1 mes● ¿Dónde? → grupo Urls● ¿Status? -> 404
Urls que da error
URLs 301
Urls y Segmentando datos
● Las gráficas nos muestran una “foto” o línea del tiempo de ese momentoNos sirven para ver la evolución.
● Hay información muy útil que no te lo muestra una gráfica○ Urls con redirección a urls 404 → hay que saber las urls ,no una gráfica○ Urls que hacen dobles, triples, n redirecciones
● Para profundizar en las causas es indispensable poder analizar qué urls exactamente forman cada grupo del gráfico.
● Estas urls hay que ordenarlas de alguna manera para asignar prioridad a cada url
Urls y Segmentando datos
El cómo ordenemos estos datos es vital para su análisis
● Podemos ordenar por accesos del bot o usuarios.● Podemos cruzarlos con datos de analytics!
Cruzando datos con Analytics
Al ordenar los datos en base a tráfico orgánico
● Obtenemos una rápida priorización mediante el dato estrella en SEO● Filtrando campos y cruzando datos podemos obtener datos de gran
relevancia
Cruzando datos con Analytics
Por ejemplo urls que dan 404 por Googlebot y recibían tráfico orgánico
● Podemos ver las urls que dan 404 y ordenarlas por visitas que recibían● Podemos obtener la última vez que dio un status correcto (200) y visitas
○ Han existido anteriormente si hay fecha○ No existieron nunca => posible error técnico o de enlazado
Redirecciones 301 con visitas
Superponiendo tráfico y Logs
Superponiendo tráfico y Logs
Backlinks
●¿Cuándo? → Vamos a obtener la última fecha de acceso
●¿Desde? → ¿quién nos enlaza?
○ Red social → Si el referer contien Facebook, Twitter, etc○ Buscador → Si contiene Google, Bing, etc○ Otra página web → si no es red social ni buscador => Enlace externo
● Status → ¿Que tipo de urls queremos ver?
○ 200 → (enlaces correctos)○ 302 → (enlaces con redirección que no valorará Google)○ 40x → Enlaces a urls de error, conviene arreglarlas!
Backlinks a urls con 404
●¿Cuándo? → Último mes
●¿Desde? → ¿quién nos enlaza?
○ Red social → Si el referer contien Facebook, Twitter, etc○ Buscador → Si contiene Google, Bing, etc○ Otra página web → si no es red social ni buscador => Enlace externo
● Status → ¿Que tipo de urls queremos ver?
○ 200 → (enlaces correctos)○ 302 → (enlaces con redirección que no valorará Google)○ 404→ Enlaces a urls de error, conviene arreglarlas!
Backlinks a urls con 404● ¿Cuándo? → 1 mes● ¿Desde? → Otra página web
● ¿Status? -> 404
Ordenándolo por el número de accesos que recibe de usuarios
También podríamos ordenarlo por número de veces que GoogleBot accede a esa url, de esta manera nos priorizará mejor las urls que reciben enlaces y dan 404
Similitudes y diferencias con GSC
● Cuenta todos (200, 404,410,30x)
● Solo 200
Similitudes y diferencias con GSC● Algunos ejemplos de usos que no te da GSC
○ Status 200■ Cuántas y que urls rastrea todos los días → Importancia de Google■ Cuántas y qué urls que dan 200 pero nunca han tenido tráfico orgánico
○ Redirecciones 30x■ Redirecciones 302 antes con visitas→ ¿Son correctas o error?■ Redirecciones a urls con error 404 o 410■ URls con redirección 301 rastreadas → muy bueno para migraciones
○ Errores 4xx (las urls podrías sacarlas de GSC y luego darle la lógica)■ URLs que dan error a Google■ URls que dan error y antes daban 200■ Urls que dan error y antes tenían visitas → muy útil en megawebs
Similitudes y diferencias con GSC
● Backlinks
○ Status 200 → enlaces entrantes correctos■ Enlaces que además nos aportan tráfico■ Importancia para Google de ese link → cuántos más accesos del
bot a esa url más importante es la url de origen
○ Redirecciones 30x■ Backlinks a urls con 302 → desperdiciamos page Rank■ Backlinks a urls con Dobles, triples, redirecciones
○ Errores 4xx■ Backlinks a urls que dan error a Google■ Backlinks a urls que dan error y antes tenían visitas
Similitudes y diferencias con GSC● Infinidad de cosas
○ Comparaciones■ tráfico orgánico Vs Nº urls rastreadas (ratio eficiencia)■ Comparar cada día con la media para alertas automáticas
○ Redirecciones 30x■ Nuevas redirecciones encontradas■ Redirecciones creadas por bots
○ Errores 4xx■ Cuando comenzó una url a dar error o cuando dejó de darlo■ URLs con errores ya corregidas (tienen fecha último 200 posterior a
último 404)
Similitudes y diferencias con GSC
Cruzando datos con Analytics
Gracias!!
Seo, Logs y Big Data 24/06/2016 → By Lino Uruñuela (Seonthebeach 2016)
Recommended