para que no sirve la cache de google
Para qué NO sirve la caché de Google en SEO

Un artículo para desmitificar clásicos inamovibles en las auditorías SEO, que normalmente no se tienen en consideración.

Lo más normal es que un SEO tome la caché de Google cómo una realidad inamovible del contenido que está obteniendo Google sobre nuestra web para algunas preguntas:

  • Google ha crawleado ya mi dominio? 
  • Google es capaz de renderizar mi contenido en JS?
  • Este es el contenido que Google lee sobre mi URL?

cache google SEO

 

Todo esto tiene su fundamento, de hecho en las Search Help de Google, podemos encontrar:

search help cache google

Sin embargo, mi objetivo con este post, es demostraros “por qué” esto no es cierto . Muy poco de lo que nos aparece en una captura de la caché de Google, es confiable o suficientemente útil cómo para auditar en base a ello.

Permitidme que antes de desmontar los puntos de la caché de Google, nos tomemos un breve momento para identificar estos elementos:

captura de caché de Google

 

 

URL consultada en la caché de Google

Es muy habitual no darse cuenta de esto, pero a la vez suele ocurrir que Google no nos devuelva la URL que hemos consultado en su caché cómo resultado.

Google cachea únicamente las URLs “indexables”. ¿Qué URLs no cachea Google?:

  • URLs con la tag robots en “noindex”
  • Redirecciones a otra URL
  • URLs con Canonicals hacia otras URLs
  • URLs Soft 404
  • Contenidos duplicados

cache google URL

 

Loleando con Screaming frog a Vodafone (yo en mi caso, pero vosotros podéis probar cualquier web), he encontrado varias URLs con un canonical no auto-referido. La URL era:

  • https://www.vodafone.es/conocenos/es/test-velocidad-adsl-fibra/

que cuenta con un canonical hacia:

  • https://www.vodafone.es/conocenos/es/test-velocidad-adsl/

 

De haber usado para la demostración una URL que Google considerara cómo soft 404 el resultado habría encontrarme con una URL que no devuelve resultado, lo cual se podría interpretar cómo consecuencia de que Google aún no ha indexado ese contenido, y sería un error:

soft 404 cache

El snapshot de la Caché de Google

 

cache google angular

Google sólo cachea el código HTML de una página, no el DOM resultante al finalizar todos los User events y terminar de ejecutarse todo el Javascript. Sólo en el difícil caso de que la URL se ejecute completamente con HTML, veremos un reflejo entero de la URL tal cual la leería Google. Sin embargo, si estás trabajando bajo una web construida en Angular u otro Framework basado en Javascript, lo que encontrarás en este Snapshot no tiene nada que ver con la realidad. De ser así, te recomiendo que te leas mi guía de SEO para Angular para aportarte algo de luz :)El resumen de por qué pasa esto es simple:

 

El sistema de enrutado de Angular JS en HTML5 (pushState), se basa en que la URL realice la petición en AJAX para servir el contenido de cada URL.

Así que cuando accedemos a la URL de la caché de Google (http://webcache.googleusercontent.com/search?q=cache%3Aohlibro.com&oq=cache%3Aohli&aqs=chrome.2.69i57j69i58j69i59j69i60.3247j0j1&sourceid=chrome&ie=UTF-8) la URL no es la misma y no es capaz de ejecutar la llamada en AJAX. Sin embargo esto no significa que Google no sea capaz de renderizar y leer el contenido de la URL.

 

Este sería el resultado real que obtendríamos a través de la herramienta de Fetch & Render de Google:

fetch and render

Cómo podemos ver, Google es capaz de renderizar y leer completamente el contenido de esta URL.

Para verificar si realmente Google puede comprender el contenido de nuestra URL, deberemos utilizar la herramienta de Fetch&Render de Google para asegurarnos de que no obtenemos falsos positivos.

 

Fecha de la captura

timestamp cache

El dato de cuando ha sido la última vez que Google ha crawleado nuestra URL sin duda es crítico para descartar incidencias cuando vemos que una URL por ejemplo no ha indexado o no se posiciona, pero… ya lo siento, no podemos saber la última fecha de crawleo de una URL con la caché: la fecha de inclusión en la caché puede ser diferente de la última vez que se crawleo esa URL. 

Además, por ejemplo, si quisiéramos obtener datos de cuando Google ha encontrado una Redirección o una regla de canonicals, no podríamos obtenerlo mediante este medio.

Para obtener esta información, debemos utilizar los Logs del servidor; este dato sí que nos servirá para saber cuando ha crawleado exactamente Google nuestras páginas. El procedimiento para analyzar los logs no es demasiado complejo y podemos utilizar nuestro amado Screaming Frog para ello; os dejo por aquí un tutorial en vídeo!

 

 

Espero que os haya servido para aprender algo 🙂 La verdad es que últimamente he tenido bastantes encontronazos con las cachés de Google, la madre de las renderizaciones y amigos de Angular… así que sin más, aprovechaba para compartiros conclusiones que he encontrado y pruebas que he ido haciendo!