¿Qué es el Crawl Budget o presupuesto de rastreo de Google?

optimizar wordpress que es el crawl budget

Las páginas en Google no están ahí por arte de magia. Es gracias a que el ejercito de servidores que tiene Google para rastrear páginas webs existe. Uno de esos servidores se pasará por tu web a ver si hay contenido nuevo cada “X “tiempo y estará dentro analizándola durante “Z” tiempo. Ese tiempo de estancia en tu web se llama Crawl Budget (Presupuesto de rastreo en castellano). Google determinará cuanto tiempo debe estar en tu web, que después de la tuya tiene que indexar otra, y otra, y otra y así sin parar durante las 24 horas del día.

Cuanto más Crawl Budget te asigne Google mejor. Eso es un indicio de que considera tu web importante y con contenido relevante. Existen técnicas que fomentan la majora o aumento del tiempo que destina Google a tu web y te las explico más detalladamente ahora.

Como aumentar o mejor el Crawl Budget de Google

Mejora el tiempo de respuesta de la web

Cuanto más rápido cargue tu web, más aprovecharás el presupuesto de Google. Y Google, cuanto más rápido ve que carga tu web más presupuesto te destina. Es como la pescadilla que se muerde la cola. Pero es así. Imagina, me lo invento, que Google destina 10 segundos a tu web al día. Si tu web tarda en cargar 5 segundos, son 5 segundos que has perdido de rastreo y la posibilidad de indexar más páginas en Google. Si optimizas tu web (Por ejemplo, optimizando la base de datos) a 1 segundo, son 9 los que destinará Google a tu web.

Es más, como has conseguido que Google pueda ver más contenido en el mismo tiempo, lograrás que descubra más contenido y si le parece interesante más Crawl Budget te asignará. Por eso es muy importante optimizar la carga de WordPress o de tu web en general. ¿Me doy a entender ahora mejor?.

Crea más contenido de calidad con mayor frecuencia de publicación

Si haciendo lo que te he comentado antes a Google le puedes parecer mas interesante, si además creas contenido extenso, de calidad e interesante Google ampliará aún más tiempo el rato que le dedica a tu web. No es lo mismo crear 2-3 post al mes que 2 a la semana. El fressnesh (tiempo de refresco o intervalo de refresco) que empleas a tu web será recompensado por Google.

Al fin y al cabo Google no es malo, quiere indexar cuanto más contenido de calidad mejor para dar respuesta a las preguntas de los usuarios y de cuantas más fuentes se nutra mucho mejor. Por eso es muy importante mejorar el tiempo de respuesta y crear un entrelazado interno.

Mejorar el interlinking o enlazado interno

No dejes que Google solo te indexe por el Sitemap.xml, que es lo suyo, pero está mucho mejor crear un entramado o enlazado interno de enlaces que haga a Google llegar a todos los contenidos. Así además le estás diciendo a Google que páginas consideras tú más importantes.

Si la página, me lo invento, de ‘Quienes somos’ es la que más enlaces internos recibe da señales de que esa es quizá la página más importante de tu web y es a la que mayor Crawl Budget debería asignar.

Consigue enlaces en otras páginas webs

Cuanto más logres que te enlacen, más veces le saldrás a los crawlers (arañas) de Google en esos artículos, por lo que te va a considerar potencialmente más importante que web a las que nadie las enlaza. No te digo que compres enlaces, estos enlaces llegarán solos debido a tu contenido de calidad y seguro que alguien te referencia.

Elimina los errores 4XX o 5XX

Si hay algo que no le gusta a los crawlers de Google es perder el tiempo en seguir enlaces que no existen o que han dejado de funcionar. Te recomiendo iniciar una auditoria en tu WordPress para localizar enlaces a otras páginas internas o externas que no funcionen o que no existan. esto te repercutirá negativamente a la larga si se siguiese produciendo. Es un factor clave.

Te dejo una guía sobre los errores 500 y 400 muy completa.

Trabaja el archivo robots.txt

Existe un archivo especial en nuestro WordPress que es el punto de referencia para todos los crawlers, sean los de Google o sean los de otros crawlers como los de Bing. La idea de este archivo es que sea lo primero que tienen que ver los crawlers para que respeten aquellas páginas que le especificamos que indexen y cuales no queremos indexar. Pero muchas veces no hacen ni caso e indexan igualmente el contenido.

LEER: Guía de como optimizar robots.txt.

Añade el archivo sitemaps.xml al robots.txt

Añadir la dirección de donde se encuentra nuestro sitemap.xml en el robots.txt ayudará a los crawlers a encontrar de forma más óptima el contenido de la web. Si tu le facilitas las cosas a Google, este te premiará con más tiempo de rastreo.

Solucionar los errores de PageSpeed

Si trabajas y solucionas los problemas que detecta Google en tu web la puntuación será mayor y Google te asignará mayor crawl budget. A continuación te dejo una hiper guía con los posibles errores de PageSpeed y como solucionarlos.

GUÍA: Solucionar errores de PageSpeed 

Como trackear o seguir el Crawl Budget que nos asigna Google

Por suerte podemos saber en todo momento las frecuencias o estadísticas de Google en su herramienta para para administradores de páginas webs llamada Google Search Console. Es una herramienta gratuita, propia de Google y es la manera de “hablar” o “comunicarse” (Digo hablar porque es a través de la herramienta donde te notifican si algo va mal en tu web) con Google.

Saber con que frecuencia accede Google

Probablemente no hayas dado alta nunca tu sitio en Google Search Console, para hacer esto debes loguearte con una cuenta de Google (Preferiblemente con la misma que usas Analytics y demás servicios del motor de búsqueda) y dar de alta tu sitio web. Este tutorial no está orientado a como crear una cuenta en Google Search Console sino que se da por supuesto que ya sabes hacerlo.

Para conocer las estadísticas o frecuencia del Crawl Budget de Google, dentro de la propiedad de tu sitio web, accede a:

crawl budget seccion rastreo

En la nueva ventana verás unas gráficas que te enseñaré que significan a continuación. Son las estadísticas de rastreo de Google y te indican cuantas veces pasa al día, los kb’s de descarga que le ha supuesto y el tiempo que le ha tomado descargarlas. Te las enseño. Por ejemplo, para un proyecto que esoty empezando, estas son las estadísticas:

Crawl Budget cantidad de páginas rastreadas al día

Aquí se pueden apreciar tres valores; alto, normal y bajo. Lo que realmente nos interesa es conocer el normal pues es la media de veces que pasa Google por nuestro sitio al día. Como puedes ver, pasa 16 veces de media. No se trata de un sitio web muy grande, de hecho es pequeño y aún está en fase de construcción. Lo que si resalta, y mucho, es ese pico de 724 veces por día ¿Cómo puede pasar eso?

Resulta que el día anterior fue cuando mandé a Google a indexar mi web, entonces Google vino con un ejercito de crawlers por si la web fuera muy grande y vio que no es nada grande y solo me destina 16 páginas al día. Por eso, en función de la cantidad de contenido y tips que te dejé más arriba esta gráfica irá aumentando de por sí. La siguiente gráfica es la de kb’s que ha procesado en total al día de las 16 veces de media que ha entrado:

Crawl Budget cantidad de kilobytes descargados al día

En esta gráfica se observa que va de la mano con la anterior. Cuantas más páginas visite el robot, más cantidad de información va a procesar o descargar. No tiene porque ser proporcional, de hecho la idea es que visite la mayor páginas posibles con el menor peso posible. Y por último, este es el tiempo que ha tardado en procesar la información:

Crawl Budget milisegundos empleados en descargar la información

Conclusiones de mejorar el robots.txt

Si desde un principio dejas claro que es lo que te interesa que los motores de búsqueda sepan de tu contenido, será mucho mejor que dejar que ellos lo averigüen. Si haces esto último, el tiempo que dedica Google a analizar nuestra web se verá mermado y es posible que el crawler nunca llegue a la página que más te interesa rastrear. En las gráficas se puede ver como evoluciona el comportamiento, en este caso el Crawler de Google, con el paso del tiempo en una web.