Hoy quiero hablarte del Crawl Budget, ese término que está de actualidad últimamente en sitios de referencia en SEO como el blog de Yoast o Search Engine Land. Y como ya es hora de que os cuente algo nuevo por mi blog, voy a aprovechar que el «Presupuesto de Rastreo» es algo que he tenido que aplicar en algunos proyectos recientes, para compartir mi experiencia personal, a la vez que te explico en qué consiste.
¿Qué es el Crawl Budget?
El «crawl budget» o «presupuesto de rastreo» (en inglés todo suena mejor), viene a ser el número máximo de páginas que los robots van a rastrear cada vez en tu sitio web. Como ya sabrás, los buscadores cuentan con unos programas para examinar páginas web en busca de nuevos contenidos que mostrar en sus resultados. Si no conoces o no recuerdas el proceso de rastreo, te recomiendo mi entrada sobre cómo funciona Google.
Esto nos interesa porque a mayor número de páginas de calidad rastreadas por Google, más posibilidades de aparecer en sus resultados de búsqueda.
Pero, ¿de qué depende el crawl budget?
¿De qué depende el crawl budget de un sitio web?
Como ya te imaginarás este elemento depende de la calidad de tu sitio web y de la autoridad que hayas adquirido, a través de la generación de contenido y de los enlaces o referencias desde otros portales. Pero veamos cómo se gestiona exactamente según nos han explicado recientemente en el blog para webmasters de Google.
Crawl Demand
El Crawl Budget depende directamente de 2 factores: Crawl Demand y Crawl rate limit. El Crawl Demand viene a ser cuánto desea Google rastrear tu web, es decir, con que frecuencia le gustaría poder acceder a tu web para encontrar contenidos nuevos. Está basado en la autoridad del sitio web y en la frescura del contenido que tiene ya indexado. La autoridad te la ganas teniendo un sitio web muy popular (que sea enlazado desde otros sitios de calidad, que tenga movimiento en redes sociales…etc.). Con respecto a la frescura, ya sabes que Google quiere mostrar en sus resultados el contenido más novedoso, por lo que si entiende que ya lo tiene indexado puede estar «desactualizado», intentará comprobar si tienes algo nuevo para él.
Crawl Rate Limit
El Crawl Rate Limit, es el límite de páginas a rastrear según el rendimiento de los servidores. Google no quiere rastrear en exceso un mismo sitio web porque podría sobrecargar el servidor donde está alojado (imagino que tampoco quiere sobrecargar sus propios servidores con la entrada de gran cantidad de nuevos contenidos). Ten en cuenta que por cada página que se va a rastrear, Googlebot crea un proceso que a su vez abre una conexión con el servidor donde está alojada. Por lo que por cada página genera un proceso haciendo una petición a tu servidor, y todo esto lo hace de manera paralela, es decir, simultáneamente.
El Crawl Rate Limit también dicta el tiempo que pasará desde una operación de rastreo hasta la siguiente.
¿Cómo afecta todo esto a mi sitio?
Estarás pensando: «Pero bueno Luis, ¿esto que quiere decir en términos de posicionamiento SEO?» Pues básicamente quiere decir que debes procurar que Google aproveche bien el «presupuesto» que tiene para tu site. Es decir, debes facilitarle las cosas en términos de calidad, optimizando tu web. Ahí van algunos consejos:
- Genera contenido de calidad, evitando crear páginas innecesarias que no aporten ningún valor añadido.
- Evita el uso de parámetros para navegación (ej. para distinguir productos por color, precio…etc.) que generan gran cantidad de URLs.
- Reduce al máximo los errores 404. Si los buscadores aterrizan en una URL que genera un error 404 perderás «puntos», porque malgastaras esa URL rastreada.
- Asegúrate de no generar contenido duplicado. Si Google encuentra diferentes URLs para acceder al mismo contenido, será Google quien decida qué URL colocar en rankings, lo cuál no nos interesa.
- Evita la competencia entre tus propias páginas. Aunque no tengas contenido duplicado, es posible que hayas creado páginas internas redundantes que vienen a mostrar la misma información y sin darte cuenta están pugnando por aparecer para las mismas keywords.
- Optimiza la estructura de tu sitio web. Una arquitectura web de calidad facilitará la labor de rastreo y logrará dar a cada sección, la relevancia que se merece.
¿Cómo se puede aumentar el Crawl Budget?
No tenemos poder de decisión sobre el Crawl Budget, tan solo podemos seguir las indicaciones anteriores para asegurarnos de conseguir el máximo. Podemos influir directamente sobre los 2 elementos en los que se basa.
-
El Crawl Rate Limit
Puede aumentar si el rendimiento del servidor donde está alojado es bueno y es capaz de responder rápidamente a las peticiones (lógicamente en caso contrario disminuiría).
También se puede variar a través de Search Console (en Configuración del sitio > Frecuencia de rastreo), pero esta opción está más enfocada a reducir la frecuencia de rastreo por si te está sobrecargando el servidor. Es decir, si lo intentas ampliar no conseguirás mayor presupuesto de rastreo.
-
El Crawl Demand
Aumenta si hay un cambio en todo el sitio web porque necesitará refrescar todas las URLs. Por ejemplo si cambias de dominio es posible que el Crawl Demand se dispare, ansioso por descubrir todas tus URLs nuevas 🙂
Casos prácticos
Como te decía al principio del artículo, recientemente he aplicado este concepto en varias ocasiones, optimizando sitios web en base al Crawl Budget. ¡Voy al grano!
Caso 1
Web Corporativa, con buena autoridad adquirida a lo largo de los años pero muchas páginas de una extenso catálogo de servicios. Algunas de estas páginas eran muy repetitivas y no aportaban valor añadido sobre otras muy similares. En realidad estas páginas se habían creado «sobreoptimizando» para intentar conseguir más tráfico.
Solución: Eliminar las páginas repetitivas y actualizar los contenidos de las que se mantenían.
Resultado: Casi el doble de clics a través del buscador (sin conseguir nuevos enlaces y siendo el mes que menos contenidos se publicaron en el blog)
Caso 2
Tienda online, con menos autoridad (un proyecto más nuevo) y gran cantidad de URLs duplicadas entre sí por las mismas keywords. Ten en cuenta que lo óptimo es que la misma página aparezca en Google para diferentes búsquedas, pero no diferentes páginas para la misma búsqueda. Si es así, es que has definido o estructurado mal el contenido de tu sitio web.
Solución: Reestructurar el sitio web, eliminando las páginas web repetitivas.
Resultado: Aumento de clics, mejora notable de posiciones para las palabras clave implicadas en el problema indicado.
Conclusión: Si tienes un sitio muy grande, compuesto por muchas páginas, asegúrate de que el rastreo de tu sitio es óptimo para buscadores.
¿Cómo hacer que Google indexe mi sitio web?
La preocupación de todo Webmaster es ver cuanto antes su página en Google: ¿Por qué mi página no aparece? ¿Es que aún no ha sido indexada por Google?
Bien, si tu web es nueva y quieres que Google la tenga en sus índices, puedes solicitarlo a Googlebot en Google Search Console. Está en Rastreo > Explorar como Google, y puedes añadir las URLs concretas que quieres que rastree (Obtener y Procesar). Puedes solicitar la indexación de solo una URL, o bien de la URL y todos sus enlaces, es decir, todas las páginas a las que puede acceder el usuario de tu sitio web. Tendrás un límite que dependerá de los factores que te indicaba anteriormente.
¿Cómo saber cómo Google Crawlea mi sitio?
Google también te ofrece estadísticas de rastreo en Search Console, para que puedas saber con qué frecuencia rastrea tu sitio, cuántos bytes se descarga y el tiempo que tarda en descargárselos. Un indicador importante de la actividad de los robots de rastreo con tu página, así como del rendimiento de la misma en relación a Google. Si algo falla en el servidor y el tiempo de descarga aumenta, las páginas rastreadas se reducirán enormemente. Esta información puede sernos de gran utilidad, pero podemos conseguir ahondar mucho más si combinamos Google Analytics con un poco de programación PHP. ¿Cómo? Pues gracias al Lino Uruñuela, que es un maestro monitorizando la actividad de Googlebot en su site y nos lo cuenta en el artículo del enlace. Si sigues los pasos que explica en su artículo, podrás llegar a conocer información tan importante como:
- Qué robots están accediendo a tu web (no sólo Googlebot sino también el bot de Bing….etc.).
- Cuándo acceden concretamente.
- URLs más frecuentadas por cada robot.
- Cuánto presupuesto de rastreo pierden en URLs sin importancia como paginaciones o URLs con parámetros.
- Cuántos accesos hacen a páginas con error 404.
- Qué URLs no se han vuelto a acceder por parte de los usuarios.
En definitiva, una manera de obtener toda la información que necesitas de la actividad de los robots en tu sitio web para optimizar nivel PRO.
Hola Luis,
Muy interesante. No sabía que los robots de búsqueda establecían límites en cuanto a la cantidad de páginas que rastreaban, pensaba que lo indexaban todo continuamente, sin límite alguno. Una buena razón para evitar duplicar información. ¡Un saludo!
Hola Leo!
Gracias por comentar. Sí, así es, este tema es especialmente interesante para aquellos que tienen un sitio web compuesto por una gran cantidad de páginas (ej. una tienda online, un blog con una gran cantidad de entradas…etc.). Por eso debemos evitar la creación de páginas redundantes o duplicadas, para asegurarnos de que rastrean las que nos interesan 😉
Un saludo!
Muy buenas! me ha gustado el artículo, no soy muy de comentar pero hoy me lo salto jeje! Enhorabuena por este blog
Hola! Muchas gracias por tus comentarios, me alegro mucho que de haya gustado el artículo y te hayas animado a comentar. Cualquier cosa que pueda ayudarte, encantado 😉
Hola Luis
De tu post deduzco que una manera de aumentar el crawl budget es optimizar nuestra web y la experiencia de usuario
¿Es así?
Saludos
Hola Luis,
Acabo de conocer tu página, vengo del artículo de la search console, que tengo un cacao con ella, y luego he llegado a este. No tenía ni idea de lo del budget! Los artículos son muy claros y están muy bien explicados. Gracias! 🙂
Voy de nuevo a pelearme con la search console.
Saludos
Muchas gracias Luisa. Me alegro de que te estén sirviendo los artículos 🙂
Suerte con la configuración de Search Console.
Un saludo