fbpx

Crawl Budget, ¿Qué es?, ¿Cómo optimizarlo?

El Crawl Budget o presupuesto de rastreo se refiere a la cantidad de url´s de un sitio que Google revisa cada día. Aunque es un número que suele ser bastante estable varía un poco de una día a otro y se ve afectado por cosas como la calidad del sitio o los enlaces entrantes que tenga.

A diferencia de lo que puedes pensar, hay webs que Google no rastrea enteras en el mismo día, si esto llega a pasar,  puede que estés haciendo grandes esfuerzos por generar contenidos y que Google ni siquiera llegue a mostrarlos en su índice , es por eso que es un tema al que en algunos casos hay que prestarle atención.

¿Cómo funciona el rastreo?

El rastreo y la indexación son dos cosas diferentes, vamos a entender primero de qué forma funciona todo esto.

Lo primero que ocurre es que Googlebot adquiere una lista de url´s que va a rastrear en un sitio, después va a realizar comprobaciones periódicas de las mismas en las que verá su contenido y detectará nuevas url´s enlazadas en caso de haberlas que agregará a su lista de rastreo.

Este rastreo de URL´s puede producirse por muchos motivos, por ejemplo que Google las detecte en un Sitemap o que la estén enlazando dominios externos. Después del rastreo, indexará los contenidos que vea relevantes.

El problema se produce cuando el sitio web empieza a tener una cantidad de URL´s más grande y Google no llega a rastrearlas todas en un día porque no tiene asignado un presupuesto suficiente para ello. Además en ese rastreo pueden repetirse otras url´s importantes como el index, que consuman parte de ese presupuesto, haciendo todavía más complicado que el robot llegue a rastrear todo el sitio.

Si quieres comprobar el presupuesto de rastreo que Google asigna a una web, debes tenerla dada de alta en su herramienta gratuita Search Console y pulsar en “Estadísticas de rastreo” en el menú de la izquierda.

estadisticas rastreo search console

Ahí podrás ver las páginas que se rastrean al día y hacerte una idea de la media mensual.

¿Por qué existe el presupuesto de rastreo?

La respuesta es simple, Google necesita equipos informáticos para realizar el procesamiento de URL´s que va a indexar, y todo eso requiere un coste. Tienen que optimizar este proceso lo máximo posible para obtener la mayor rentabilidad.

¿Puedo saber qué URL´s ha rastreado Google?

Es posible saber las páginas que ha visitado el robot de Google, pero la única forma de hacerlo es mirando el archivo de logs del servidor. En este archivo se guardan todos los acceso que se realizan a un sitio web, desde qué dispositivo se hacen y a qué recurso llegan, pero leer ese archivo de manera manual es demasiado complicado, puedes ayudarte de algunas herramientas que sacan gráficas más sencillas como Screaming Frog Log Analyser.

Esos logs del servidor normalmente los podrás encontrar en una carpeta llamada “Logs” en tu hosting, si no está ahí, habla con tu proveedor de servicios, es una información a la que debes tener acceso.

¿Qué hacer para optimizar el presupuesto de rastreo?

Haz que tu sitio web cargue rápido

Es algo que ya todos sabemos. Los usuarios tienen prisa y quieren ver los contenidos cuanto antes, no están dispuestos a esperar mucho en la mayoría de los casos y por eso hay que tener una web que cargue lo más rápido posible, pero no es el único motivo. El robot de Google prefiere los sitios rápidos, que no le hacen perder el tiempo, por eso si tu web no le pone problemas, seguro que visita muchas más páginas de tu sitio en menor tiempo.

Optimiza el enlazado interno

Ya te hablé en otro artículo sobre el enlazado interno y de su importancia. Google llega a los contenidos a través de enlaces. Manipular los enlaces externos es algo más complicado o costoso, por eso procura que tus contenidos estén bien enlazados dentro de tu sitio para facilitar el trabajo de las arañas.

Ten una arquitectura web ordenada

También te hablé en otro artículo sobre la arquitectura web, otro aspecto fundamental. Cuanto más enrevesado sea un sitio, más problemas tendrá Google (y también el usuario), para navegar por el. Ponle las cosas fáciles.

No tengas contenidos duplicados

Si Google detecta que tienes varias páginas con los mismos contenidos, se va a dar cuenta de que está perdiendo el tiempo en tu sitio, evitalo a toda costa. Cuando me refiero a contenidos duplicados no hablo solo de copiar el mismo texto en varios sitios, sino de problemas que se pueden producir por ejemplo con filtros en ecommerce que se estén indexando y que den la misma respuesta en varias páginas.

Intenta evitar códigos de respuesta erróneos

Intenta que las páginas de tu sitio ofrezcan código 200, es decir, que estén disponibles, no hagas al robot perder el tiempo con errores 4xx o con redirecciones o cadenas de redirecciones.

Haz uso del robots para bloquear partes innecesarias

Si tienes claro que algunas partes de tu web no deben aparecer en Google, haz uso del robots.txt para bloquearlas y que las ignore. Eso hará que se pueda centrar en las partes que realmente tienen interés para ti.

Evita el thin content

Las páginas que no ofrecen una buena respuesta al usuario o que tienen un contenido de mala calidad, tampoco deben ser accesibles para Google, todo lo que sea hacerle perder el tiempo es perjudicial para nosotros.

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *