Contenidos
Lo que hacen las arañas webs también conocidas por su nombre en inglés, crawler, es escanear todos los sitios que hay en internet, conectando a través de su contenido y sus enlaces unos con otros, para hacer un mapa de todo el contenido que hay en internet y poder listarlo posteriormente en los motores de búsqueda como Google .
Estas arañas están en constante funcionamiento y van revisando los sitios que ya conocen en busca de nuevos enlaces, cuando los encuentran los añaden a una cola para visitarlos posteriormente y a su vez cuando visitan esos, hacen lo mismo con los enlaces nuevos que tengan.
Cuando estas arañas encuentran páginas que pueden ser relevantes en un momento dado, las indexan dentro de sus resultados para que los usuarios puedan encontrarlas. La posición en la que Google coloque esas páginas ya depende mucho de otros factores de los que hablo en muchos otros artículos de esta web.
La frecuencia con la que Googlebot accede a los sitios para ver novedades en ellos depende también de varios factores como su Pagerank, su arquitectura, velocidad de carga, etc… Es por eso que en sitios muy grandes con muchas URL´s, optimizar los tiempos de carga puede resultar un factor bastante importante para mejorar el posicionamiento.
Aunque estas reglas no se cumplen siempre por ley, es cierto que en la mayoría de las ocasiones los crawlers acceden en primer lugar al archivo robots.txt de un sitio para saber a qué lugares tienen acceso o no. Hay ocasiones en las que si queremos limitar de manera estricta accesos, tenemos que usar el fichero .htaccess.
¿Por qué es tan importante el crawleo de sitios?
En primer lugar, Google quiere mostrar resultados de sitios que carguen rápido porque piensa en la experiencia de sus usuarios. A nadie le gusta pulsar en un contenido y que tarde varios segundos en cargar, todo esperamos resultados lo más inmediatos posibles.
Lo segundo es que Google necesita gastar recursos para rastrear las webs, y esos recursos son ordenadores que valen dinero, electricidad que vale dinero, y como comprenderás no les gusta mucho gastar dinero en sitios que cargan muy lento.
Por estos y otros motivos, es muy importante que la velocidad de nuestras webs sea lo más rápida posible.
Enlazado interno, externo y páginas con error y redirección
Cuando tenemos páginas con error en nuestra web, por ejemplo el típico 404, o enlaces internos que apuntan a redirecciones, estamos haciendo también trabajar al crawler más de la cuenta. Tenemos que intentar localizar las páginas de este tipo que hay en nuestro sitio y arreglarlas lo antes posible. Hay algunas herramientas como Screaming Frog que nos ayudan mucho en esa tarea.
Los enlaces son otro punto a tener en cuenta en nuestra estrategia para facilitar el trabajo al crawler. Debemos enlazar nuestro contenido interno con sentido, para que las arañas puedan llegar a todas las páginas de manera sencilla. La arquitectura web es importante, sobre todo cuanto más crecen los sitios, pero si ya tienes previsión de que una web va a ser grande, debes plantearla antes de empezar para ahorrar un trabajo posterior innecesario.
El enlazado externo por supuesto también va a ayudar al robot a saber que estamos presentes y hará nuestras páginas más relevantes de cara al buscador.
Hay muchas cosas importantes que se pueden hablar sobre las arañas web, he intentado exponer las que me parecían imprescindibles, pero si crees que hay que añadir algo más o te ha quedado alguna duda que quieres que debatamos, estaré encantado de hacerlo más abajo, en los comentarios.
0 comentarios