Robots.txt ¿Qué es?, ¿Cómo crearlo?

Contenidos

1 ¿Cómo crear un archivo robots.txt?
2 ¿Qué diferencia hay entre robots.txt y la etiqueta noindex?
3 Otros datos sobre el robots

El archivo robots.txt sirve para que le podamos decir a Google qué páginas de nuestro sitio tiene que ignorar, es decir, las partes concretas de nuestra web que no queremos que añada a su índice.

Hay muchos casos en los que un robots.txt no es ni siquiera necesario, porque todo lo que tenemos en el sitio es contenido indexable, pero hay otras ocasiones en que los sitios webs tienen partes que no son relevantes para un motor de búsqueda, como por ejemplo una página de login o un carrito de la compra, y también momentos en que nos encontramos con problemas de presupuesto de rastreo y queremos optimizar nuestro sitio al máximo evitando al buscador perder el tiempo y ahí es cuando entra en juego el robots.

¿Cómo crear un archivo robots.txt?

Técnicamente es muy sencillo, es solamente un archivo de texto y puedes crearlo desde cualquier editor, el mismo notepad sirve. Una vez que lo tengas tendrás que seguir una sintaxis para que las arañas lo comprendan, pero no te preocupes es muy sencillo.

User-agent: XXX
Disallow: XXX

Donde User agent estamos haciendo alusión al robot que queremos bloquear el acceso, y en disallow lo que indicamos es el sitio al que no queremos que acceda.

User-agent: *
Disallow: /politica-de-privacidad/

En ese ejemplo le estaríamos diciendo que ningún robot pueda acceder a esas páginas legales.

Cuando tengas listo el archivo, lo mejor es que lo pongas en el raíz de tu web, y el nombre del archivo debe estar en minúscula:

https://tuweb.com/robots.txt

Debes tratar este archivo con cuidado, si te equivocas en algo, puedes desindexar zonas completas de la web que sean importantes o incluso el sitio completo. Google te ofrece un probador: https://www.google.com/webmasters/tools/robots-testing-tool.

¿Qué diferencia hay entre robots.txt y la etiqueta noindex?

Cuando bloqueamos por robots, no estamos gastando presupuesto de rastreo, el robot no pierde tiempo en esas páginas de nuestra web. También puede que queramos por ejemplo evitar el acceso a áreas enteras del sitio y sea más cómodo hacerlo así.

El noindex si que consumirá recursos, porque Google tendrá que entrar a comprobar el contenido y ver que no tiene que indexarlo. Ten en cuenta algo, y es que si bloqueas algo por robots, Google no lo leerá, por lo tanto si por ejemplo bloqueas un contenido que recibe muchos enlaces externos, aunque hayas puesto también la etiqueta noindex en el código, Google no la leerá porque le hemos indicado que no lo haga en el robots. Es un concepto que puede resultar un poco confuso, pero simplemente tienes que entender que el robots tiene prioridad, y si bloqueamos algo en el, Google ya ni siquiera entrará a leer ese archivo.

Otros datos sobre el robots

Otra cosa que suele hacerse en el robots es indicar la ubicación del Sitemap mediante el comando:

Sitemap: https://tuweb.com/sitemap.xml

Si quieres escribir comentarios en el archivo y que sean ignorados por el crawler, puedes hacerlo poniendo delante una (#) almohadilla en esa línea. Puedes ponerte todo lo creativo que quieras, te dejo el ejemplo del robots de pccomponentes:

https://www.pccomponentes.com/robots.txt

0 comentarios

Enviar un comentario Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Comentario

Nombre *

Correo electrónico *

Web

Sí, agrégame a tu lista de correos

Al usar este formulario accedes al almacenamiento y gestión de tus datos por parte de esta web.

Responsable: Guillermo del Pino Hernández. Finalidad: Gestión y moderación de comentarios. Legitimación: Consentimiento del interesado. Destinatarios: Proveedor de hosting de la web en EU, Banahosting, cuyos niveles de protección son adecuados según Comisión de la UE. Ver política de privacidad de Banahosting. Derechos: acceder, rectificar, limitar y suprimir tus datos. Si no introduces los datos de carácter personal que aparecen en el formulario como obligatorios no podré atender tu solicitud. Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en guillermodelpinoweb(arroba)gmail.com así como el derecho a presentar una reclamación ante una autoridad de control. Puedes consultar aquí mi política de privacidad. *