Para que tu web pueda conseguir la mejor posición en los buscadores, sobre todo en Google, necesita ser correctamente monitorizada. Los buscadores mandan a sus arañas, que no son más que unos robots que visitan tu web y rastrean el contenido, con el objetivo de indexarlo y que aparezca en el buscador.

Si estas arañas encuentran nuevo contenido, lo agregan a un índice, le dan una valoración y, en base a la misma, aparecerán en una mejor o peor posición en el buscador.

Y es aquí cuando descubrimos la gran importancia que tiene el archivo Robots.txt

¿Qué es el archivo Robots.txt?

El archivo robots.txt tiene el objetivo de facilitar la indexación de cualquier página. En el mismo se incluyen las instrucciones que seguirán las arañas sobre los contenidos rastreables, y sobre como los deben controlar.

Estas son las principales características del fichero:

  • No existe más de un robots.txt en la misma página (a no ser que haya subdominios).
  • Es un documento de texto plano sin formato. Si tuviera formato, podría no ser interpretado.
  • El texto del archivo es sensible a mayúsculas y minúsculas, por lo que hay que llevar cuidado con ello.
  • El nombre de fichero debe ser exactamente de robots.txt ya que, de lo contrario, no será localizado.
  • Los expertos recomiendan que en el contenido del robots.txt se haga referencia a la ruta en la que está ubicado el sitemap de la web, para organizarlo todo mejor.

¿Para que se usa el robots.txt?

  • Controla lo que rastrea tu web

Este archivo te permite restringir ciertas partes de tu página que no quieras que sean rastreadas o indexadas por los buscadores. Podríamos querer evitar que se rastreen los pasos del proceso de una pasarela de pago, retornos de formulario, etc.

  • Para evitar contenido duplicado

Un error muy común de posicionamiento es aquel que se refiere al contenido duplicado. Es posible que tengamos artículos que se repiten en ciertas partes de la página (esto ocurre, sobre todo, en páginas online). Para evitar la penalización, podemos usar robots.txt.

  • Para restringir el acceso a ciertos robots

Si, por las razones que sean, no quieres que un robot acceda a tu web, tan solo tendrás que crear la regla correspondiente para hacerlo, tal y como vamos a ver a continuación.

¿Cómo configurar el archivo robots.txt?

Crear el archivo es muy sencillo, o bien lo hacemos manualmente (crear el archivo y subirlo al servidor), o bien utilizamos un plugin que nos permita hacerlo.
En el archivo vamos a utilizar 2 comandos:

  • User-Agent: Este comando es el que se emplea para informar al robot de una regla.
    • Si escribimos User-agent:* estaremos aplicando la regla sobre cualquier robot que llegue a la web.
    • Pero si usamos el comando de User-agent: Googlebot solo aplicaremos la regla sobre el robot de Google.
  • Disallow: Este comando se emplea en una URL que se quiere bloquear. Por ejemplo, imagina que tienes una carpeta con fotografías y no quieres que se indexe. Para evitar, podríamos usar el comando de disallow: /pictures/ (o el nombre de la carpeta en cuestión).

¿Cuál es la mejor configuración para el archivo robots.txt?

Es complicado contestar a esta cuestión, y es que la configuración realmente dependerá de las necesidades que tenga cada web.

Este sería un ejemplo de un archivo robots.txt

user-agent: bingbot
user-agent: googlebot
allow: /documentos/curriculum.pdf
disallow: /documentos/

Según interpretamos en esta estructura, este fragmento está ideado para que los bots de Google y Bing no indexen la carpeta de documentos y si que permitan el archivo curriculum.pdf que está incluido en la carpeta documentos.

Como ya hemos comentado, no estaría de más añadirle una línea para indicarles a las arañas el lugar exacto en el que se encuentra el sitemap, y esto lo haremos con la siguiente sintaxis:
sitemap: http://www.nombrepagina.es/sitemaps-pages.xml

Ten cuidado con restringir archivos o carpetas sin saber lo que se está haciendo. Todo eso podría derivar en que Google no te diese la posición que realmente te corresponde.

Cómo verificar robots.txt en Search Console y porque comprobarlo

Para comprobar que tu archivo robots.txt es correcto (que no tenga ningún error de estructura), podemos utilizar la herramienta de Search Console (Herramientas para Desarrollador).

Tan solo tendremos que abrir el probador para el sitio web, escribir la URL en el cuadro de texto de la parte inferior de la web y seleccionar el agente de usuario que queramos simular. Pulsamos en Probar y estudiamos los resultados.

La herramienta nos indicará si las arañas pueden acceder al sitio web, y los errores. Podrás saber las advertencias de sintaxis y los errores de lógica más destacados, para así poder arreglarlos cuanto antes.

Ahora ya sabes porque el archivo robots.txt es tan importante.