robots.txt y sitemap: dos archivos super-utiles para tu sitio

robots.txt y sitemap.xml

Hoy he decidido hablar sobre los archivos robots.txt y sitemap.xml. Son muy importantes a la hora de desarrollar un sitio web.
Hay que decir que con el archivo robots.txt es posible disminuir las páginas rastreadas por parte de los robots.

También hay que decir que para denegar los spider de los buscadores en una página, se puede utilizar el META TAG ROBOTS.
Sin embargo este tag es un poco incómodo porque se refiere a cada página y además el meta tag robots contiene solamente información para algunos los buscadores, dejando todos los demás buscadores la posibilidad de rastrear la página.

El archivo robots.txt

Es archivo robots.txt es un archivo sencillo de texto que se puede crear/editar con cualquier editor de texto. Este archivo contiene algunas líneas que pueden impedir a todos (o algunos) spider de los buscadores guardar información

Este archivo tiene que llamarse «robots.txt» y además no tiene que tener errores. Contiene algunas instrucciones que pueden impedir el rastreo (a todos o algunos robots) de algunas  páginas del sitio web.

Dónde está el archivo en mi sitio web

El archivo robots.txt tiene que estar en la root principal de la página web y tiene que ser accesible en la url:
http://www.tu-dominio.com/robots.txt

La primera cosa que hacen todos los robots de los buscadores es entrar en el archivo robots.txt del sitio web y siguen las directivas que están escrita en este importante archivo.

Cuales directivas puedo incluir en el archivo robots.txt?

Es importante entender que en el archivo robots puedo solamente insertar las páginas que NO QUIERO que un robot guarde en su base de datos. Es decir las páginas que pongo en este archivo no serán rastreadas por el robot de los buscadores.

El archivo robots contiene dos informaciones importantes.
— El campo User-agent:
— Uno o más campos Disallow:
El primero indica a qué buscador le es posible leer las indicaciones que siguen.
Los campos DISALLOW sirven para indicar a los robot qué páginas (o carpetas) NO tienen que ser rastreadas.

La sintaxis es la siguiente:
Disallow: /pagina.html
Disallow: /carpeta/
Hay que tener en cuenta el espacio que hay entre los «:» y la primera «/».

User-agent: googlebot
Disallow: /privacidad.html
Disallow: /documentos/

Por otro lado hay que decir que también se puede utilizar la directiva Allow: que sirve para dar acceso a los buscadores a una url concreta que está en un directorio principal bloqueado:

User-agent: googlebot
Disallow: /privacidad.html
Disallow: /documentos/
Allow: /documentos/doc-pdf.pdf

En el ejemplo de arriba la primera directiva le dice a Google (googlebot es el nombre del robot de Google) que no tiene que rastrear la página /privacidad.html y tampoco toda la carpeta /documentos/, pero sí que tiene que rastrear dentro de esta misma carpeta el archivo con el nombre /doc-pdf.pdf

El User-agent: puede contener un nombre especifico de un robot o un *, en este caso significaría que todos los robots de los buscadores tienen que seguir las directivas que siguen.

Archivo robots.txt en WordPress

En realidad en un proyecto WordPress el archivo es el mismo. Está ubicado siempre en la root del sitio y tiene las mismas directivas User-agent: y Disallow:
Lo que cambia es cómo el Plugin SEO by Yoast nos da algunas herramientas para poder hacer lo que hacemos con el archivo robots.txt, sencillamente eligiendo Index o Noindex en cualquier página, producto, o entrada que yo quiera.

Te dejo el enlace a mi robots para que puedas ver cómo lo he hecho yo.

robots.txt - index o noindex en WordPress

En realidad el noindex lo que hace es insertar un TAG HTML en la página en la que lo he elegido (si he elegido Noindex en un producto, en la página del detalle del producto), pero el robot de Google (por ejemplo) pierde el tiempo para entrar en esta página y salir cuando encuentra el tag html:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

NOINDEX y SEO

Hay que tener en cuenta que Google, según el «prestigio y la importancia» de nuestra página, nos asigna un tempo total para rastrear nuestra páginas. Obviamente todo el tiempo que pierde en entrar en nuestras páginas, encontrar el tag html Meta Robots, es un tiempo super precioso que estamos perdiendo para que Google rastree e indexe mejor nuestras páginas web.

Eliminar url en Search Console de Google

A veces puede ser útil indicar con el archivo robots.txt algunas páginas que no hay que rastrear porque ya no la queremos indexar. Es el caso por ejemplo de algunas url que ya se quedaron viejas y que pero que Google (o cualquier otro buscador) ya ha indexado.
Ejemplo:
Me he dado cuenta de que tengo una página con contenido duplicado (por ejemplo unos productos que he insertado y que tienen la misma description pero uno es del 2016 y otro del 2013). Lo que quiero es que los robots de Google no rastreen el producto más viejo.
Lo que hago es que voy al archivo robots.txt y pongo:

User-agent: *
Disallow: /producto-ejempo-2013/

Ahora mismo lo que digo a los robots de los buscadores es que no hay que rastrear la página de este producto. Perfecto, pero tengo un problema que es que la página ya está indexada en Google y él ya me está penalizando por contenido duplicado.

En este caso hay que hacer una cosa más. Ir al Search Console y «Eliminar una URL» (desde Índice de Google > Eliminación de URL) da las Base de datos de Google. Esta eliminación es temporal (30 días) pero luego si hemos también puesto la url en el archivo robots.txt, Google no volverá a indexarla otra vez.
¡Ya no tenemos el problema del contenido duplicado!

El archivo sitemap.xml

El sitemap.xml es un archivo donde se pueden meter (en formado xml) unas urls de nuestro sitio que sirve para informar a los motores de busquedas de cual es la estructura de nuestro sitio web. Los rastreadores web de los buscadores leen el archivo sitemap.xml para rastrear el sitio.

Este archivo también puede proporcionar unos valores (metadatos) asociados a las páginas que enumera en el sitemap. Cuando se ha actualizado y con que frecuencia se aportan cambios a esta página.

Hay muchos servicios online para crear el sitemap.xml, como por ejemplo xml-sitemap.

Archivo en WordPress

Otra vez, como para el robots.txt, si nuestra página web está en WordPress, el plugin SEO by Yoast nos ayuda mucho. Este genera el sitemap de manera automática según las indicaciones (ajustes plugin) que le decimos nosotros. También se genera/actualiza cada vez que creamos/cambiamos una entrada o una página.

sitemap ajustes wordpress

Factores SEO que hay que tener en cuenta

El robots.txt y el sitemap.xml nos permiten gestionar mejor algunos aspectos muy importantes para el SEO. En primer lugar para excluir algunas urls que no sirve posicionar ni tampoco indexar. Como puedes ser por ejemplo la página de Contacto. Estas en la mayoría de los sitios web no aportan nada como contenido de calidad. Por eso es casi imposible posicionar bien.

Pocas urls pero bien optimizadas

También hay que tener en cuenta que Google nos asigna un tiempo para rastrear nuestro sitios. Si tenemos pocas urls (el «poca» naturalmente depende de como de complejo es el sitio web) y bien optimizada en tema de contenido de calidad y palabras claves, a Google seguro que le gustará mucho más tu sitio web.

Problema del contenido duplicado

Si estás trabajando con un CMS como por ejemplo WordPress. es muy probable que habrá que No-indexar las táxonomias.
Los tags o las categorías, normalmente (depende siempre de cómo está estructurado el sitio web) generan contenido duplicado. Eso porqué en estas páginas está siempre un listado de los productos o posts.