Seleccionar página
Robots.txt para WordPress: Qué es, para qué sirve y cómo crearlo
4.9 (98.33%) 12 votes

Cuando un buscador como Google llega a un sitio web, intenta rastrear el toda la información posible para después indexar en sus listados de resultados todas las páginas que encuentre. No obstante, a veces queremos que algunas secciones y páginas se mantengan al margen y no sean indexadas. Aquí es dónde entra en juego el archivo robots.txt.

También llamado archivo de exclusión de robots, el archivo robots.txt de una web nos permite darle una serie de indicaciones a los buscadores para que no rastreen ni indexen ciertas partes de nuestra página.

Por su importancia, y porque es una poderosa herramienta para mejorar el SEO, hoy veremos qué es el archivo robots.txt, para qué sirve exactamente, cuáles son las principales instrucciones que podemos darles a los buscadores, y cómo crear un robots.txt para WordPress y para cualquier tipo de web.

Además, te también te daré un ejemplo de robots.txt para WordPress y te explicaré qué diferencia hay entre utilizar este archivo y la etiqueta Meta Robots.

¿Qué es el archivo robots.txt y para qué sirve?

Todos los buscadores poseen una serie de arañas o robots de rastreo que navegan por internet buscando nuevas páginas. Cuando llegan a un sitio web, estas arañas lo primero que hacen es visitar el archivo robots.txt de nuestra web. En función de las indicaciones que les demos, esas arañas rastrearán nuestro sitio o se irán por dónde han venido.

Por tanto, el archivo robots.txt te permitirá mantener al margen de los buscadores algunas secciones de tu página web, o si lo prefieres, tu sitio web al completo.

Gracias a este estándar de exclusión de robots, podrás hacer lo siguiente:

  • Decirle a buscadores como Google que no indexen algunas partes de tu web que son privadas y no quieres que aparezcan en los listados de resultados.
  • Si estás creando creando tu página web, puedes evitar que los buscadores la indexen hasta que la tengas terminada.
  • Podrás impedir que Google indexe contenido duplicado y, por tanto, evitarás posibles penalizaciones. Porque por si no lo sabes, a Google no le gusta el contenido plagiado.
  • Si tienes un área privada o un área de clientes, podrás ocultarla para que no salga en Google y que sólo se pueda acceder desde tu página o sabiendo la URL exacta.
  • Indicarle a Google cuál es tu mapa del sitio o Sitemap para que así pueda acceder más rápidamente a las páginas importantes de tu web.

Tienes que tener en cuenta que el archivo Robots txt es público. Es decir, cualquier persona puede ver qué contenidos y secciones has bloqueado con tan solo poner dominio.com/robots.txt. Esto no es algo malo ni una desventaja, ya que el robots.txt está pensado para darle instrucciones a los buscadores.

Por ello, si tienes páginas privadas que no quieres que un usuario conozca ni acceda a ellas, protégelas con contraseña por ejemplo.

Comandos principales que puedes utilizar en tu archivo robots.txt

Además de saber qué es el robots.txt, es imprescindible que sepas utilizar sus comandos. Lo bueno que tienen estos comandos, es que son estándares. Es decir, los entienden la mayoría de los buscadores. No obstante, en el archivo robots.txt podemos darle indicaciones distintas a cada uno de ellos.

Recurso extra: Aprende a encontrar las mejores palabras clave para tu web y a analizar a tu competencia
Ir a la guía

Lo primero que hay que escribir al crear un robots.txt, es el buscador al que queremos darle las indicaciones. Para ello utilizaremos el comando User-agent indicando a qué robot queremos afectar con las siguientes directrices:

  • User-agent: Con este comando indicamos el buscador al que queremos afectar con las siguientes indicaciones.
  • Disallow: Nos permite prohibir el acceso a ciertas páginas o directorios de nuestro sitio.
  • Allow: Es el comando contrario a Disallow. Si queremos dar acceso a los buscadores a alguna página en concreta dentro de un directorio de nuestra web que previamente hemos denegado el acceso mediante Disallow, el comando Allow será la opción adecuada.
  • Sitemap: Sirve para indicarle a los buscadores dónde está nuestro mapa del sitio. De esta manera, el buscador podrá encontrar fácilmente todas las páginas de nuestro sitio web, ya que ahí se encuentran las principales.

Ejemplos y casos en los que utilizar los diferentes comandos

  • Especificar a qué robot le estamos dando las indicaciones: Se trata de la primera indicaciones que debemos dar en nuestro archivo robots.txt. Lo normal es darle las mismas indicaciones a todos:

User-agent: * → Para todos los robots.

User-agent: Googlebot → Para google robot.

User-agent: Bingbot → Para bing robot.

  • Web en construcción: Si tienes tu página web en construcción y quieres que los buscadores todavía no la indexen en sus listados, deberías utilizar el comando Disallow de la siguiente manera:

Disallow: /

  • Denegar una página en concreto: Si lo que quieres es no indexar una página específica de tu sitio web, como por ejemplo http://www.javierbalcazar.com/mejores-plantillas-wordpress/ , debes utilizar el comando Disallow del siguiente modo:

Disallow: /mejores-plantillas-wordpress

  • Denegar un directorio de tu web: En este caso, si quieres denegar el acceso a una parte entera de tu web, como por ejemplo http://www.javierbalcazar.com/area-privada/ , debes utilizar el comando Disallow así

Disallow: /area-privada/

  • Denegar todas las páginas que comiencen de un modo en concreto: Por ejemplo, si quieres denegar el acceso a google robot, o a cualquiera de los demás rastreadores, de todas las URLs de tu sitio web que contengan /category, se utilizaría de nuevo el comando Disallow de esta manera:

Disallow: /category*

  • Indicar el mapa del sitio: Sirve para señalar a los robots dónde está nuestro mapa del sitio o sitemap. Este sitemap se utiliza para facilitar la labor de rastreo e indexación de nuestro sitio web:

Sitemap: http://www.javierbalcazar.com/sitemap_index.xml

  • Denegar el acceso a un tipo de archivo: Si por ejemplo tenemos archivos PDF descargables que no queremos que aparezcan en los buscadores porque son privados y solo accesibles para determinados usuarios, podremos utilizar el comando Disallow en el robots.txt indicando que todos los archivos que finalicen con la extensión “.pdf” no deben ser rastreados ni indexados. Y no solo sirve para archivos PDF, si no para cualquier otro que queramos:

Disallow: /*.pdf$

Cómo generar un archivo robots.txt

Ya sabes qué es el archivo robots.txt, pero ahora vamos a ver cómo se crea. En primer lugar voy a explicarte como crear un robots.txt en WordPress y luego lo explicaré para páginas web creadas con otras plataformas.

En cualquiera de los casos, generar un robots.txt es una tarea sencillísima, ya que se trata de un simple archivo de texto.

Cómo crear un archivo robots.txt en WordPress

Crear un robots.txt en WordPress es algo muy simple. Seguramente ya tengas varios plugins para controlar el SEO de tu página web, como por ejemplo Yoast SEO. Si no lo tienes instalado, te recomiendo encarecidamente que lo instales y lo configures para mejorar el posicionamiento web de tu página.

Recurso extra: Recopilatorio con los mejores plugins SEO gratuitos para WordPress
Ir al listado

Este plugin gratuito, además de permitirte controlar y optimizar el SEO de toda tu web, tiene una función que te genera automáticamente un archivo robots.txt para WordPress. Y lo mejor de todo es que lo puedes modificar directamente desde el plugin sin tener que tener que crearlo por separado y subirlo al hosting.

Para crear tu archivo robots.txt en WordPress, localiza en el menú de la izquierda el apartado SEO y haz clic en el subapartado llamado Herramientas. Una vez aquí, haz clic en el Editor de archivos y aparecerán algunos archivos importantes de tu web, como por ejemplo el htaccess.

como crear robots txt wordpress

Si nunca antes habías creado tu archivo robots.txt, verás un botón específico para ello que pone Crea un archivo robots txt. Con esto, ya tendrías creado tu robots.txt en WordPress.

Ahora solo  deberías utilizar los comandos que te he explicado al principio o utilizar el ejemplo de robots.txt para WordPress que te muestro un poco más adelante.

Cómo crear un archivo robots.txt en cualquier otro tipo de web

Si no utilizas WordPress, deberás crear un robots.txt a mano y luego subirlo a la raíz de tu hosting. Para ello abre un editor de texto como el Bloc de notas y escribe las indicaciones que quieras darle a los buscadores utilizando los comandos que te he nombrado al principio de esta entrada.

Una vez lo tengas creado, guárdalo con el nombre robots.txt, ve a tu hosting y súbelo a la raíz dónde tengas todos los archivos de tu web. Normalmente lo debes subir al apartado public html.

Ejemplo de robots.txt para WordPress

Ahora que ya sabes qué es el robots txt y cómo crearlo, te voy a dar un ejemplo estándar que sirve para la mayoría de sitios creados con WordPress. No obstante, cada web es un mundo diferente y te recomiendo que lo personalices en función de tus necesidades.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: http://www.javierbalcazar.com/sitemap_index.xml

¡No te olvides de cambiar mi sitemap por el tuyo!

Diferencias entre Robots.txt y etiqueta Meta Robots

Antes de dar por zanjado este artículo, quiero aclarar una duda que suele surgir cuando hablamos de la indexación de páginas.

Con el archivo robots.txt podemos evitar que algunas partes de nuestra página web se indexen en los resultados de Google. No obstante, también es posible hacer esto utilizando la etiqueta meta robots con el valor noindex en cada página que no queramos indexar desde Yoast SEO o a mano.

Entonces, ¿cuál es la diferencia?

Si utilizamos el archivo robots.txt no permitimos que el PageRank se transmita desde las páginas bloqueadas hasta aquellas que enlacen. Es decir, si yo bloqueo por robots una página para evitar que se indexe, pero en esa página hay enlaces a otras partes de mi web, la autoridad que pudiera transmitir con esos enlaces, la cortamos.

La ventaja de hacerlo de este modo, es que evitamos que Google pierda tiempo rastreando páginas que no son importantes para nosotros y, por tanto, ahorramos Crawl Budget.

Si utilizamos la etiqueta meta robots, la página será rastreada, así como los enlaces (a menos que pongamos un nofollow adicional). De este modo se transmite la autoridad, pero Google pierde más tiempo de rastreo.

Por tanto, debemos analizar en qué caso nos compensa uno u otro método y actuar en consecuencia en función de nuestros objetivos.

Para ver el Crawl Budget que tenemos asignado a nuestro sitio web, y ver si al robot le da tiempo a rastrearlo, deberemos acudir a Search Console > Rastreo > Estadísticas de rastreo.

¿Tienes alguna duda?

Espero que con esta entrada hayas podido resolver tus dudas acerca de qué es el archivo robots.txt y como crearlo para WordPress o cualquier otro CMS. Si hay algo que no te haya quedado claro, no dudes en preguntarme en los comentarios y te responderé encantado.

Subscribe To Our Newsletter

Subscribe To Our Newsletter

Join our mailing list to receive the latest news and updates from our team.

You have Successfully Subscribed!