Robot.txt: dile a GoogleBot qué es lo que quieres

Secretos de robot.txtGoogleBot es una herramienta ya conocida por cualquier webmaster que quiera posicionar su sitio Web. ¿Pero qué pasa si por alguna razón no queremos que GoogleBot rastree una parte o todo nuestro sitio?

El generador Robot.txt fue diseñado especialmente para esta causa, y además se maneja de forma sencilla, evitando que nos “atasquemos” en alguna configuración que no entendamos. Tan simple como ingresar los directorios o archivos que no queremos que sean rastreados.

¿Cómo creamos un Robot.txt? bien fácil, sólo necesitamos el bloc de notas de Windows (por dar un ejemplo, cualquier editor de textos funciona), crear determinados códigos que mostraremos a continuación, guardarlo como “robot.txt“, y finalizando subiendo el archivo resultante al directorio raíz de nuestra Web.

Si necesitamos impedir que los robots accedan a determinadas secciones del sitio, escribiremos los siguientes comandos:

  • User-agent: *
  • Disallow: /cgi-bin/
  • Disallow: /misc/sitestats/

Si lo que queremos que los robots rastreen sólo una parte de nuestra Web:

  • User-agent:slurp.so/
  • Disallow: /cgi-bin/
  • Disallow: /secure/
  • Disallow: /products/
  • Disallow:/misc/sitestats/

También tenemos la opción de permitir el acceso a sólo un robot de nuestra preferencia, evitando el ingreso de los otros:

  • User-agent: Googlebot/1.0
  • Disallow:
  • User-agent: *
  • Disallow: /

Si lo que queremos es que ningún robot rastree nuestra página:

  • User-agent: *
  • Disallow: /

Antes de generar este último código, debemos estar bien seguros de que es éso lo que queremos, porque con el mismo, nuestra página no figurará en ningún buscador.

Pequeñas cosas que deberemos tener en cuenta:

No todos los motores de búsqueda reconocen el archivo robot.txt. A pesar de que la mayoría lo hace, algunos no.

robots.txt es sólo una petición. Hay algunos robots que de manera inescrupulosa pasan por alto al archivo, y rastrearán nuestro sitio de todas maneras. Si queremos evitar esto, deberemos proteger nuestra Web con una buena contraseña, en lugar de confiar en robots.txt.

You may also like...

3 Responses

  1. victor dice:

    como hago un robot.txt que le diga a todos los rastreadores que pueden indexar todas mis paginas
    gracias

  1. 11 abril 2008

    […] Pero hay una manera muy sencilla de evitar esto, y más fácil es aún si poseemos nuestro propio dominio. Sólo es necesario un simple Robot.txt, del que ya hemos hablado antes. […]

  2. 11 julio 2008

    […] Como su título lo dice, nos presta ayuda para transferir archivos tan variados como PDF, DOC, TXT, RTF, RTFD, HTML, PNG, TIF, JPEG, GIF y todas las películas y archivos de audio compatibles con el […]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>