10 de noviembre de 2006

Prevenir el acceso de los buscadores a tu página web

Para evitar que un buscador campe a sus anchas por las carpetas de tu sitio web puedes crear un archivo de texto llamado robots.txt dentro del directorio raíz del sitio. Este archivo contendrá indicaciones sobre qué robots pueden acceder y a qué carpetas.

Por ejemplo, para crear un sitio totalmente privado bastaría con insertar dentro de ese archivo lo siguiente:
User-agent: *
Disallow: /
Es decir, no entra ningún buscador (*) desde el nivel principal (/)

Algo menos restrictivo podría ser esto:
User-agent: Googlebot
Disallow: /foro
que evitaría que google accediese al contenido de la carpeta foro.

Hay una lista muy completa con el nombre de cada buscador en la siguiente dirección.

Esto no evita que se puedan indexar las páginas, ya que si hay un robot maleducado que no atiende a este fichero podría entrar, aunque para eso también hay soluciones.

Se puede encontrar más información interesante en las siguientes páginas: