A partir de este topic de Cre8asiteforums, empiezo a mirar los ficheros robots.txt que utilizan los buscadores y directorios para que no les indexen contenidos:
http://dmoz.org/robots.txt
http://www.google.com/robots.txt (cantidad de directorios que no interesa indexar)
http://www.alltheweb.com/robots.txt
http://www.altavista.com/robots.txt (el mismo que alltheweb)
http://www.gigablast.com/robots.txt
Curioso, Yahoo! no usa robots.txt
http://www.yahoo.com/robot.txt

