Filetype es un comando de Google muy útil para limitar la búsqueda a un tipo de archivo específico.
Por ejemplo, la siguiente búsqueda:
filetype:pdf posicionamiento
Es como buscar posicionamiento limitando la búsqueda para archivos pdf.
En métodos de búsqueda podemos encontrar hoy una entrada donde nos muestra todas las extensiones que permite el comando filetype, o lo que es lo mismo: ¿Qué tipo de archivos indexa Google?.
En los foros de Search Engine Watch me he encontrado un plugin para Firefox muy interesante. La idea es que nuestro “User-Agent” sea el mismo que Googlebot.
Podemos seguir los pasos de SEW para instalarlo:
- Bajarse Firefox
- Instalarlo (hasta aquí ya estamos la mayoría)
- Descargar/Instalar User Agent Switcher for Firefox/Mozilla
- Restaurar (Cerrar/Abrir) el navegador
- En el menú nos vamos a Tools -> UserAgent Switcher -> Options -> Options
- Vamos al apartado User Agents y le damos a añadir (Add)
- En la Descripción ponemos Googlebot y en el User Agent Googlebot/2.1 (+http://www.googlebot.com/bot.html)
- Podemos repetir el proceso para todos los robots de los buscadores que queramos (aquí tenéis una lista)
- Ahora vamos a Tools -> User Agent Switcher -> Seleccionamos Googlebot
Ahora no hay más que navegar. ¿Qué utilidad tiene? Hay páginas que para posicionarse utilizan cloaking.
El cloaking es devolver una página diferente a los robots de los busadores de la que le devuelves a los usuarios. Se hace con una simple condición a nivel de servidor. Si la condición se realiza en función de un rango de IPs del buscador este método falla (no se nos mostrará la misma página que a Google), pero si se realiza en función del User Agent ahora podemos utilizar este truco para saber que webs utilizan este tipo de cloaking.
El cloaking suele utilizar páginas con mucho texto para que sean más valoradas por los buscadores, páginas que a los usuarios no les resultarían atractivas, frente a las páginas que se le devuelven a los usuarios que no serían bien valoradas por los buscadores.
No voy a dar ejemplos para no delatar a nadie, pero muchos primeros resultados en buscadores utilizan esta técnica.
Editado: Un ejemplo curioso de cloaking: Nedstat.
http://www.nedstatbasic.net/s?tab=1&link=4&id=2765484
Dos resultados diferentes en función de si somos Googlebot o no.