如何检测我的页面是由机器人请求的,而不是用户的浏览器?我知道基本技巧:
- 注意不正确的标题或网址。例如,带有哈希的网址或带有完整网址的标头 - GET www.yoursite.com/test
- 检测到某些IP直接请求了几个不相关的页面(不够好)
- 注意丢失的标题
- 注意过时的用户代理
还有其他检测机器人的方法吗?
更新:一些好的机器人在 User-Agent 标头中标识自己:
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)