信息安全 - 如何确定我的页面是由机器人请求的，而不是用户的浏览器？ - 吾爱随笔录

信息安全 http

2021-08-17 11:47:27

如何检测我的页面是由机器人请求的，而不是用户的浏览器？我知道基本技巧：

还有其他检测机器人的方法吗？

更新：一些好的机器人在 User-Agent 标头中标识自己：

User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

4个回答

Javascript 检测似乎是检测机器人的常用方法，通过使用 Javascript 生成随机令牌并与请求一起发送。

我喜欢在您的 Web 应用程序上拥有一个“蜜罐”页面的想法。该页面将链接到使用隐藏链接，最终用户永远不会看到。这样，如果曾经访问过这个蜜罐页面（通过机器人扫描 HTML 源的链接），您可以非常确信这是一个机器人或其他恶意扫描程序并暂时阻止该 IP 地址。

还有一些工具（例如weblabyrinth），旨在通过动态生成虚假链接让机器人跟踪来将机器人困在一个循环中。

Web-log 挖掘中用于识别请求是否由机器人发出的一些功能：

这些摘自“使用数据挖掘技术进行网络爬虫检测的特征评估” http://www.sciencedirect.com/science/article/pii/S0957417412002382

通常，机器人不会执行 JavaScript（可能是 99% 的情况），但是请注意一些机器人使用 WebKit，它运行 JS 并呈现完整的页面。

您可以检查日志文件中的条目。如果出现以下情况，它很可能是机器人：

到目前为止真正可靠的建议。

我只想说 JS 挑战不能用作唯一的指标，因为某些机器人（即一些谷歌机器人，还有一些坏/伪装的机器人）将执行 JS，另一方面，出于安全原因，一些用户不会激活 JS（很少见，但它会发生）。

最好的办法是使用以下规则对机器人进行交叉检查：

为每个测试设置一个分数（不要给所有相同的“值”，因为有些更重要）并结合数据将提供最佳结果。

@xpn-security：很高兴了解网络迷宫。谢谢。

其它你可能感兴趣的问题