我注意到 Linkedin 反机器人行为有些奇怪,但我无法完全理解它。基本上,有多个人将他们的个人资料设置为public,从而允许 Google 等搜索引擎将他们编入索引。如果您发起匿名浏览会话并搜索个人资料,您将看到如下所示的页面:
(例如https://www.linkedin.com/in/parag-agrawal-5a14742a)
但是,如果您反复尝试,或者如果您测试自动化软件(例如 selenium)来访问这些配置文件,您将在一段时间后被重定向到 authwall 页面,您将无法看到更多公开个人资料。
我已经尝试隐藏各种指纹数据,例如 IP、用户代理、屏幕分辨率(用于画布指纹),但在几次请求后,我的访问限制下降到一个公共配置文件。我猜他们对服务器内的请求模式进行了分析,使我的部分可以识别。
我想知道观察哪些特征来确定访客是否是人类,以及我如何模拟人类行为。