这对于 stackexchange 来说并不是一个很好的问题,因为谷歌对其算法保密,所以我们真正能做的就是猜测它是如何工作的,但我的理解是,新系统将分析你在谷歌所有服务中的活动(以及可能是 Google 可以控制的其他网站,例如有 Google 广告的网站)。
因此,检查很可能不仅限于上面有复选框的页面。例如,如果他们检测到您使用的计算机/IP 地址过去也被用于做普通人会做的事情 - 例如检查 Gmail、在 Google 搜索中搜索、将文件上传到云端硬盘、共享照片、浏览网络等 - 那么它可能可以合理地确定您是一个人并允许您跳过图像验证。另一方面,如果它无法将您的计算机与任何以前的类似人类的活动相关联,那么它会更加可疑并为您提供图像验证。尽管单击复选框时的鼠标行为可能是它分析的一个因素,但几乎可以肯定还有更多因素。
同样,我们不确定它是如何工作的。这只是我根据小谷歌所说的最好的猜测:
虽然新的 reCAPTCHA API 可能听起来很简单,但在这个不起眼的复选框背后却有着高度的复杂性。验证码长期以来一直依赖于机器人无法解决扭曲的文本。然而,我们最近的研究表明,当今的人工智能技术甚至可以以 99.8% 的准确率解决最困难的扭曲文本变体。因此,扭曲的文本本身不再是一个可靠的测试。
为了解决这个问题,去年我们为 reCAPTCHA 开发了一个高级风险分析后端,它积极考虑用户与 CAPTCHA 的整个互动——之前、期间和之后——以确定该用户是否是人类。这使我们能够减少对输入扭曲文本的依赖,进而为用户提供更好的体验。我们在今年早些时候的情人节帖子中谈到了这一点。
对我来说,关于“使用前、使用中和使用后”的观点强烈暗示他们分析了以前的浏览行为,但我的解释可能是错误的。
以下是《连线》杂志的一段话:
Google 的“reCaptcha”不依赖于传统的扭曲词测试,而是检查每个用户不经意间提供的线索:IP 地址和 cookie 提供了证据,证明用户与 Google 在网络上其他地方记忆中的友好人相同。Shet 说,即使是用户鼠标在悬停并接近复选框时做出的微小动作,也有助于揭示自动机器人。
stackoverflow 上还有另一个线程也在讨论这个问题:https ://stackoverflow.com/questions/27286232/how-does-new-google-recaptcha-work
至于图像验证,您将无法通过反向图像搜索找到这些图像,或者编译它们的数据库。它们通常是谷歌街景汽车捕获的随机街道标志或门牌号,或者是为谷歌图书项目扫描的图书中的文字。这背后有一个很好的目的——谷歌实际上利用人们在 reCaptcha 中输入的内容来改进他们自己的数据库并训练 OCR 算法。reCaptcha 将相同的图像提供给许多用户,如果他们都同意它所说的内容,那么该图像将成为谷歌人工智能的训练数据。
来自维基百科:
reCAPTCHA 服务为订阅网站提供光学字符识别 (OCR) 软件无法读取的单词图像。作为正常验证程序的一部分,订阅网站(其目的通常与图书数字化项目无关)呈现这些图像供人类解读为验证码字。然后他们将结果返回给 reCAPTCHA 服务,该服务将结果发送给数字化项目。
reCAPTCHA 致力于将《纽约时报》的档案和 Google 图书中的书籍数字化。[3] 截至2012年,《纽约时报》已数字化三十年,该项目计划于2013年底完成剩余年限。现已完成的《纽约时报》档案可从纽约时报文章档案中搜索,从 1851 年至今,总共有超过 1300 万篇文章被存档。