是否有任何文本验证码挑战可以欺骗人工智能,但不能欺骗人类?

人工智能 图像识别 研究 光学字符识别
2021-10-19 22:36:55

是否有任何生成文本验证码(因此人们需要输入正确的文本)挑战的现代技术,可以很容易地用一些视觉混淆方法欺骗人工智能,但同时人类可以毫不费力地解决它们?

例如,我说的是识别嵌入到图像中的文本的简单能力(不考虑任何外部插件,如 flash 或 java、图像分类等)并重新键入已写入的文本或类似的东西。

我想添加噪音、渐变、旋转字母或改变颜色不再是可靠的方法,因为它们可以很快被破坏。

有什么建议或研究吗?

3个回答

关于是什么让人类独一无二,这是一个有趣的问题。Hubert Dreyfus有一本关于该主题的好书,名为What Computers Cant Do

计算机无法处理的一项任务(至少目前)是对重要事物进行排名。例如,CAPTCHA 要求您按重要性随机排列物品(小件、五件或六件)。这种特殊的练习需要人工智能根据人类判断做出决定(并不总是理性的)。

一种可能有效的方法是利用视觉错觉,例如走廊上的两条线相同但人眼看起来更长的错觉,然后可以提示他们选择关于线状态的多项选择问题,以我们的眼睛看起来更长了,但对着电脑来说,还是一样长的线。当然,眼睛残疾的人总是无法完成它们的问题,但可以使用不同的错觉来适应这种情况。

例子

让用户标记视频中最先进的分类器无法解决的突出显示对象

创建最先进的视频分类器。不妨在 Google 的YouTube-8M视频训练数据上对其进行训练。但是您也需要不断地为其提供原始视频。

让分类器标记尽可能多的对象。让它隔离哪些对象可以识别为对象但无法标记。

让它输出概述对象的视频。最好是 GIF,它可以很容易地嵌入到表单中。

对于其中的 100 个,询问 100 个用户对象是什么。如果 90% 的用户同意对象的名称,则将该视频添加到验证集。将此称为预训练集。

每次用户需要进行身份验证时,向他们展示视频中突出显示的对象之一,而不是来自预训练集如果图像的展示次数少于 100,则记录标签并给用户另一个预训练集中的标签。如果他们做对了,让他们通过,如果没有,从预训练集中再给他们一个。

一旦未经预训练的视频有超过 100 次放映并且超过 90% 的验证码用户同意,将该视频添加到经过训练的集合中。

随着时间的推移,慢慢移除预训练集。对后训练集中的每个视频都设置过期时间,过期后将其删除,这样它们就不会被使用太多次。

理想情况下,此过程将不断改进视频分类器,使其保持最先进的水平并略微领先于其他分类器。也许它也可以偏爱不太常见的词和对象以及更深奥的东西,从而使这个分类器专门针对其他分类器。

图像标签也可以这样做,但鉴于人工智能的进步,视频分类器的实用性可能会持续更长时间。

不过,严格来说,除了一些量子诡计之外,没有哪一种验证码系统有一天不会被外部人工智能系统解决。

(编辑:哦,我刚刚注意到您特别提到了“文本验证码”。如果这就是您的意思,那么不,我认为文本分类没有太多神秘之处。计算机现在可能比人类更好地从图片中收集文本。但从技术上讲,上述验证码系统中的输入是文本的。)