大型生物识别系统(例如 Aadhaar)的可行性和可扩展性

信息安全 生物识别 数据验证
2021-08-14 14:27:47

在过去五年中,印度系统地推进了生物特征识别计划,目前已有超过 8 亿用户注册为了确保对如此庞大的人群进行匹配的准确性,生物识别标准委员会建议在物理上可能的情况下收集所有 10 个指纹,大概是为了设置更大的识别阈值(例如 3 个或更多手指的 80% 置信度)。

印度唯一身份验证机构进行的 PoC 发现,用于身份验证的合适技术是验证“两个单独的手指最多 3 次尝试”(详情请点击此处)。这提供了 99% 的准确度,委员会认为这是合理的,因为身份验证是 1:1 而不是 1:N(类比是在登录期间只检查密码是否有单个用户名)。虽然这个过程也有大量的隐私和安全问题,但这些问题都得到了很好的研究

但是,注册新用户的过程应该执行重复数据删除,因此是 1:N(如果指纹匹配,则不应注册用户)。假设只有“最好的两个手指被匹配”,假设在注册期间没有执行重复数据删除是否可行,因为超过一定数量的用户冲突可​​能是不可避免的?我看到的上一份报告显示,当 2.9 亿人注册时,有 34,015 次重复(~ 0.01%)

这样的系统真的可行且可扩展吗?生日悖论似乎表明大多数用户应该有“分身”(即使假设 0.01% 的冲突超过 8 亿用户)。在这样的系统中,是否有任何技术可用于可靠和自动识别“真实重复”而不是“虚假重复”?随着用户的增加,生物识别系统会变得越来越差吗?

EDIT/TL;DR生物特征认证系统是否具有负面的网络效应,随着用户数量的增加,它们会变得越来越差(不太准确/精确)?如果没有,为什么不呢?

1个回答

假设只有“最好的两个手指被匹配”似乎不是一个合理的假设。由于重复数据删除更难,因此在物理上可能的情况下评估所有 10 个指纹显然是一种更明智的策略,而且很可能是紧随其后的策略。
您的一位消息人士称,UIDAI 表示重复注册率约为 5%,UIDAI 表示已检测到 34,015 起案件(约 0.1%),其中一个人获得了两个 Aadhaar 号码。我不清楚的是他们是如何发现这些病例的——是什么技术用于识别每个集合中的“真实重复”而不是“虚假重复”。换句话说,一旦 UIDAI 取消了这 34,015 个 Aadhaar 号码,还剩下多少重复注册?没有任何?不必要。有多少居民没有有效的 Aadhaar 号码?没有任何?不必要。

我们知道 2.9 亿用户之间的碰撞率是 0.01%。鉴于所提供的信息,我认为我们知道正在比较的指纹数量,或者如果正在比较任何其他内容)以确定 5%、0.1% 或(根据定义)有多少百分比的重复注册仍未被发现。

但是我们可以弄清楚/猜测吗?关于身份验证的报告说系统 FAR 设置为 1 in 10, 000(即 1 in 10, 000 身份验证将出现错误接受错误)

如果正如报告所建议的那样,当从 1 个最佳手指到两个最佳手指时,FRR – 一次扫描的错误拒绝率从 6.5% 到 2%,在最多 3 次扫描的情况下从 3.5% 到 0.7%,我们会期待什么当我们使用最大手指数进行 1:1 身份验证时会发生这种情况吗?用于 1:N 识别?我找不到足够的信息来提供细节。需要更多的研究。

但我可以回答“生物特征认证系统是否具有负面的网络效应,随着用户数量的增加,它们会变得越来越差(不太准确/精确)?” 你问题的一部分。是的。他们确实如此。你对问题有正确的理解。随着用户的增加,生物识别系统确实面临越来越大的挑战,以保持低 FAR 和 FRR。