尽管我看到了一些关于数据匿名化的好问题,但我想知道是否有针对这个更具体的变体的答案。
我正在寻找一种工具(或设计一个工具)来匿名来自特定国家的人名:特别是非结构化文本中的名字。我见过的许多工具都考虑了数据匿名化的更广泛维度;同样关注出生日期、地址等。
一个必要的方面是它需要具有近乎绝对的召回率。据我所知,主要的缺陷是小的变体(“Tommy”而不是“Thomas”,“Ben”而不是“Benjamin”等)和错别字。这两个因素阻止了基于名称数据库(基于人口普查等)的简单正则表达式
尽管我看到了一些关于数据匿名化的好问题,但我想知道是否有针对这个更具体的变体的答案。
我正在寻找一种工具(或设计一个工具)来匿名来自特定国家的人名:特别是非结构化文本中的名字。我见过的许多工具都考虑了数据匿名化的更广泛维度;同样关注出生日期、地址等。
一个必要的方面是它需要具有近乎绝对的召回率。据我所知,主要的缺陷是小的变体(“Tommy”而不是“Thomas”,“Ben”而不是“Benjamin”等)和错别字。这两个因素阻止了基于名称数据库(基于人口普查等)的简单正则表达式
你在这里有几个问题。首先是清理数据。这是一个与匿名化完全不同的问题,如果您仍然遇到问题,则属于另一个问题。
第二个是您的匿名化。在您获得某种令您满意的标识符之后(听起来您使用的是人们的真实姓名),尝试对他们的姓名进行散列以生成新的 id。此 id 很有用,因为您始终能够获取原始名称并找出它是什么 id,但无法仅从散列 id 派生真实姓名(前提是您的散列算法很好)。
进一步阅读:
我不认为你真的需要一些特殊的软件,而是使用现有的工具,比如加密算法。
为什么不使用任何基于密钥的算法加密名称并安全地存储密钥?
如果您不需要能够恢复名称,而只是为了识别小词差异级别的变化,那么您可以简单地使用散列而不是加密。
我不确定您要在什么环境下执行它,但是任何语言(例如R
SQL/NoSQL 数据库)都可以轻松地以编程方式执行此操作。