数据匿名化软件

机器算法验证 软件
2022-03-27 02:29:36

有人知道好的数据匿名化软件吗?或者也许是一个用于数据匿名化的 R 包?显然不期望无法破解的匿名化 - 只是想让它变得困难。

4个回答

康奈尔匿名工具包是开源的他们的研究页面有相关出版物的链接。

警告:请注意,以防止重新识别(去匿名化)的方式对数据进行匿名化可能非常困难,同时又不会丢失数据的大部分价值。这不是您可以不假思索地扔一个软件的情况。保护人们的匿名性需要仔细考虑。例如,请参阅这篇论文,以更仔细地说明为什么这不是微不足道的。

一个警示故事的例子是 Netflix 挑战,其中看似匿名的数据集实际上与 Netflix 用户的身份相关联——或者匿名 AOL 搜索记录的发布,其中许多(研究人员发现)仍可能与个人通过更复杂的分析。另一个例子来自马萨诸塞州,一个健康保险委员会在通过删除姓名、地址、SSN 等匿名化后发布了所有州雇员的数据。然而,一位隐私研究人员发现,重新识别个人身份仍然是可能的,并作为示范,展示了如何识别州长的健康记录。例如,她后来证明,大多数人可以通过邮政编码(或人口普查区)、出生日期和性别来唯一识别。这些是人们努力匿名数据的故事;他们认为他们在匿名化方面做得很好,只是没有意识到这个问题有多棘手。 这些警示故事应该让你停下来。

出于这些原因,如果您之前没有这方面的经验,我不鼓励您尝试自行匿名化您的数据集。

重要提示:匿名数据所需的技术可能在很大程度上取决于您拥有的数据类型和您正在使用的应用程序域。不幸的是,您没有提供此信息。因此,几乎不可能为您提供有关如何匿名数据集的好建议。

我想可能很容易将这个答案视为无用的,因为不是说“开心,别担心,只需将这个神奇的软件扔到您的数据中,您就不必思考”,而是说“等等,这比乍一看要复杂,小心”。我意识到这条信息可能不是很受欢迎,但我认为这是人们需要听到的信息。

看看 CRAN 上的sdcMicro包。其中一位作者还写了一篇论文,描述了所包含的小插图之外的内容。

一种方法是使用布隆过滤器。检查SAFELINK项目网站以获取Java 和 Python程序论文解释方法在这里

还有一种有趣的方法是使用ANU Data Mining Group开发的 n-gram在记录链接的上下文中对字符串进行匿名化。包含描述和示例 Python 代码的论文可在此处获得。