是否可以使用生成模型来“共享”私人数据?

数据挖掘 数据集 生成模型 隐私
2021-10-03 16:59:25

假设我们有一些数据集,有很多实例X和一个目标y. 如果它很重要,你可以假设它是一个“现实生活”的数据集:中等大小,具有重要的相关性,y 是不平衡的......等等。

还可以说这个数据集是相对感兴趣的:研究领域相当活跃,但没有(或只有少数)可用的数据集。所以我们正在考虑发布我们的数据集。

但是,出于隐私问题,无法直接发布。已经考虑了基本方法(假名化、对实例进行分组以实现统计披露控制、发布旧数据集),但大部分都被搁置了。

研究领域专注于学习的判别方法 y, 基于 X. 但是,我最近开始阅读有关生成方法的内容。所以我很好奇(1)是否有生成技术可以用来分享关于XXy 无法识别任何单个实例。

我认为将生成模型(/生成模型的输出)分享给试图构建判别模型的人的有用性可能会受到生成模型的固有性能的限制。除了校准 SOTA 判别模型两次(一次在真实数据上,一次在生成数据上)并比较性能之外,还有更多的东西吗?分享在我们的数据集上校准的 SOTA 算法不是更好吗?

3个回答

不幸的是,我不认为生成模型可以防止从原始数据集中泄露私人信息。

与任何其他类型的模型一样,生成模型基于从训练数据中获得的值。在“生成模式”中使用这种模型的想法确实很有趣,因为它很难将它生成的实例反向工程回给真实的个体。很难确定,但并非不可能:通过将信息片段重新连接在一起或利用罕见的(独特的)案例,某人可以从这些实例中获取至少部分个人信息。

此外,生成模型本身的设计在数据中引入了巨大的偏差:实例的分布将在此设计之后建模,这可能会或可能不会准确地代表真实分布。这个问题大大降低了利用生成实例的兴趣,因为它本质上是人工数据。

作为记录,我认为我已经看到有关使用分布式 ML 方法来克服隐私问题的研究。据我了解,这个想法是让每个个人/机构都能控制他们的数据,允许特定的自动化方法以某种安全的方式读取它。

是的。

也就是说,至少在理论上。因此,我们已经有了数学工具来证明隐私(以及参数 epsilon 的多少)是否得到保护。

它被称为差异隐私。我强烈推荐这个非技术介绍

长话短说,我们可以让生成模型学习保证隐私的模型的预测函数。记住实践和理论在理论上是一样的,但在实践中却不是......

这是一个活跃的研究领域,有一些结果表明这对于医学数据是可能的:https ://arxiv.org/abs/1807.10225 。您是正确的,生成模型的性能将是一个限制因素(不可能学到比生成模型编码的更多的知识),但是使用足够强大的生成模型,您仍然可以得出有意义的见解。