对于我们作为第三方承包商工作的一个项目,我们需要一种方法让公司共享一些可用于数据科学的数据集。公司不可能共享真实数据,因为这将是一个隐私问题。
我们正在探索一些方法,以便公司可以在保持隐私的同时共享数据,或者生成与实际数据的统计/人口统计相匹配的虚假数据。
我们目前正在研究几个选项:
- 使用差分隐私为数据添加噪声,然后与我们共享转换后的数据。这种方法会导致任何隐私问题吗?我担心逆向工程。“隐私预算”在这里适用吗?应该如何解决?
- 使用编码器-解码器神经网络来学习真实数据的向量嵌入。一旦学习了向量嵌入,就可以破坏解码器,并且可以与我们共享编码器的输出。
是否有任何其他方法可用于在人口统计和统计方面类似于实际数据的合成数据生成。或者,在不侵犯隐私的情况下,访问真实数据的最佳方式是什么?