如何发布带有指纹的数据集

数据挖掘 数据 匿名化
2021-10-10 22:02:37

我打算将一些大型数据集货币化。这些数据集是匿名的,并通过 Web api 发布给(付费)客户。是否有任何标准算法,如果数据集被故意公开泄露,可以更改数据以识别责任方,同时数据仍然具有实际用途?

有一些方法浮现在脑海中,例如每个客户的数据与已知的变化有很大的不同。例如,在空间数据中,每个 lon/lat 对都被同一个非常小的向量改变。我担心的是,如果数据在泄露之前被客户端再次匿名化,那么天真的尝试可能很容易被规避。

(我不是数据科学家,所以我不太确定我正在寻找的正确术语是什么)

1个回答

“数字水印”是一组可能在这种情况下有用的技术。

从维基百科页面

“水印”是在载波信号中隐藏数字信息的过程……数字水印可用于验证载波信号的真实性或完整性或显示其所有者的身份[强调补充]

为了满足您的要求,您将为每个接收您的数据的客户端插入一个唯一的水印。水印技术解决了诸如对修改的鲁棒性和不可察觉性等要求。

例如,本文讨论了对数值数据进行水印:“Watermarking Numerical Data in the Presence of Noise”,pdf