我打算将一些大型数据集货币化。这些数据集是匿名的,并通过 Web api 发布给(付费)客户。是否有任何标准算法,如果数据集被故意公开泄露,可以更改数据以识别责任方,同时数据仍然具有实际用途?
有一些方法浮现在脑海中,例如每个客户的数据与已知的变化有很大的不同。例如,在空间数据中,每个 lon/lat 对都被同一个非常小的向量改变。我担心的是,如果数据在泄露之前被客户端再次匿名化,那么天真的尝试可能很容易被规避。
(我不是数据科学家,所以我不太确定我正在寻找的正确术语是什么)
我打算将一些大型数据集货币化。这些数据集是匿名的,并通过 Web api 发布给(付费)客户。是否有任何标准算法,如果数据集被故意公开泄露,可以更改数据以识别责任方,同时数据仍然具有实际用途?
有一些方法浮现在脑海中,例如每个客户的数据与已知的变化有很大的不同。例如,在空间数据中,每个 lon/lat 对都被同一个非常小的向量改变。我担心的是,如果数据在泄露之前被客户端再次匿名化,那么天真的尝试可能很容易被规避。
(我不是数据科学家,所以我不太确定我正在寻找的正确术语是什么)