通过移动平均线保护隐私?

数据挖掘 时间序列 聚合 隐私
2022-03-10 19:27:39

我正在考虑以下假设情况:我有一个时间序列的数据。一般来说,“公众”应该有权访问这些数据的特征。但是,使时间序列可用将构成隐私泄漏。我正在考虑改为使用移动平均线。

任何人都可以推荐一些关于此的文献或一些替代方法吗?

我知道这是一个个案问题。但是,我认为应该有一个通用的答案,大致如下:

1) 发生隐私泄露是因为您可以通过使用外部信息将时间戳与个人相匹配。

2)因此,你想让每个窗口聚合几个人的数据。(数据的形式是平均值是一个有意义的量。)

如果有足够的决心,当然有办法打破这种隐私。我认为在这种情况下没有人是。因此,如果可能的话,我正在寻找处理一些现实世界案例研究的文献。

(这种情况是假设的。我无权访问数据。我是想要数据的“公众”,我想提出一种合理的聚合方法。)

我还在交叉验证中问了这个问题:https ://stats.stackexchange.com/questions/324204/privacy-through-moving-averages

2个回答

关键问题是我们如何允许公众在不泄露私人信息的情况下对数据集进行有用的查询。

差分隐私领域就是为了回答这个问题。

关键概念是跟踪用户的查询和透露的信息,并为答案增加不确定性以保证隐私。

例如,像“欧洲的癌症发病率是多少?”这样的广泛查询。答案可能是“1% +/- .1%”,而“居住在我邻居地址的 72 岁男性人口的癌症发病率是多少?” 会给出“50% +/- 50%”的答案:我们不想透露特定个体是否患有癌症。

差分隐私为用户提供信息预算并跟踪查询、结果和显示的信息。你问得越多,或者你越接近个人信息,答案就越不具体。在某一时刻,信息预算已用尽,无法再查询。你最终只会得到“你的邻居患癌症的概率 p=0.5 +/- 0.5”。

这也可以防止构建一个巧妙的查询序列来确定答案,就像在“20 个问题”的儿童游戏中一样。例如,您可能会尝试提出诸如“这个城市 72 岁男性患癌症的比例是多少?”之类的问题?“身高 182 厘米的男性在 72 岁时的癌症发病率是多少?” “我街上患癌症的男性的身高分布是多少?” 等等,直到你能推断出你身高 182 厘米、72 岁的男性邻居是否患有癌症。

差分隐私保证此类策略永远不会奏效(在某些假设下)。

移动平均线

在此背景下,您仅发布移动平均线的示例似乎很合理。差分隐私可用于计算移动平均线在您的数据集上需要多长时间或多短,以便在保护隐私的同时提供最佳信息。

根据您在此处使用的内容,一种可能有效的方法是“抖动”数据。换句话说:添加噪音。您的担忧似乎是人们从特定的时间戳值中得到识别,所以抖动那些。根据数据的不同,您最终可能会得到与数据中的任何个人完全不相符的新时间戳,同时将公众从数据中得出推论的能力影响降到最低。