匿名化连续变量以进行屏蔽

数据挖掘 掩蔽 转型
2022-03-02 04:02:16

我即将开始一个大型黑客马拉松活动。

我们有一个数据集,该数据集由一个高精度连续变量和一些分类变量组成,这些变量对这些数据进行了 3 级深度的限定。

数据提供者希望“屏蔽”数据,以使原始值无法进行逆向工程。我不担心分类变量,这很简单。但是连续变量很棘手。

  1. 对数变换很容易逆向工程
  2. 非线性变换更好,但会弄乱类别之间的值关系
  3. 纯线性变换会起作用,但似乎不够“掩盖”。

我需要保留数字之间的关系,同时还要保护实际的真实值。

想法非常感谢。

1个回答

我认为您可以使用更复杂的单调变换,例如

log(1.234578 + sqrt(x + 7.4142) ** 3)

这将比简单的日志更难反转。但是,正如 Nikos 所说,严格单调函数是可逆的,所以你所能做的就是通过组合许多单调函数来使逆计算变得非常困难。