纠正具有人为低起始值的数据集

数据挖掘 统计数据 数据清理
2022-03-17 16:43:48

我正在做一个项目,我们希望获得两个测量值 A/B 的比率,并将这些比率应用于排名算法。该比率在排名之前被标准化(尽管排名/标准化对我的问题并不重要)。

在大多数情况下,测量 A(起始测量)是一个大于 1000 的计数。我们预计测量 B 的正面影响会增加,而测量 B 的负面影响会减少。

这是问题所在,我们的一些起始计数几乎为零,我们认为这是实验准备的产物。这当然会导致这些数据点出现一些非常高的比率/缩放问题。

为了更好地理解我们实验中的实际作用,调整这些值的最佳方法是什么?

我们收到的一个建议是将所有计数(来自测量 A 和 B)添加 1000 以缩放值并消除如此低的起始计数的偏差,这是一个可行的选择吗?提前感谢您的帮助,如果我不够清楚,请告诉我。

1个回答

是的,一般的想法是为每个类别添加一个基线小计数。对此的技术术语是拉普拉斯平滑真的,它不是一个黑客,而是编码你认为发生的事件有一些(统一?)先验分布的想法。