标准化/标准化不同等级量表的方法

数据挖掘 统计数据
2021-10-07 02:47:35

我知道有正常的减去平均值并除以标准偏差来标准化您的数据,但我很想知道是否有更合适的方法来处理这种离散数据。考虑以下情况。

我有 5 个项目已被客户排名。前 2 个项目按 1-10 分进行排名。其他是 1-100 和 1-5。要将所有内容转换为 1 到 10 的比例,是否还有另一种更适合这种情况的方法?

如果数据具有集中趋势,那么标准会很好地工作,但是当你有更多的光环效应,或者更多的指数分布时呢?

2个回答

对于 item-ratings 类型的数据,在转换后项目的评分应在 1 到 10 之间的限制,我建议使用简单的重新缩放,以便项目的转换评分 xt 是(谁)给的:

xt=9(xixminxmaxxmin)+1

在哪里 xminxmax 是项目在特定尺度中的最小和最大可能评级,并且 xi 是项目评级。

在上述缩放的情况下,应用的变换与数据无关。但是,在标准化中,应用的转换取决于数据(通过平均值和标准差),并且可能会随着更多数据的可用而改变。

本文档第 30 页的第 4.3 节显示了其他规范化方法,其中您的限制(转换为相同的绝对比例)可能不会被保留。

本文中还有另一种有趣的技术,称为解耦归一化方法。我用过,发现效果不错。这会找到用户对特定项目的亲和力,然后您可以根据需要将其缩放到 5 或 10 的比例。希望能帮助到你。