如何转换具有极端双峰分布的连续数据

机器算法验证 正态分布 分类数据 数据转换 连续数据 偏度
2022-03-21 05:33:13

有没有办法将具有双峰分布的连续预测变量(授予)转换为正态分布(见下面的密度图)?我尝试过 log(x+c)、z-score 和逆变换方法,但我无法摆脱这种极端的双峰分布。

我应该考虑将连续变量视为分类变量吗?

数据集的样本大小为 3,000,响应变量是二分类的。

连续预测变量的密度图

QQ剧情

1个回答

1)没有办法将离散随机变量转换为连续的。如果它需要个不同的值,则没有任何转换会给您留下超过个不同的值。kk

所以你不能把它变成正常的。它总是会有两个大尖峰(或者更糟糕的是,通过非单调变换,你最终可能只有一个大尖峰)。

2)由于这是一个预测器,你不需要它是正常的,所以这种无能是无关紧要的。