有没有办法将具有双峰分布的连续预测变量(授予)转换为正态分布(见下面的密度图)?我尝试过 log(x+c)、z-score 和逆变换方法,但我无法摆脱这种极端的双峰分布。
我应该考虑将连续变量视为分类变量吗?
数据集的样本大小为 3,000,响应变量是二分类的。


有没有办法将具有双峰分布的连续预测变量(授予)转换为正态分布(见下面的密度图)?我尝试过 log(x+c)、z-score 和逆变换方法,但我无法摆脱这种极端的双峰分布。
我应该考虑将连续变量视为分类变量吗?
数据集的样本大小为 3,000,响应变量是二分类的。


1)没有办法将离散随机变量转换为连续的。如果它需要个不同的值,则没有任何转换会给您留下超过个不同的值。
所以你不能把它变成正常的。它总是会有两个大尖峰(或者更糟糕的是,通过非单调变换,你最终可能只有一个大尖峰)。
2)由于这是一个预测器,你不需要它是正常的,所以这种无能是无关紧要的。