我有一个从 1,000,000 个经验值的向量生成的 PDF(概率密度函数)。这个经验 PDF 严重向右倾斜。
在这种形式下,我无法使用线性回归做出准确的预测。
为了解决这个问题,是否有某种方法可以找到函数 F(x) 将向量中的值转换(即“挤压”)为标准正态分布,以便我可以将所述转换后的向量输入线性回归?
当然,这也将涉及找到将任何预测转换(即“去挤压”)回原始经验 PDF 的 F(x) 的倒数。
我试过的
到目前为止,我已经设法从经验数据中生成了密度函数:

这是R代码:
par(mfrow=c(2,1))
install.packages("bootstrap")
library(bootstrap)
data(stamp)
nobs <- dim(stamp)[1]
hist(stamp$Thickness,col="grey",breaks=100,freq=F)
dens <- density(stamp$Thickness)
lines(dens,col="blue",lwd=3)
plot(density(stamp$Thickness),col="black",lwd=3, main="Simulation to choose density plot")
for(i in 1:10)
{
newThick <- rnorm(nobs,mean=stamp$Thickness,sd=dens$bw*1.5)
lines(density(newThick,bw=dens$bw),col="grey",lwd=3)
}
# If I wanted to do a linear regression to predict stamp thickness,
# what is the function F(x) to "squash" (i.e. transform) the "stamp"
# vector into a normal distribution, and the corresponding inverse
# function Finv(x) to "desquash" (i.e. untransform) any predictions back
# into the original prediction?
更新 1
@Andre Silva 建议:
需要正态分布的是从您的(多重)线性回归模型中得出的残差(预测与观察)。
根据关于多元线性回归的帖子:
拟合回归线后,重要的是要研究残差以确定它们是否符合正态分布的假设。标准化残差 y - 的正态分位数图显示在左侧。尽管有两个较大的值可能是数据中的异常值,但残差似乎并未以任何系统方式偏离正态分布的随机样本。

更新 2
请参阅R 代码观察到的左偏态与对称分布,这说明唯一相关的问题是残差是否为正态分布。