我有一组具有非常大的正偏斜的数据,并且已经使用对数进行了转换。我希望使用lm
R 中的函数从另一个变量中预测一个变量。由于两个变量都已转换,我很清楚我的回归将输出方程:
ln(y) = b*ln(x) + a
, 其中a
和b
是系数。
模型拟合良好,R 平方几乎为 0.6,产生一系列预测的 y 值。
现在,我使用以下等式对变量进行了“反向转换”:
y_predicted = exp(a)*x^b
但是,较大的 x 和 y 的预测值明显低于应有的值。由于我将使用所有 y_predicted 值的平均值和总和与 y_actual 值进行比较,这使得我的模型预测不足 75%。
由于对数标度,对数域中最佳拟合线的小偏差会在反向转换时导致非常大的偏差。
我的问题是如何充分处理这个问题?我可以提出我自己的回归系数,这可以确保最佳拟合线过度预测其中一些较大的值,并使总和更加一致。但是,这将违背首先使用线性模型的观点,从而优化模型。
另外,我不确定这在“统计上”有多有效,因为该方法无法复制,因为系数是由眼睛确定的。
欢迎提出想法!