假设我运行线性回归
y = x*b + 误差,
并获得预测 y_p。此外,假设我可以通过调用具有两个参数的函数 R(y, y_p) 来计算 R 平方:观察向量和预测向量。
现在,我对转换后的响应运行线性回归
ln(y) = x*b + 误差,
并获得预测 y_ln_p。为了与以前的模型进行公平比较,我如何计算 R 平方?两者哪个更好:
a) R(ln(y), y_ln_p)
b) R(y, e^y_ln_p)
谢谢!
注意:ln 是自然对数。
假设我运行线性回归
y = x*b + 误差,
并获得预测 y_p。此外,假设我可以通过调用具有两个参数的函数 R(y, y_p) 来计算 R 平方:观察向量和预测向量。
现在,我对转换后的响应运行线性回归
ln(y) = x*b + 误差,
并获得预测 y_ln_p。为了与以前的模型进行公平比较,我如何计算 R 平方?两者哪个更好:
a) R(ln(y), y_ln_p)
b) R(y, e^y_ln_p)
谢谢!
注意:ln 是自然对数。
根据汇总/拟合统计量(RMSE和),当某些模型的因变量被转换以致单位发生变化时,因为汇总统计不可比。考虑一下 Maddala (1988, p. 177) 的以下很好的解释:
在比较线性和对数线性形式时,我们不能比较 R 平方,因为 R 平方是解释方差与总方差的比率,并且 y 和 log y 的方差不同。在这种情况下比较 R 平方就像比较两个人 A 和 B,其中 A 吃了 65% 的胡萝卜蛋糕,B 吃了 70% 的草莓蛋糕。比较没有意义,因为有两种不同的蛋糕。
为了补偿尺度变化,传统上人们通过使用所谓的反向变换方法将对数变换恢复到原始尺度(有关更多详细信息、解释和示例,请参见此页)。
关于基于信息论的模型统计,例如AIC/BIC,一般不能使用它们来比较未转换和转换的模型(参见this和this。但是,可以将AIC与修改后的AIC(不确定BIC),如这里和这里所讨论的。
一个额外的 - 也是最后的 -说明通常更喜欢使用调整而不是标准的。请查看我的相关答案和那里提供的链接。
参考
马达拉,GS(1988)。计量经济学导论。纽约:麦克米伦出版社