也许这是一个非常基本的问题并且已经回答了,但我找不到明确的答案。
我的响应图与预测变量显示“曲线”关系,对数变换有助于实现线性。但是,当我对响应变量进行对数转换或对解释变量进行对数转换时,它也会有所帮助。它们的分布都或多或少接近正常。
那么,从统计的角度来看,什么是更好的转换、响应或预测?还是回归无关紧要,我只需要寻求正态分布?
(我在这里看到,当预测变量没有被转换时,R2 与残差的方差有关并且可以信任。这是唯一的原因吗?)
也许这是一个非常基本的问题并且已经回答了,但我找不到明确的答案。
我的响应图与预测变量显示“曲线”关系,对数变换有助于实现线性。但是,当我对响应变量进行对数转换或对解释变量进行对数转换时,它也会有所帮助。它们的分布都或多或少接近正常。
那么,从统计的角度来看,什么是更好的转换、响应或预测?还是回归无关紧要,我只需要寻求正态分布?
(我在这里看到,当预测变量没有被转换时,R2 与残差的方差有关并且可以信任。这是唯一的原因吗?)
这取决于实际情况。当您有多个自变量时,有时它们中只有一个具有非线性关系 - 在这种情况下,转换因变量可能会导致其他变量出现问题。在某些情况下,对数变换对一个或另一个变量更有意义。如果您仅记录变换 DV,那么您就是说 IV 中的算术变化与 DV 中的几何变化有关。如果您转换(部分或全部)IV,则相反。通常,与收入或其他金额相关的变量更有意义对数转换。也就是说,收入从每年20,000 美元变为40,000美元更像(在某种意义上)从200,000 美元变为400,000美元,而不是从200,000美元至220,000美元。如果您的所有变量都可以进行合理的对数转换,那么最好进行一些非线性回归,例如样条曲线。
做线性调节。最好转换独立(解释性)变量并根据您的数据使用转换方法,如果 r-square 较高且 MSE 最小,则模型的 r-square 和模型的 MSE(误差均方)说转型是合适的..