我多次读到,回归中至关重要的是(1)查看“平均结构”,以及(2)查看“均值/方差关系”。
唉,我完全不知道这意味着什么,以及它如何与各种回归的假设相关联(例如 OLS 中的同方差性和正态分布,有序回归中的比例优势假设等)
你能提示我一些读数吗?
我多次读到,回归中至关重要的是(1)查看“平均结构”,以及(2)查看“均值/方差关系”。
唉,我完全不知道这意味着什么,以及它如何与各种回归的假设相关联(例如 OLS 中的同方差性和正态分布,有序回归中的比例优势假设等)
你能提示我一些读数吗?
考虑标准线性模型的假设:
“错误” 是独立同分布的。
第一个假设涉及“均值结构”:它规定响应变量的期望(它们的“均值”)线性依赖于解释变量。这一假设的失败(或违反)反映在缺乏拟合优度,并且通常是异方差残差。它可以通过在模型中引入更多变量或交互项和/或通过自变量或解释变量的非线性重新表达来解决。
有关平均结构的更多信息,请阅读拟合优度测试、引入交互项和检查响应的线性度。
第二个假设涉及错误并包含两个相关的想法:独立性和相同分布。很自然地转向的多元分布的二阶矩来描述对这些假设的偏离(或违反):
和,之间的非零协方差可以揭示缺乏独立性。
之间的不同方差(缺乏同方差性)来揭示缺乏相同的分布。
(从中减去不会改变方差或协方差,因为这些被理解为以 这解释了为什么我们可以将注意力集中在的属性而不是错误的属性上。)
我们可以将其统称为“方差结构”。在第二种情况下,对相同分布的偏离通常会得到一个简单的形式:的期望有某种确定的关系。这是“均值/方差”关系。这种关系出现在实际数据中,并且通常表明的一些非线性重新表达将是有用的。例如,当 Y 的方差与期望成正比时的平方根是解释变量,而不是本身。
处理违反第二个假设的方法有很多,从广义线性模型到重新表达变量的方法,包括Box-Cox 变换,以及 GARCH(时间序列)等专门模型。标准回归诊断,包括针对拟合值的残差图,旨在检测和量化与该假设的偏差。
请注意这些注意事项如何与构建适当的模型相关。它们不涉及残差的典型大小(的观察值与其估计值之间的差异):这是分析人员无法控制的数据属性。Erogol 的回答说明了满足 (1) 和 (2) 且残差较小的线性模型与另一个满足 (1) 和 (2) 且残差较大的线性模型之间的区别。
均值和方差关系显示了数据点在特征空间上的分布。更大的方差意味着更多的空间分布,因此如果您使用线性回归算法,则更有可能进行糟糕的回归。
正如您从高方差情况下的数字中看到的那样,您的回归解决方案对于新来者实例的性能相当差,即使对于训练集也是如此
