机器算法验证 - 在线性回归的情况下，如果参数不相关，这是否会使模型更好？如果是，为什么？ - 吾爱随笔录

在线性回归的情况下，如果参数不相关，这是否会使模型更好？如果是，为什么？

机器算法验证回归线性的

2022-03-02 07:43:07

我是统计初学者，任何帮助将不胜感激。

4个回答

这取决于“使模型更好”的含义。你想用这个模型来说明世界是如何运作的，或者做出预测吗？

如果协变量不相关，则与它们相关的 beta 值通常会接近独立。（这与参数正交性的概念相关但不完全相同。）如果您想将 beta 解释为关于现实世界的一些事情并且您不希望它们相互混淆，这很有用。
如果您担心模型预测的准确性，那么它实际上并没有任何区别。Beta 值将相互关联，但预测不受影响。您可以正交化您的协变量，这将完全改变 beta 的定义和解释，但拟合值、残差和预测将与以前相同。

我认为参数是指功能，正如@whuber 评论的那样，这很不寻常。下一段基于这个假设。

不必要。高度相关的特征会导致多重共线性，但这并不意味着具有相关特征的模型比不相关特征更差。一个模型可以有一组很好地描述目标变量的相关特征，或者一组不相关的特征，并且与目标变量没有任何关系。

对于参数估计不相关性，使用类似的想法，假设您具有与目标变量不相关的不相关随机特征。由于特征是完全随机的，所以参数估计也将没有相关性。因此，如果没有相关性，仍然很难说模型更好。

我同意@gunes 的观点，您可能会偶然发现在高度相关的特征上进行训练会比在不相关的特征集上产生更好的结果，但前提是您的特征很好（即很好地解释目标）。

不过，根据我的经验，最好去掉高度相关的特征，因为这会简化你的模型，并且不会过多地损害可预测性（因为如果 cor(x, y) 很高 - 它足以知道其中任何一个获得预测的特征）。

例如，如果您有房屋的平方英尺和其中的房间数量，那么这些特征很可能是高度相关的，因此您可能会考虑仅获取其中信息量最大的信息，从而简化模型，并且仍然保持准确性。

另一方面，如果你的所有特征都是不相关的，它们中的每一个都会让你的模型对问题有不同的看法，这将有助于它更好地泛化。

希望有帮助。干杯。

据我估计，您的问题更符合@whuber 在评论中指出的第三种解释。

这是一个简单的线性回归模型：

Y = β_{0} + β_{1} X_{1} + ϵ .

$Y = \beta_{0} + \beta_{1}X_{1} + \epsilon.$

我假设您已经建立了一个模型，并且正在调查变量的影响 $X_{1}$ 你认为对你的因变量有因果影响 $Y$ . 此时，您可能需要调查其他变量对结果的影响。但是，您发现数据集中的其他特征与 $Y$ ，或者可以预测 $Y$ ,但与 $X_{1}$ . 在这种情况下，我认为这些变量可以安全地从您的分析中省略。为了这个解释，我假设您没有自动选择预测变量，并且已经考虑了一个基本的解释模型。

回归分析的主要目标之一是“分离”出 $X_{1}$ 与等式右侧的其他变量，因此我们可以检查 $X_{1}$ 的独特影响 $Y$ . 现在，这是第二个带有控制变量的模型， $X_{2}$ ，包括：

Y = β_{0} + β_{1} X_{1} + β_{1} X_{2} + ϵ .

$Y = \beta_{0} + \beta_{1}X_{1} + \beta_{1}X_{2} + \epsilon.$

一般来说，必须满足两个条件。一、变量 $X_{2}$ 也应该与 $Y$ . 其次，变量应该与 $X_{1}$ ，但不完全相关。如果 $X_{2}$ 与_ $X_{1}$ ，然后将其包含在上述等式中使我们能够检查 $X_{1}$ 在 $Y$ 在持有的同时 $X_{2}$ 固定。但是，如果不满足后一个条件，并且 $X_{2}$ 不相关_ $X_{1}$ ，那么这个变量可以从分析中删除。我认为它更有可能在以下情况下被丢弃 $X_{2}$ 是明确测量的，并且明确包括在内——它与模型中已经存在的主要解释变量无关。同样，多元回归的一个重要特征是清除 $X_{1}$ 的相关性 $X_{2}$ . 投入一系列正交回归量（如果很大）会降低估计系数的精度。所以从我的角度来看，我不会说一个模型“更好”，在你的等式右边有更多不相关的控制。

我同意@MichaelSidoroff 的回答，即一旦一组不相关的特征进入模型并且您没有任何先验理论基础来包含它们，那么每个因素都会为所研究的现象提供不同的视角。请注意为什么在大多数随机研究中通常不需要多元回归。随机化排除了研究中的主要治疗变量（自变量）与其他观察到的（和未观察到的）个体特征之间的任何相关性。因此，无需使用多元回归框架明确控制个体之间的其他观察到的因素，因为相关性已被移除（或者至少我们希望它已经移除）。

其它你可能感兴趣的问题

上一篇为什么需要测度论来理解连续随机变量和概率密度函数？下一篇我对全方差定律的证明有什么问题？