机器算法验证 - 回归中需要控制哪些变量？ - 吾爱随笔录

回归中需要控制哪些变量？

机器算法验证回归假设检验相关性心理学

2022-04-03 12:46:08

这个网站上有很多关于如何在回归分析中控制某些变量的讨论。

然而，宇宙中存在着无限的变数。而在心理学/流行病学研究中，有很多人口统计变量（例如，年龄、性别、收入、婚姻状况、子女数量等）。我们什么时候需要控制它们？有经验法则吗？

例如，如果income预计会影响我的 DV，但与它没有显着相关性，我应该控制它吗？或者，如果age预计不会影响我的 DV 但它与我的 DV 显着相关，我应该控制它吗？

3个回答

如果有怀疑变量是混杂因素的理论依据，则应将其包含在模型中以纠正其影响。另一方面，中介通常不应该包含在模型中。虽然尽可能多地纠正潜在的混杂因素似乎是个好主意，但实际上有很多理由不这样做。

何时更正变量

这个问题的一个很好但并不总是有帮助的答案是：

“当您作为您所在领域的专家相信变量会影响您的结果时。”

首先，让我们讨论一下为什么这是一个好的答案。校正大量变量是一个坏主意的原因有很多。当然，宇宙中可能有无限的变数，但是...

...这些对结果并不都有独特的影响，并且包含具有高成对相关性的变量将导致多重共线性；
...您没有无限的数据，并且您建模的所有内容都会花费您的自由度
...包括（太多）变量（预测结果不佳）导致过度拟合。

当解释变量本身可以解释为其他解释变量的组合时，就会出现多重共线性。换句话说，包括所有可能影响结果的因素意味着许多变量也会相互影响。更糟糕的是，解释变量之间甚至不需要高度相关，只要一个或多个可以用其他变量来解释即可。

估计每个参数都需要自由度。包括对结果有轻微影响或根本不影响结果的变量仍然会降低您的自由度，而不会提高模型拟合度。如果你想报告估计的重要性，这也意味着你将失去所有你试图纠正的力量。

过拟合模型是拟合过程的随机部分，而不是系统部分。换句话说，具有太多参数的模型往往会解释结果中的方差，这些方差只是由于样本中的自然随机变异性而不是由于某些潜在过程而存在的。过度拟合的模型似乎在样本上表现得非常好，但在样本外表现不佳（即泛化很差）。

因此，包含变量的理论理由通常比添加越来越多的变量来纠正更可取。

另一个支持答案的论点是，除了“作为该领域的专家”选择重要变量之外，没有其他简单的替代方法。包含所有可能涉及的变量，然后通过详尽搜索最重要的变量（称为逐步回归）来缩小范围似乎很诱人，但这实际上是一个非常糟糕的主意。

其次，让我们讨论一下为什么这并不总是一个有用的答案。如果专家知识可以决定变量的包含，这就是要走的路。然而，这种方法假设数据生成过程已经被很好地理解并且可以合理地选择变量。而且，它假定这种专业知识是正确的！在实践中，通常存在很多不确定性，什么可以影响结果，什么不能影响结果。由于不知道会影响结果而被排除的潜伏变量将不会被发现。

正因为如此，有很多替代逐步回归的建议，其中大部分是某种形式的正则化。例如：

LASSO 惩罚将某些系数缩小到零，本质上是选择非零系数；
岭回归以更尊重预测变量之间的成对相关性的方式做到这一点，但不能缩小到零（即不能选择变量）；
弹性网结合罚分；
Horseshoe 是另一种收缩形式，旨在成为“两全其美”；
偏最小二乘法解构解释变量，并根据它们与结果的相关性向主成分添加权重。

但是，请记住，不能保证 LASSO 或任何其他方法会选择正确的变量。如果可能，最好根据专家知识选择要包含的内容。如果有足够的观察结果，预测准确性可以帮助确定哪个模型是最好的。

那么这是否意味着我们永远陷入了决定包含哪些变量的漏洞？我不这么认为，我认为这是探索性分析可以提供帮助的地方。如果你真的对包含一组候选变量一无所知，也许第一项研究应该仅仅调查潜在的关系，并在报告中明确说明分析本质上是探索性的。在第二项研究中，可以使用新的独立数据集来验证这些发现的关系中哪些不是虚假的。这与我的领域（生物学）并没有太大的不同，我的领域是用一些“猎枪”方法研究大量基因、蛋白质或代谢物，然后使用定向方法对新样品进行确认。

然而，宇宙中存在着无限的变数。而在心理学/流行病学研究中，有很多人口统计变量（例如，年龄、性别、收入、婚姻状况、子女数量等）。我们什么时候需要控制它们？有经验法则吗？

如果您担心观察预测，那么变量选择是基于预测性能的模型选择标准的自然结果。但是您似乎担心进行因果推理的偏见。也就是说，您想根据您的结果提出科学的因果关系。

如果是这种情况，通过调整知道选择哪些变量来识别因果声明的问题已经（数学上）解决了：您应该在回归中包含满足后门标准的变量——也就是说，这些是阻止所有后门（混淆）路径的变量 $X$ 至 $Y$ ，不要打开其他虚假路径，也不要调解您尝试测量的效果。你也应该看看这里和这里。

后门是关于识别的。之后，您必须考虑效率。可能有一些变量不是“混杂因素”，但可以帮助您获得更精确的估计，因此您可能需要对其进行调整。如果您知道需要控制的变量太多，但相对于变量数量的数据太少，您可能需要使用正则化技术，用一些偏差换取较小的方差 --- 但请记住您正在进行正则化以优化关于特定因果量的推理，而不是整体观察预测。例如，您可能想要检查双重/去偏机器学习方法。

只是在@Frans Rodenburg 的回答中添加一句话：过度调整也可能是一个问题。即，当感兴趣的变量发生变化时，您不想控制那些保持固定不变的变量。如果变量位于从暴露到终点的因果路径中，这是典型的。例如，如果您根据产妇年龄对婴儿死亡率进行建模，您可能不想控制出生体重，因为产妇年龄的影响特别是因为它会影响出生体重。在其他条件不变的情况下，这意味着您可以在出生体重固定的情况下改变孕产妇年龄，而这并不是我们感兴趣的是什么。当然，母亲的年龄可能会产生一些间接影响——即不是通过出生体重介导的东西——在这种情况下，模型仍然有意义。

其它你可能感兴趣的问题

上一篇是否缩放中心χ2χ2分布产生非中心分布？χ2χ2 下一篇对于独立房车X1,X2,X3X1,X2,X3，做X1+X2=dX1+X3X1+X2=dX1+X3意味着X2=dX3X2=dX3?