我首先对所有变量进行回归,然后仅对重要变量(或感兴趣的变量)再次进行回归。
第二次回归中的一个变量与另一个感兴趣的变量高度相关,尽管它们都很显着但高度相关。这导致其他变量的系数的符号走向相反的方向(不是按照预期或理论)。
我的问题是,我们仍然可以删除其中一个(相关的)重要变量吗?它使整个结果按预期进行。
谢谢
我首先对所有变量进行回归,然后仅对重要变量(或感兴趣的变量)再次进行回归。
第二次回归中的一个变量与另一个感兴趣的变量高度相关,尽管它们都很显着但高度相关。这导致其他变量的系数的符号走向相反的方向(不是按照预期或理论)。
我的问题是,我们仍然可以删除其中一个(相关的)重要变量吗?它使整个结果按预期进行。
谢谢
请不要为基于 p 值的回归模型选择变量。
也请不要选择变量,以便获得“符合预期”的结果。
如果您一开始就在模型中包含变量,这可能是因为它们被确定为可能的混杂因素或与您的主要风险无关但与结果(竞争风险)相关的变量。这些都是很好的理由,p 值不是决策的一部分。
当然,重要的是不要过度调整可能的混淆,并避免像对撞机上的条件一样。在我看来,做到这一点的最好方法是使用因果图或 DAG 考虑变量之间可能的因果关系,然后它会告知您要作为条件的最小足够变量集。一个很好的免费在线也是http://www.dagitty.net/
此外,此答案可能会帮助您了解不以原则方式选择变量的陷阱。
DAG 如何帮助减少因果推理中的偏差?
仅解决实际问题:显着性意味着有证据表明该变量在模型中的所有其他变量的情况下具有非零贡献。这意味着相关性不是删除重要变量的正当理由,因为它的重要性意味着它的贡献不能被其他变量解释。
否则,我同意对基于 p 值的变量选择的批评意见。套索在这里可能会更好。此外,如果您根据对理论的期望来选择分析,那么您的分析将是无效的,因为您为了符合您的理论而偏向它们。
这导致其他变量的系数的符号走向相反的方向(不是按照预期或理论)。
基本上(即这是一个过度简化),这意味着一旦第一个变量的影响得到控制,第二个变量的影响是负的。例如,假设您正在对寿命进行回归,您的变量之一是糖尿病诊断,另一个是胰岛素的使用。您可能会发现胰岛素的使用与寿命呈负相关。但是,当您包括糖尿病诊断时,效果可能会变得积极。这是因为与普通人群相比,患有糖尿病并正在使用胰岛素的人的预期寿命较低,但与患有糖尿病但未注射胰岛素的人相比,预期寿命较高。
我的问题是,我们仍然可以删除其中一个(相关的)重要变量吗?它使整个结果按预期进行。
那么,回归的目标是什么?深入了解现实,还是想出符合您期望的数字?如果负系数真的让您感到困扰,您可以看看在执行 PCA 并对主成分而不是原始变量进行回归时会发生什么。在我上面的例子中,“患有糖尿病并且不服用胰岛素”可能是第一个组成部分,而“服用医学上适当水平的胰岛素”是第二个组成部分。查看组件的结果以及它们的系数可能会让您更深入地了解正在发生的事情,并导致系数“更有意义”。
这里的教训是正确解释回归是复杂的,并且不仅仅涉及查看系数。仅仅说“变量的系数代表该变量对响应变量的影响程度”是一种简化,有时会非常误导。