论文中的模型选择:关于丢弃的变量怎么说?

机器算法验证 模型选择 报告
2022-04-02 06:48:42

我有一个问题(希望比我今天之前的帖子更简单!),这可能非常愚蠢,因为以前没有人问过它。

假设我试图解释 3 个变量(A、B 和 C)对依赖变量(Y)的影响。从生物学上讲,A和B确实应该对Y产生影响。所以我正在测试:

Y ~ A + B + C

但是当我使用模型选择方法(无论方法是什么)时,“最佳”模型,即最适合数据的模型,会下降 A。所以我最终得到:

Y ~ B + C

那我能对A说什么呢?

我可以引用一些东西来证明下降的合理性(F 统计数据、关于 AIC/BIC 的东西等)吗?

或者

如果我需要证明 A 没有效果,我还需要使用完整的模型吗?

1个回答

这取决于你的目标。由于 A“确实应该”对 Y 有影响但似乎没有,我肯定会包括完整的模型。正如拖延者所建议的那样,模型选择可能有助于提出一个简约的新模型——如果这是你的目标。但是,如果您的目标是估计您的预测变量和 Y 之间的关系,那么我认为您根本不需要模型选择步骤 - 只需展示您的完整模型结果。