我通过多项逻辑回归分析构建了一个模型。最终模型包含三个预测变量。当所有预测变量是唯一的预测变量时,它们都是显着的。但是,当模型中包含所有三个预测变量时,其中一个预测变量的系数并不显着。
我应该在最终的多项逻辑回归方程中包含这个预测变量吗?
我通过多项逻辑回归分析构建了一个模型。最终模型包含三个预测变量。当所有预测变量是唯一的预测变量时,它们都是显着的。但是,当模型中包含所有三个预测变量时,其中一个预测变量的系数并不显着。
我应该在最终的多项逻辑回归方程中包含这个预测变量吗?
这取决于您是否在做...尽你所能。
在后者中,当多个相关的预测变量在你的方程中竞争一个角色时,你会关心诸如给予早期因素“因果关系”而不是后面的因素,因为后来发生的事情永远不会导致前面发生的事情,但有时反过来是真的。你会关心给予相对客观、相对固定的变量(如婚姻状况或种族)更多的“信用”,而不是相对主观、多变的变量(如态度和意见)。而且(在这里我是在解释詹姆斯戴维斯的《因果顺序的逻辑》)你会想要选择更多的生成因素,比如社会经济地位,而不是生成较少的因素,比如一个人使用的牙膏品牌。
当您的候选预测变量相关时,没有统计算法(例如逐步回归)可以处理这些解释问题。作为研究人员,您可以考虑候选变量并选择最适合您目的的变量。只有在纯粹的预测研究中,您才能忽略此类问题,而只需选择那些导致结果差异最大的预测变量——或者,在您的情况下,产生最高的伪 r 平方。
您的问题触及了多种类型的多元建模中重要问题的核心,如果允许超过 5 个标签,我还会列出多重共线性、模型构建和/或变量选择。
正如@rolando2 提到的,这在很大程度上取决于您要完成什么或您要回答什么问题。
如果您试图找到一个好的预测模型,那么与其仅仅决定是否包含一个术语,不如使用某种类型的收缩方法,例如惩罚回归、岭回归、套索/拉尔斯或模型平均.
您还应该考虑有关变量的外部知识。如果我的医生可以选择 2 种预测模型来帮助诊断我,我宁愿他使用使用血压作为预测指标的模型,而不是使用探查性手术结果的模型,即使它的结果略小值。
如果预测准确性是主要目标,那么通常最好使用正则化来解决相关预测变量等问题,而不执行任何特征选择。这是因为特征选择很困难。大多数情况下,特征选择是通过优化在有限数据集上评估的一些特征选择标准来执行的。由于只使用有限的数据集,特征选择标准具有非零方差,因此可能会过度拟合特征选择标准(并获得一组对于该特定数据样本而言最优的特征,但不适用于真正的基础分布,因此泛化能力很差)。当您有许多自由度来优化标准时,过度拟合总是最危险的,并且在特征选择中,每个特征都有一个。对于正则化(例如岭回归或正则化逻辑回归),只有一个自由度(岭参数),因此过度拟合的风险通常较低(但不会完全消失)。这是米勒专着附录中给出的建议“回归中的子集选择”(但没有推理 IIRC)。
如果您可以识别出作为您试图预测的数量的因果“父母”的变量,那么仅使用这些特征具有的优势是模型在外推或协变量偏移下仍然可以很好地工作(例如,数据的采样使用不同的分布),因为您的模型将代表真正的因果结构,而不仅仅是相关性。因此,如果外推或协变量偏移是一个问题,因果特征选择可能会有所帮助(尽管在实践中识别因果关系是不可靠的)。Isabelle Guyon 在这个话题上有很多值得一听的内容(刚刚在这里找到了一个我现在要观看的视频讲座)。
不需要使用相同的模型进行解释和预测,所以我会说适合两个模型,一个具有特征选择以帮助您理解问题/数据,另一个模型没有特征选择但具有适当调整的正则化用于预测。