问题 1
是的,如果我们说三个变量(在这里写出来会很乏味),那么所有包含 1 个预测变量的模型都将被拟合:
yi=β0+β1xi1+εi
yi=β0+β1xi2+εi
yi=β0+β1xi3+εi
然后包含两个预测变量的所有组合
yi=β0+β1xi1+β1xi2+εi
yi=β0+β1xi2+β1xi3+εi
yi=β0+β1xi1+β1xi3+εi
然后是三个预测变量的所有组合,在这种情况下只是一个,完整的模型
yi=β0+β1xi1+β1xi2+β1xi3+εi
问题2
您想如何衡量“最佳” ?常用的度量包括 AIC、BIC 或 Mallow's Cp,或调整后的R2或普通的旧R2. 所有这些都将根据该指标的特征对模型进行排名,但在实践中,它们都在告诉您考虑到模型拟合的复杂性,哪个模型给出了最佳预测(预测准确性或相关)。
经历了这个过程之后,就很难再使用p模型中术语的测试值或所有术语的综合测试,因为此类测试对您对数据进行的选择过程一无所知。也不清楚如何通过最佳子集选择“纠正”选择过程的 p 值(Hastie 等人 2009 - 抱歉,我现在无法完全找到该页面,如果我找到它会添加之后)。
此外,因为您使用的是包含硬性阈值(术语在模型中或不在模型中,在这种情况下,它的系数是βij=0) 系数很可能有偏差。如果真实系数较小,则根据您收集的数据样本,可能无法在上述过程中被选中。在这种情况下,您的模型会说系数的估计值为 0,这与真实值相比偏低。保留在模型中的变量也可能具有偏高的系数,因为如果这些项具有很大的影响,则选择过程可能会保留这些项,如果没有,则将其丢弃。