贝叶斯信息准则 (BIC) 的计算公式为:
其中 RSS 是残差平方和,delta squared 是与每个响应测量相关的误差方差的估计。
关于这个概念 BIC,我有两个问题。
Q1。为什么拥有更多的样本量会受到惩罚,而通常拥有更大的数据样本量总是比拥有更少的样本量更好?
我了解到拥有更多的样本数据量总是更好。例如,如果您有更多的数据样本,您将有更小的标准误差、更窄的置信区间和更小的标准差。
但是根据这个BIC的公式,样本数据多的统计模型会受到惩罚,这意味着被选中的机会更少。将 BIC 与 AIC 进行比较时,这一点变得更加明显。由于 AIC 在其公式中使用 2 而不是 ln(n),如果模型的样本量 n 大于 7,则当我们使用 BIC 作为选择最优模型的一种方式时,该模型被选中的机会较小。为什么 BIC 的创建者要惩罚样本量 n 更大的模型?
Q2。为什么我的教科书“统计学习简介”将 n 的含义更改为“变量”,当我们有 d 时,它代表统计模型中的预测变量的数量?
我的书对 BIC 的描述如下。
请注意,BIC 取代了由 Cp 使用项,其中 n 是观察次数。由于对于任何 n>7,ln(n) >2,BIC 统计通常对具有许多变量的模型施加更重的惩罚,因此导致选择比 Cp 更小的模型。(第 212 页)
我无法猜测为什么这本书的作者将 n 的含义从“观察值(样本数据点)的数量”更改为“变量的数量”。我们不是已经有了变量 d,它显示了预测变量的数量加上截距?
如果这里有人能回答我的两个问题,我将不胜感激。非常感谢您的阅读!