在贝叶斯信息准则 (BIC) 中,为什么更大的 n 会受到惩罚?

机器算法验证 aic 比克
2022-03-31 01:43:15

贝叶斯信息准则 (BIC) 的计算公式为:

BIC=1nδ^2(RSS+ln(n)dδ^2)

其中 RSS 是残差平方和,delta squared 是与每个响应测量相关的误差方差的估计。

关于这个概念 BIC,我有两个问题。

Q1。为什么拥有更多的样本量会受到惩罚,而通常拥有更大的数据样本量总是比拥有更少的样本量更好?

我了解到拥有更多的样本数据量总是更好。例如,如果您有更多的数据样本,您将有更小的标准误差、更窄的置信区间和更小的标准差。

但是根据这个BIC的公式,样本数据多的统计模型会受到惩罚,这意味着被选中的机会更少。将 BIC 与 AIC 进行比较时,这一点变得更加明显。由于 AIC 在其公式中使用 2 而不是 ln(n),如果模型的样本量 n 大于 7,则当我们使用 BIC 作为选择最优模型的一种方式时,该模型被选中的机会较小。为什么 BIC 的创建者要惩罚样本量 n 更大的模型?

Q2。为什么我的教科书“统计学习简介”将 n 的含义更改为“变量”,当我们有 d 时,它代表统计模型中的预测变量的数量?

我的书对 BIC 的描述如下。

请注意,BIC 取代了2dδ^2由 Cp 使用ln(n)dδ^2项,其中 n 是观察次数。由于对于任何 n>7,ln(n) >2,BIC 统计通常对具有许多变量的模型施加更重的惩罚,因此导致选择比 Cp 更小的模型。(第 212 页)

我无法猜测为什么这本书的作者将 n 的含义从“观察值(样本数据点)的数量”更改为“变量的数量”。我们不是已经有了变量 d,它显示了预测变量的数量加上截距?

如果这里有人能回答我的两个问题,我将不胜感激。非常感谢您的阅读!

3个回答

我认为以下内容将回答您的两个问题。

首先,您在使用此类标准时选择具有最小值的模型,因此 n 与您写下的效果相反,因为单独增加 n 会降低值。

其次,信息准则用于在不同模型之间进行选择,而不是在不同样本之间进行选择。使用这些标准的原因是添加更多参数总是会增加拟合,但这并不一定意味着模型更好,因为学术界对简约性和自由度的关注以及实践中的过度拟合关注。

BIC 等标准将用于比较具有不同变量的模型,其中 n 相同。因此,n 不是为了惩罚或支持样本量。我猜它是用来规范化 RSS 的,因为 RSS 会随着 n 无限增加。相反,添加更多参数会受到惩罚,因为它会增加标准的值。

Cp(和 AIC)以 2 倍惩罚每个参数。BIC 以一个因子惩罚每个参数ln(n)其中,对于n>7如您引用的段落中所述,大于两个。因此,BIC 对每个参数施加了更大的惩罚,并且会倾向于选择比 AIC 或Cp.

如您所知,这些标准旨在比较适用于具有不同数量参数的相同样本的模型。一切都归结为“校正”拟合优度统计量(减去对数似然度、残差之和或其函数)以及拟合参数的“成本”。BIC 简单地放置(对于n>7) 每个参数的价格标签更高,并且随着价格的增加而略有增加n.

你的推论有误。BIC 不会惩罚更多数据。对 n 的实际依赖是ln(n)n这是 n>2 的单调递减函数,因此当 n 增加时减少(而不是增加)惩罚。与简单的 AIC 相比1n,由于 n 大而导致的惩罚减少较小。总之,它确实随着 n 的增加而减少了惩罚,但减少的量小于 AIC 中的减少量。