计算AIC、BIC等时的稀疏参数

机器算法验证 回归 模型选择 aic 比克
2022-04-10 09:33:25

我正在设计具有大量稀疏二值化特征的大规模正则化逻辑回归模型。例如isUS、isFR等。因此,模型中的很多权重都是零。

我想知道如何计算模型选择标准(如 AIC、BIC 等)中的“参数数量”。我应该只计算非零权重的数量还是所有权重的数量?

例如,如果有 10 个可能的国家,但只有 6 个具有非零权重,那么参数的数量是 6 还是 10?

2个回答

自由度不仅仅取决于结果,还取决于拟合过程。如果是最大似然,则所有参数都计算在内。

有一个有趣的案例,零权重不计算在内,这就是套索:H Zou, T Hastie, R Tibshirani 关于套索的“自由度”。统计年鉴,2007

如果没有精确的拟合算法知识,这是一个非常难以回答的问题,也没有明确的“参数数量”的合理定义可以证明 AIC、BIC 或其他“信息标准”的合理性。

如果估计是通过惩罚的最大似然估计完成的,那么我可以通过 user27493 部分迭代答案。在这种情况下,估计的非零参数数量可以合理地替代 AIC 中的参数总数。但是请注意,Zou 等人。 -penalty的最小二乘回归不是逻辑回归。例如,参见微分几何最小角度回归: L. Augugliaro 等人的稀疏广义线性模型的微分几何方法。对于与广义线性模型相关的结果。11

BIC不同,我不知道这个方向的结果。

Lucas Janson、William Fithian 和 Trevor Hastie 最近在存档上发表的标题为“有效自由度:一个有缺陷的隐喻”的论文表明,根据数据生成机制,有效自由度(“参数数量") 可能超过参数的总数,甚至可能是无界的。

在这篇论文中(我的研究的无耻自我提升)非线性最小二乘估计的自由度与我的合著者亚历山大·索科尔,我们表明对于非线性最小二乘估计,有效自由度通常包含一个难以估计的项,它取决于数据生成模型。这也是 Janson 等人的一些示例中出现的内容。上面提到的纸。在渐近场景中,如果模型接近真实和/或模型没有“弯曲太多”,并且如果您使用1-惩罚最小二乘估计,有效自由度的有用替代估计仍然是估计的非零参数的数量。但是,一旦您移出一些标准和性能最良好的模型,任何事情都可能发生。