为 k-means 校正了 AIC (AICC)

机器算法验证 模型选择 aic k-均值
2022-03-24 11:38:32

我想计算AICc(更正AIC) 让 k-means 决定聚类的数量,但是有一个我不知道如何解决的过拟合问题。假设我有n的数据点d每个尺寸,我想将它们聚集在一起n指向c集群。赤池信息准则 (AIC) 是2ln(L)+2k在哪里k是自由参数的数量,对于 k-means,它是c(d+1). 而对于AICc,公式变为2ln(L)+2kn/(nk1).

现在,让我们说n=1000,d=200,c=10,则参数个数为k=2010. 那么惩罚项中的分母为AICc变为负数,这意味着公式中的负惩罚。什么时候c增加,惩罚减少,导致AICc的支持具有最大聚类数的模型(当c=n)。

我想我错过了,或者我误解了关于AICc. 那是什么?提前致谢。

1个回答

的形式AICc

AICc=AIC+2k(k+1)nk1

被提议

赫维奇,厘米;蔡,C.-L。(1989),“小样本中的回归和时间序列模型选择”,Biometrika 76:297–307

特别适用于具有正态分布误差的线性回归模型。对于不同的模型,需要得出不同的修正。

这些推导通常很困难,并且由此产生的校正可能难以计算。例如

Hurvich、Clifford M.、Jeffrey S. Simonoff 和 Chih-Ling Tsai。“使用改进的 Akaike 信息标准在非参数回归中平滑参数选择。” 皇家统计学会杂志:B 系列(统计方法)60,没有。2 (1998): 271-293。

建议在采用以下形式的非参数回归模型的情况下使用校正

AICc=2ln(L)+n201(1t)r/22j=1r(1t+2dj)1/2dt+n0i=1ncii1+2diti=1n(1+2dit)1/2dt

我不会在这里详细介绍,因为它们在很大程度上无关紧要,但我想说明所涉及的复杂性。该值的实际计算涉及特征分析和数值积分。

出于这样的原因,许多作者如

伯纳姆,KP;Anderson, DR (2002),模型选择和多模型推理:实用信息理论方法(第 2 版),Springer-Verlag,ISBN 0-387-95364-7

建议使用表格

AICc=AIC+2k(k+1)nk1

无论型号。甚至 Hurvich 等人。(1998 年)尽管推导出他们的复杂AICc对于非参数回归,最终得出的结论是,您不妨使用更简单的线性回归版本。

一般来说,这个建议似乎运作良好,给出了实际有用的结果。但是,在某些情况下,例如您突出显示的情况不起作用。你需要找到一个合适的AICc对于 k-means,或者自己推导出一个,或者简单地使用AIC这更普遍适用。