我想计算(更正) 让 k-means 决定聚类的数量,但是有一个我不知道如何解决的过拟合问题。假设我有的数据点每个尺寸,我想将它们聚集在一起指向集群。赤池信息准则 () 是在哪里是自由参数的数量,对于 k-means,它是. 而对于,公式变为.
现在,让我们说,,,则参数个数为. 那么惩罚项中的分母为变为负数,这意味着公式中的负惩罚。什么时候增加,惩罚减少,导致的支持具有最大聚类数的模型(当)。
我想我错过了,或者我误解了关于. 那是什么?提前致谢。
我想计算(更正) 让 k-means 决定聚类的数量,但是有一个我不知道如何解决的过拟合问题。假设我有的数据点每个尺寸,我想将它们聚集在一起指向集群。赤池信息准则 () 是在哪里是自由参数的数量,对于 k-means,它是. 而对于,公式变为.
现在,让我们说,,,则参数个数为. 那么惩罚项中的分母为变为负数,这意味着公式中的负惩罚。什么时候增加,惩罚减少,导致的支持具有最大聚类数的模型(当)。
我想我错过了,或者我误解了关于. 那是什么?提前致谢。
的形式的
被提议
赫维奇,厘米;蔡,C.-L。(1989),“小样本中的回归和时间序列模型选择”,Biometrika 76:297–307
特别适用于具有正态分布误差的线性回归模型。对于不同的模型,需要得出不同的修正。
这些推导通常很困难,并且由此产生的校正可能难以计算。例如
建议在采用以下形式的非参数回归模型的情况下使用校正
我不会在这里详细介绍,因为它们在很大程度上无关紧要,但我想说明所涉及的复杂性。该值的实际计算涉及特征分析和数值积分。
出于这样的原因,许多作者如
伯纳姆,KP;Anderson, DR (2002),模型选择和多模型推理:实用信息理论方法(第 2 版),Springer-Verlag,ISBN 0-387-95364-7
建议使用表格
无论型号。甚至 Hurvich 等人。(1998 年)尽管推导出他们的复杂对于非参数回归,最终得出的结论是,您不妨使用更简单的线性回归版本。
一般来说,这个建议似乎运作良好,给出了实际有用的结果。但是,在某些情况下,例如您突出显示的情况不起作用。你需要找到一个合适的对于 k-means,或者自己推导出一个,或者简单地使用这更普遍适用。