这是我想验证我的模型是否真实时使用的框图。
在每一轮中,11/12% 的数据折叠用于构建模型(例如 PCA 的特征向量)
在 12 轮之后,我检查每一轮的模型(例如 PCA 的特征向量)在统计上没有差异,如果它们确实没有,我就宣布该模型是稳定的。这里的想法是,如果一个模型在 k 倍意义上是稳定的,那么它就表明该模型是真实的
我自己或多或少地考虑过它(主要是在最后一个验证步骤)因此,我想知道您对此有何看法?您是否知道“验证我的模型是否真实”的其他方法?
这是我想验证我的模型是否真实时使用的框图。
在每一轮中,11/12% 的数据折叠用于构建模型(例如 PCA 的特征向量)
在 12 轮之后,我检查每一轮的模型(例如 PCA 的特征向量)在统计上没有差异,如果它们确实没有,我就宣布该模型是稳定的。这里的想法是,如果一个模型在 k 倍意义上是稳定的,那么它就表明该模型是真实的
我自己或多或少地考虑过它(主要是在最后一个验证步骤)因此,我想知道您对此有何看法?您是否知道“验证我的模型是否真实”的其他方法?
结果的稳定性取决于您用于估计模型参数的数据点数量,而不是取决于您的模型是否捕捉到现实。
以具有固定方差和变化均值的简单单变量高斯分布为例(统计模型)。估计均值的方差将下降为 1/N,其中 N 是训练集中数据点的数量。
对于统计模型,非常感兴趣的距离度量是模型分布与数据真实分布之间的Kullback-Leibler 散度。不幸的是,KL 散度需要了解真实分布,因此不太实用。另一种方法是微分对数似然(参见混合密度建模、Kullback-Leibler 散度和微分对数似然,van Hulle,2004)。但是您可以使用无数种可能的距离度量。您应该选择哪一个取决于您要使用该模型的目的。