我正在阅读机器学习书中的 EM(期望最大化)算法。在本章的最后,作者提到我们不能根据每个模型最后的对数似然来决定分量数量(高斯分布的混合数)的“最优性”——因为具有更多参数的模型将不可避免地更好地描述数据。
因此,我的问题是
1)我们如何比较使用不同数量组件的每个模型的性能?
2) 帮助我们确定 EM 模型足以对观测数据进行建模的重要因素是什么?
我正在阅读机器学习书中的 EM(期望最大化)算法。在本章的最后,作者提到我们不能根据每个模型最后的对数似然来决定分量数量(高斯分布的混合数)的“最优性”——因为具有更多参数的模型将不可避免地更好地描述数据。
因此,我的问题是
1)我们如何比较使用不同数量组件的每个模型的性能?
2) 帮助我们确定 EM 模型足以对观测数据进行建模的重要因素是什么?
1.
最简单和最常见的方法是使用AIC或BIC。您将选择具有最小 AIC/BIC 值的模型。AIC/BIC 在这里工作得很好,因为你有一个似然函数。
贝叶斯模型选择是另一种可能性。它比 AIC 或 BIC 更先进,但您有机会添加自己的先验分布。第 5.3 节
机器学习 - 概率论观点 (Kevin P.Murphy)
有详细信息。Google 上也有很多论文。
或者,您可以使用交叉验证的可能性作为性能度量,尽管这可能会很慢,因为它需要将每个模型拟合 N 次,其中 N 是 CV 保持的数量。
滑入 17
https://www.doc.ic.ac.uk/~dfg/ProbabilisticInference/IDAPISlides13.pdf
是一个很好的参考。
2.
EM算法是一种估计最可能参数的技术,并不限于混合高斯。当没有用于解决具有一个或多个潜在变量的最大似然问题的封闭式公式时,该算法很有用。