在 Bishop 的 PRML 书中,他说,过拟合是最大似然估计 (MLE) 的一个问题,而贝叶斯可以避免它。
但我认为,过度拟合更多是关于模型选择的问题,而不是用于进行参数估计的方法。也就是说,假设我有一个数据集,它是通过生成的,现在我可能会选择不同的模型来拟合数据并找出哪一个是最好的。并且考虑的模型是不同阶的多项式模型,是 1 阶,是 2 阶,是 9 阶。
现在我尝试将数据与 3 个模型中的每一个进行拟合,每个模型都有其参数,表示为。
使用 ML,我将对模型参数进行点估计,而太简单了,总是会欠拟合数据,而太复杂,会过拟合数据,只有才能很好地拟合数据。
我的问题是,
1)模型会过拟合数据,但我不认为这是ML的问题,而是模型本身的问题。因为,对使用 ML不会导致过度拟合。我对吗?
2)与贝叶斯相比,ML确实有一些缺点,因为它只是给出了模型参数的点估计,并且过于自信。而贝叶斯不仅依赖于参数的最可能值,还依赖于给定观察数据的参数的所有可能值,对吧?
3)为什么贝叶斯可以避免或减少过拟合?据我了解,我们可以使用贝叶斯进行模型比较,即给定数据,我们可以找出正在考虑的每个模型的边际似然(或模型证据),然后选择边际似然最高的那个,对吧? 如果是这样,那是为什么?