我正在上一门在线课程,其中一项作业说:
为了避免参数爆炸或变得高度相关,使用高斯先验来增加我们的成本函数是有帮助的:这倾向于将参数权重推向接近零,而不限制它们的方向,并且通常会导致分类器具有更好的泛化能力。
“用高斯先验增强我们的成本函数”到底是什么意思,我该怎么做呢?
我尝试在谷歌上搜索,但没有找到任何有用的东西。
我正在上一门在线课程,其中一项作业说:
为了避免参数爆炸或变得高度相关,使用高斯先验来增加我们的成本函数是有帮助的:这倾向于将参数权重推向接近零,而不限制它们的方向,并且通常会导致分类器具有更好的泛化能力。
“用高斯先验增强我们的成本函数”到底是什么意思,我该怎么做呢?
我尝试在谷歌上搜索,但没有找到任何有用的东西。
让我们看一下线性回归的例子。我们可以通过将其视为找到条件分布来激发它,而不是从求解正规方程中推导出它. 假设该分布遵循具有固定方差的高斯分布和意思和权重. 假设样本是独立同分布的,我们可以很容易地证明应用最大似然给出相同的值而不是最小化均方误差。有关数学解释,请参见示例 5.5.1 。
如果我们另外假设一个先验高斯分布(wlog 我们可以假设单位方差),我们现在可以证明后验 的也是高斯分布(因为先验是“共轭的”),有方差我们用权重衰减恢复线性回归 (即或 Tikhonov 正则化)。
直观地说,高斯分布的概率质量以均值为中心(假设这里为零)。如果我们假设线性回归中的系数有这样的分布(正如我们的先验知识),线性回归将倾向于接近零的系数。
所有这些都在此处(第 5 章)或此处(第 18章)得到了很好的解释。
很难根据信息寻找任何东西。尽管如此,我还是在网上发现了这篇有趣的论文——用高斯过程增强功能时间序列表示和预测。
只是探索它。希望它能在一定程度上帮助你。干杯!