您本质上是在问一个非常有趣的问题:我应该使用“MAP 贝叶斯”最大后验估计还是“真实贝叶斯”来预测。
假设您知道的真实分布,然后使用 MAP 估计,假设您想对接下来的 100 个翻转结果进行 100 个预测。你应该总是猜测翻转是尾巴,而不是猜测头和尾。这被称为“MAP贝叶斯”,基本上你在做P(H)=0.22080
argmaxθf(x|θ)
不难证明,这样做可以最小化预测误差(0-1 损失)。证明可以在Introduction to Statistical Learning第 53 页找到。
还有另一种称为“真实贝叶斯”方法的方法。基本上,您不是在尝试“选择概率最高的结果,而是从概率上考虑所有情况”因此,如果有人要求您“预测下 100 次”翻转,您应该暂停他/她,因为当您给出 100 个二元结果时,每个结果的概率信息都消失了。相反,你应该问,知道结果后你想做什么。
假设他/她有一些损失函数(0-1损失不是必须的,比如损失函数可以是,如果漏掉一个头部,需要支付$ 1,但是如果漏掉一个尾部,则需要支付$ 5,即不平衡损失),那么您应该使用您对结果分布的了解来最小化整个分布的损失
∑x∑yp(x,y)L(f(x),y)
,即,将您关于损失分布的知识结合起来,而不是“阶段性的方式”,得到预测并执行下一步。
更重要的是,当有许多可能的结果时,你对会发生什么有很好的直觉。如果结果数量很大且概率质量分布广泛,则 MAP 估计将无法正常工作。想想你有 100 个边骰,你就知道真实的分布。其中和。现在你用 MAP 做什么?你总是会猜测你得到了第一面,因为它与其他人相比具有最大的概率。但是你会在的时候出错!!P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%