背景(可以跳过)
我将在决策理论方面进行如下思考。用户必须选择一个动作a在一组可能性中A. 这个动作会给他/她带来一些“效用”(经济学中常用的一个概念)u(a;s)取决于自然状态s这将在未来实现,其中s∈S,一组所有可能的状态。(效用基本上是损失的负数,接下来的内容可以用效用或损失等价地重新表述。)用户的目标是最大化预期效用(或等效地,最小化预期损失)wrt wrt,
maxa∈AESu(a;s).
行动的选择是基于对要实现的自然状态的预测。给定密度预测,用户可以通过将该动作的效用与自然状态的预测分布积分来计算特定动作的预期效用,
然后他/她选择最大化这个预期效用的动作(在所有可能的动作中),。对于这个密度预测,这个动作的效用期望值是。f^S(⋅)
ES^u(a;s)=∫u(a;s)f^S(s)ds.
a^∗:=argmaxa∈AES^u(a;s)u^∗:=u(a^∗)
如果效用函数具有唯一的最大值(损失函数具有唯一的最小值),则最优动作是唯一的。如果自然状态是一个连续随机变量,则分布中存在一个点(自然状态)恰好产生 。该点定义了“相关”点预测的目标。因此,无论他得到的预测是密度预测还是“相关”点预测(某种自然状态下的单位概率质量),用户都将获得完全相同的最大化(在所有可能的行动上)预期效用,前提是两次预测的质量“一样好”u^∗
主要部分(详见背景)
我认为可以合理地假设预测的有用性完全反映在给给定用户造成的损失上。那么用户的目标是选择一个最小化预期损失的预测。因此,给定一个预测分布,用户将采用其具体函数(例如,预测均值)来最小化预期损失。其余的预测密度对用户没有任何附加价值。
如果损失函数具有唯一的最小值,则该函数将是单值的,该值将是与用户相关的点预测。例如,如果用户的损失函数是二次的(在真实分布的均值处具有唯一的最小值),他/她将只关心均值的预测。如果另一个用户面临绝对损失(在真实分布的中位数处具有唯一最小值),他/她将只关心中位数的预测。除了分别预测平均值和中值之外,为这些用户中的任何一个提供密度预测对他们来说都是零附加值。
Elliott 和 Timmermann (2016a)在 p. 上写道。423-424(关于密度预测的评估):
[评估密度预测]的一种方法是将密度预测转换为点预测并使用点预测评估方法。出于多种原因,这种评估密度预测的简单方法可能是合适的。<...> [D] 密度预测可以基于具有不同损失函数的多个用户来证明。这些用户中的任何一个都可以参考被认为适合他们的问题的特定损失函数来检查密度预测的性能。预测性能的相关衡量标准是根据每个用户的特定损失函数计算的平均损失。
此外,给定已知的损失函数,密度预测甚至可能不如相关点预测,原因如下。首先,密度预测通常比点预测更难产生。其次,他们可能会在特定点(例如,平均值或中位数)的精度/准确度与被预测的整个分布的准确度/准确度之间进行权衡。也就是说,如果要预测整个密度,则可能不得不牺牲一些精度/准确度来预测平均值,以便在其他地方获得更高的精度/准确度。正如Elliott 和 Timmermann (2016b)所写,
[T] 文献中流行的评分规则与个人用户的潜在损失函数之间的关系尚不清楚。因此,很可能使用的评分规则对某些用户希望构建的条件分布的特征提供了较差的估计。
在Elliott 和 Timmermann (2016a) , p.中可以找到类似的引述。277-278:
提供预测密度似乎优于报告点预测,因为它(a)可以与损失函数结合以产生任何点预测;(b) 与损失函数无关。在预测密度的经典估计中,这些点在实践中都没有真正成立。<...> [I] 在经典设置中,估计的预测分布取决于损失函数。需要估计预测密度的所有参数,并且这些估计需要一些损失函数,因此将损失函数重新加入混合中。这里的问题是,密度估计中经常使用的损失函数与点预测中使用的损失函数不一致,这可能导致点预测较差。<...> 此外,
因此,当给出损失函数时,专注于预测为损失函数量身定制的特定点而不是试图预测整个分布可能是有意义的。这可能更容易做到和/或更准确。
对我自己的一个关键问题:“相关”点预测是否不能表示为未知密度的函数,而是对于不同的密度是不同的(作为一个函数,而不仅仅是它的值)?然后需要进行密度预测来找出人们对哪个点预测感兴趣,从而使密度预测成为点预测过程中不可避免的一步。
参考:
- Elliott, G. 和 Timmermann, A. (2016a)。经济预测。普林斯顿:普林斯顿大学出版社。
- Elliott, G. 和 Timmermann, A. (2016b)。经济和金融预测。经济学年度回顾,8,81-110。