当给定损失函数时,密度预测是否会在点预测之外增加价值?

机器算法验证 预测 损失函数 决策理论 密度估计
2022-03-16 10:04:40

密度预测比点预测更普遍;它们提供有关随机变量的整个预测分布的信息,而不是其具体函数(例如预测均值、中位数、分位数等)的信息。密度预测的可用性允许不同的用户选择他们感兴趣的相关元素——点预测。一些用户将关注预测均值,其他用户关注预测中值等,这取决于评估预测的损失函数(并且可能因用户而异)。给定密度预测,无论损失函数如何,每个用户的需求都将得到满足,因为密度预测包含有关随机变量的所有概率信息。

但是,如果我们有一个具体的用户并且知道他/她的损失函数,那么

  • 密度预测是否比针对损失函数定制的点预测提供任何附加值?
  • 如果答案通常为“否”,那么将其设为“是”的条件什么?

PS @hejseb 在为损失函数定制的点预测和足够的统计数据之间画了一个有趣的平行线;也许这可以激发一个答案。

2个回答

我可以想到一种或多或少的现实情况,即全密度比点预测要好,即使损失函数是已知的。

  • 挑剔的情况是用户的损失函数不仅取决于点预测,还取决于双边,甚至是整个密度,即损失函数是.

    是的,损失函数通常被定义为依赖于单点预测,所以我对这里的命名很松散。然而,像这样的情况确实会发生,例如,在金融波动预测中。或者我工作的地方,零售补货预测:我们可能希望达到 95% 的服务水平,所以从表面上看,我们可能只对那个(点)分位数预测感兴趣。但是,95% 的分位数预测可能是 4,而我们可能会被限制以 8 的包装尺寸进行补充。在这种情况下,了解 8 单位对应的百分比可能很有价值。

  • 更相关的情况是我们对预测密度函数感兴趣的情况。再次考虑零售预测:由于交货时间的原因,我们的补货订单可能需要涵盖三天,即周二至周四。但是,我们预测的是每日粒度。所以我们可能对需求总和的 95% 分位数预测感兴趣,对于卷积,我们需要全密度。(我们也可以尝试以三天的桶粒度进行预测,但如果促销活动在桶的中间开始,那就会出现问题。)

背景(可以跳过)

我将在决策理论方面进行如下思考。用户必须选择一个动作a在一组可能性中A. 这个动作会给他/她带来一些“效用”(经济学中常用的一个概念)u(a;s)取决于自然状态s这将在未来实现,其中sS,一组所有可能的状态。(效用基本上是损失的负数,接下来的内容可以用效用或损失等价地重新表述。)用户的目标是最大化预期效用(或等效地,最小化预期损失)wrt wrt,

maxaAESu(a;s).

行动的选择是基于对要实现的自然状态的预测。给定密度预测,用户可以通过将该动作的效用与自然状态的预测分布积分来计算特定动作的预期效用, 然后他/她选择最大化这个预期效用的动作(在所有可能的动作中),对于这个密度预测,这个动作的效用期望值是f^S()

ES^u(a;s)=u(a;s)f^S(s)ds.
a^:=argmaxaAES^u(a;s)u^:=u(a^)

如果效用函数具有唯一的最大值(损失函数具有唯一的最小值),则最优动作是唯一的。如果自然状态是一个连续随机变量,则分布中存在一个点(自然状态)恰好产生 该点定义了“相关”点预测的目标。因此,无论他得到的预测是密度预测还是“相关”点预测(某种自然状态下的单位概率质量),用户都将获得完全相同的最大化(在所有可能的行动上)预期效用,前提是两次预测的质量“一样好”u^

主要部分(详见背景)

我认为可以合理地假设预测的有用性完全反映在给给定用户造成的损失上。那么用户的目标是选择一个最小化预期损失的预测。因此,给定一个预测分布,用户将采用其具体函数(例如,预测均值)来最小化预期损失。其余的预测密度对用户没有任何附加价值。

如果损失函数具有唯一的最小值,则该函数将是单值的,该值将是与用户相关的点预测。例如,如果用户的损失函数是二次的(在真实分布的均值处具有唯一的最小值),他/她将只关心均值的预测。如果另一个用户面临绝对损失(在真实分布的中位数处具有唯一最小值),他/她将只关心中位数的预测。除了分别预测平均值和中值之外,为这些用户中的任何一个提供密度预测对他们来说都是零附加值。

Elliott 和 Timmermann (2016a)在 p. 上写道。423-424(关于密度预测的评估):

[评估密度预测]的一种方法是将密度预测转换为点预测并使用点预测评估方法。出于多种原因,这种评估密度预测的简单方法可能是合适的。<...> [D] 密度预测可以基于具有不同损失函数的多个用户来证明。这些用户中的任何一个都可以参考被认为适合他们的问题的特定损失函数来检查密度预测的性能。预测性能的相关衡量标准是根据每个用户的特定损失函数计算的平均损失。

此外,给定已知的损失函数,密度预测甚至可能不如相关点预测,原因如下。首先,密度预测通常比点预测更难产生。其次,他们可能会在特定点(例如,平均值或中位数)的精度/准确度与被预测的整个分布的准确度/准确度之间进行权衡。也就是说,如果要预测整个密度,则可能不得不牺牲一些精度/准确度来预测平均值,以便在其他地方获得更高的精度/准确度。正如Elliott 和 Timmermann (2016b)所写,

[T] 文献中流行的评分规则与个人用户的潜在损失函数之间的关系尚不清楚。因此,很可能使用的评分规则对某些用户希望构建的条件分布的特征提供了较差的估计。

在Elliott 和 Timmermann (2016a) , p.中可以找到类似的引述。277-278:

提供预测密度似乎优于报告点预测,因为它(a)可以与损失函数结合以产生任何点预测;(b) 与损失函数无关。在预测密度的经典估​​计中,这些点在实践中都没有真正成立。<...> [I] 在经典设置中,估计的预测分布取决于损失函数。需要估计预测密度的所有参数,并且这些估计需要一些损失函数,因此将损失函数重新加入混合中。这里的问题是,密度估计中经常使用的损失函数与点预测中使用的损失函数不一致,这可能导致点预测较差。<...> 此外,

因此,当给出损失函数时,专注于预测为损失函数量身定制的特定点而不是试图预测整个分布可能是有意义的。这可能更容易做到和/或更准确。

对我自己的一个关键问题:“相关”点预测是否不能表示为未知密度的函数,而是对于不同的密度是不同的(作为一个函数,而不仅仅是它的值)?然后需要进行密度预测来找出人们对哪个点预测感兴趣,从而使密度预测成为点预测过程中不可避免的一步。

参考:

  • Elliott, G. 和 Timmermann, A. (2016a)。经济预测普林斯顿:普林斯顿大学出版社。
  • Elliott, G. 和 Timmermann, A. (2016b)。经济和金融预测经济学年度回顾,8,81-110。