指数分布族背后的基本原理是什么?

机器算法验证 指数族
2022-03-16 18:07:46

从初级概率课程开始,高斯、泊松或指数等概率分布都有很好的动机。盯着指数族分布的公式看了很久,还是没有任何直觉。

fX(xθ)=h(x)exp(η(θ)T(x)A(θ))

谁能帮我理解为什么我们首先需要它?将响应变量建模为指数族与正态有哪些优点?

编辑:指数族,我的意思是这里描述的一般分布类。

4个回答

将响应变量建模为指数族与正态有哪些优点?

  1. 指数族比正常族要广泛得多。例如,使用泊松或二项式代替正态有什么好处?如果您的计数平均值较低,则正常值没有多大用处。如果您的数据是连续的但非常正确的偏差——可能是时间或货币数量,那该怎么办?指数族包括正态、二项式、泊松和伽玛作为特殊情况(以及许多其他情况)

  2. 它包含了各种各样的方差-均值关系。

  3. 它源于试图回答“什么分布是充分统计量的函数”的问题,因此可以使用非常简单的充分统计量通过 ML 估计模型;这包括适合广义线性模型的程序中可用的常用模型。实际上,充分的统计量 ( ) 在指数族密度函数中是明确的。T(x)

  4. 它可以很容易地将响应和预测变量之间的关系与响应的条件分布(通过链接函数)解耦。例如,您可以将直线关系拟合到模型,该模型指定条件响应具有伽马分布,或与 GLM 框架中的条件高斯响应呈指数关系。

对于贝叶斯来说,指数族非常有趣,因为指数族的所有成员都有共轭先验。

对我来说,指数族分布背后的主要动机是它们是给定一组足够的统计数据和支持的最大熵分布族。换句话说,它们是最小假设分布。

例如,如果您仅测量实值数量的均值和方差,则假设最少的建模选择是正态分布。

从计算的角度来看,还有其他优点:

  • 他们在“证据组合”下被关闭。也就是说,来自同一个指数族的两个独立似然的组合总是在同一个指数族中,其自然参数仅仅是其分量的自然参数之和。这便于贝叶斯统计。

  • 两个指数族分布之间的交叉熵的梯度是它们的期望参数之差。这意味着这样一个交叉熵的损失函数就是所谓的匹配损失函数,便于优化。

格伦的名单很好。我将再添加 1 个应用程序来补充他的答案:为贝叶斯推理推导共轭先验。

贝叶斯推理的核心部分是推导后验分布具有共轭 theta)意味着后验和先验将属于同一类概率分布。p(θ|y)p(y|θ)p(θ)p(θ)p(y|θ)p(y|θ)p(θ)

我所指的有用属性是,对于从形式的单参数指数族中提取n

p(y1,,yn|θ)=p(yi|θ)g(θ)nexp[h(θ)t(yi)] ,

我们可以简单地写出一个共轭先验为

p(θ)g(θ)ν[h(θ)δ]

然后后验结果为

p(θ|y1,,yn)g(θ)n+νexp[h(θ)(t(yi)+δ)]

为什么这种共轭有用?因为它在执行贝叶斯推理时简化了我们的解释和计算。这也意味着我们可以很容易地得出后验的解析表达式,而无需做太多的代数。

您希望数据模型反映生成过程。生成高斯变量的“过程”具有与控制指数变量非常不同的特征,而且对于原因并不总是直观。有时您需要了解其他分布特征。作为一个例子,考虑高斯的危险函数是增加的,而指数是平坦的。作为一个老生常谈的实际例子,假设我要每隔一段时间戳你,“inter poke 间隔”将由高斯或指数生成函数选择。在高斯分布下,您会发现戳是可以预测的,并且在长时间间隔后感觉很有可能。在指数下,他们会感到非常不可预测。其原因在于生成函数,该生成函数取决于潜在的现象。