什么是最高密度区域 (HDR)?
我推荐 Rob Hyndman 1996 年在The American Statistician上发表的文章“计算和绘制最高密度区域”。以下是 HDR 的定义,取自那篇文章:
令为随机变量的密度函数。那么 HDR 是的样本空间使得 其中是最大常数,使得
那篇文章中的图 1 说明了 75% HDR(所以)和其他各种 75% 概率区域之间的差异,用于混合两个法线(是第个分位数,是平均值,是密度的标准偏差):
一维的想法是取一条水平线并将其向上移动(到),直到其上方和密度下方的区域为。那么 HDR轴的投影。
当然,所有这些都适用于任何密度,无论是贝叶斯后验还是其他。
对于某个给定的置信水平,最高后验密度 [区间] 基本上是后验密度上的最短区间。最高密度区域可能与应用于任何任意密度的想法相同,因此不一定是后验分布。
如果是你的置信水平,你总能找到两个分位数,会给你一个工作区间。不过有一堆,它们都有不同的长度。你想要最短的。
如果您的密度是单峰的,那么最短的间隔将发生在两个分位数和上,使得。
海德曼 (1996):
对于给定概率 1-α,覆盖样本空间的区域应具有尽可能小的体积。
区域内的每个点的概率密度至少应与区域外的每个点一样大。
这些区域称为最高密度区域(HDR)
HDR 最独特的属性之一是概率覆盖的所有可能区域中,HDR 具有样本空间中可能的最小区域。“最小”是指一些简单的度量,例如通常的 Lebesgue 度量;在一维连续的情况下,这将是最短的间隔,而在二维的情况下,这将是表面的最小面积。在贝叶斯分析中,类似的方法称为最高后验密度区域 (HPD),后验密度用作度量。
HPD是贝叶斯统计中定义可信区间的方法之一。
可信区间是未观察到的参数值以特定概率落入的区间。它是后验概率分布或预测分布域中的区间。对多元问题的概括是可信区域。
可信区间在后验分布上不是唯一的。定义合适的可信区间的方法包括:
- 选择最窄的区间,对于单峰分布,这将涉及选择那些具有最高概率密度的值,包括众数(最大后验)。这有时称为最高后验密度区间 (HPDI)。
- 选择低于该区间的概率与高于该区间的概率相同的区间。这个区间将包括中位数。这有时称为等尾区间。
- 假设均值存在,选择均值作为中心点的区间。