通过依赖观察的引导计算置信区间

机器算法验证 置信区间 引导程序 隐马尔可夫模型
2022-03-28 07:38:40

如果观察值是独立同分布的,则引导程序以其标准形式可用于计算估计统计数据的置信区间。I. Visser等人。在“隐马尔可夫模型参数的置信区间”中,使用参数引导来计算 HMM 参数的 CI。然而,当我们在观察序列上拟合 HMM 时,我们已经假设观察结果是相关的(与混合模型相反)。

我有两个问题:

  1. iid 假设对引导程序有什么作用?
  2. 我们可以忽略参数引导程序中的 iid 要求吗?

维瑟等人。方法简要如下:

  1. 假设我们有一个观察序列Y=o1,o2,...,on源于对具有真实但未知参数集的 HMM 进行采样θ=θ1,θ2,...,θl.
  2. 可以使用 EM 算法估计参数:θ^=θ^1,θ^2,...,θ^l
  3. 使用估计的 HMM 生成大小为的 bootstrap 样本nY=o1,o2,...,on
  4. 根据 bootstrap 样本估计 HMM 的参数:θ^=θ^1,θ^2,...,θ^l
  5. 重复步骤 3 和 4B次(例如B=1000) 导致B引导估计:θ^(1),θ^(2),...,θ^(B)
  6. 计算每个估计参数的CIθ^i使用分布θ^i在引导估计中。

笔记(我的发现):

  1. 为了获得正确的覆盖率,应使用百分位数方法计算 CI(正态性是一个不好的假设)。
  2. 应该纠正引导分布的偏差。意味着分布均值θ^i应该转移到θ^i
1个回答

简短的回答: 1. 它简化了它。(坦率地说,我没有得到这个问题)。2. 不,你永远不能忽视它,因为缺乏独立同分布会直接影响你估计的任何差异。

中等答案:引导程序的核心问题几乎是,“所提议的程序是否再现了数据的特征?” . 违反 iid 假设是一件大事:您的数据是相关的,您(很可能)数据中的信息少于相同大小的 iid 样本中的信息,并且如果您运行一个幼稚的引导程序(重新采样个人观察),您从中获得的标准误差将太小。所提出的程序通过捕获(或至少试图捕获)模型结构和参数中的依赖性来规避缺乏独立性的问题。如果成功,每个引导样本都会根据需要重现数据的特征。

长答案:关于 bootstrap 有多层假设,即使在最简单的情况下(iid 数据,均值估计),您也必须至少做出三个假设:(1)感兴趣的统计量是数据的平滑函数(在平均值的情况下是正确的,即使在百分位数的情况下也不是如此,完全不符合最近邻匹配估计器);(2) 您引导的分布与总体分布“接近”(在 iid 数据的情况下工作正常;在依赖数据的情况下可能无法正常工作,在这种情况下,您基本上只有一个轨迹 = 在在时间序列的情况下,您必须调用其他假设,例如平稳性和混合,以将这一单一观察结果纳入准总体);(3) 您的 Monte Carlo bootstrap 采样是对具有所有可能子样本的完整 bootstrap 的足够好的近似(使用 Monte Carlo 与完整 bootstrap 的不准确性远小于您尝试捕获的不确定性)。在参数引导的情况下,您还假设 (4) 您的模型完美地解释了数据的所有特征。

作为对 (4) 可能出现问题的警告,请考虑具有异方差错误的回归:y=xβ+ϵ, 变量[ϵ]=exp[xγ], 说。如果您拟合 OLS 模型并将残差重新采样,就好像它们是 iid 一样,您将得到错误的答案(某种σ¯2(XX)1在哪里σ¯2是平均值1/niexp[xiγ], 而不是适当的(XX)1exp[xiγ]xixi(XX)1)。因此,如果您想要一个完全参数化的引导解决方案,则必须拟合异方差模型以及均值模型。如果你怀疑序列或其他类型的相关性,你也必须为此拟合模型。(请看,bootstrap 的非参数无分布风格现在几乎消失了,因为您已经用模型的合成声音替换了数据的声音。)

您描述的方法通过创建一个全新的样本来解决 iid 假设。依赖数据引导的最大问题是创建具有足够接近原始数据中的依赖模式的样本。对于时间序列,您可以使用块引导;使用集群数据,您可以引导整个集群;对于异方差回归,您必须使用狂野的引导程序(这比残差引导程序更好,即使您已经为其拟合了异方差模型)。在块引导中,您必须做出有根据的猜测(或者换句话说,有充分的理由相信)时间序列的遥远部分是近似独立的,以便所有相关结构都被相邻的 5 或 10形成块的观察。因此,与其对观察结果进行逐个重新采样,这完全忽略了时间序列的相关结构,不如将它们按块重新采样,希望这会尊重相关结构。你提到的参数化引导程序说:“与其摆弄数据并从旧娃娃中组装新娃娃,我为什么不直接为你盖上整个成型的芭比娃娃呢?我已经想出了什么样的你喜欢的芭比娃娃,我保证我也会给你做一个你喜欢的。” 与其摆弄数据并从旧娃娃的碎片中组装新娃娃,我为什么不直接为你盖上整个成型的芭比娃娃呢?我已经弄清楚了你喜欢什么样的芭比娃娃,我保证我也会给你做一个你喜欢的。” 与其摆弄数据并从旧娃娃的碎片中组装新娃娃,我为什么不直接为你盖上整个成型的芭比娃娃呢?我已经弄清楚了你喜欢什么样的芭比娃娃,我保证我也会给你做一个你喜欢的。”

对于您描述的参数引导程序,您必须非常确定您的 HMM 模型拟合非常完美,否则您的参数引导程序可能会导致错误的结果(无法移动手臂的芭比娃娃)。想想上面的异方差回归例子;或考虑将 AR(1) 模型拟合到 AR(5) 数据:无论您对参数模拟数据做什么,它们都不会具有原始数据曾经具有的结构。

编辑:正如 Sadeghd 澄清了他的问题,我也可以对此作出回应。引导程序种类繁多,每个程序都解决了统计数据、样本量、依赖性或引导程序可能存在的任何问题中的特定怪癖。例如,没有单一的方法可以解决依赖问题。(我使用过调查引导程序,大约有 8 种不同的程序,尽管有些程序主要是方法论而非实际兴趣;有些程序显然较差,因为它们仅适用于特殊的、不易概括的情况。)关于引导程序可能面临的问题的一般性讨论,请参见Canty、Davison、Hinkley 和 Ventura (2006)。引导诊断和补救措施。加拿大统计杂志,34 (1), 5-27