以这种方式使用经验贝叶斯(EB)是否合适?

机器算法验证 贝叶斯 多层次分析 分层贝叶斯 经验贝叶斯
2022-04-04 09:28:50

背景。我有一项研究的数据,参与者做出一系列判断(一系列具有二项式结果的决策,)。我有一个基本决策过程的模型,它具有可以从数据中估计的自由参数。我的兴趣最终是比较不同参与者群体的这些参数。我对每个参与者的观察数量相对较少,因此我使用分层贝叶斯方法(我在 Stan 中编写了我的模型)来汇集个人数据。y=1y=0

问题。为了使比较准确,我需要考虑到某些响应可能纯粹是“随机的”,因为它们是不可预测的(例如参与者分心并以概率 0.5 按下两个按钮之一)。换句话说,观察到的响应的可能性是完全机会和模型预测的概率(称为 )之间的混合。混合由参数控制,该参数基本上对应于给出“随机”响应的概率(通常称为注意力的“失效”)。换句话说,在任何试验中观察到的概率由下式给出12pλy=1λ12+(1λ)p

更正式地,模型可以表示为 其中表示参与者,是固定效应;是特定于参与者的随机效应;是受试者的失效率

P(yi=1j)=λj2+(1λj)Φ[β0+uj0+(β1+uj1)xi]
jβ0,β1u0,u1λjj

为了了解这些失误发生的频率,我包括了一些“捕捉”试验,即正确答案非常明显的决定,我们可以安全地假设参与者只有在偶然做出反应时才会犯错误。因此,这些捕获试验中的错误频率可以作为对失效率的估计,尽管我只有很少的捕获试验(6 次或 12 次,取决于参与者)。我也想对参数使用多级方法,特别是通过假设 beta 分布然而,虽然我可以为所有其他参数分配合理的超先验,但我很难为λλBeta(a,b)ab. 请注意,我对失效率本身不感兴趣,我只想控制失效率的概率,同时估计和比较各组的其他参数。

问题。我正在考虑使用一种我认为可以定义为经验贝叶斯的方法,其中对于每个参与者,我估计失效率只是错误数量(在捕获试验中)与捕获试验数量的比率; 然后我通过 MLE 估计的值(通过最大化的可能性;见下图),然后将这些估计值插入上面的多级模型中,作为参与者特定的失效率。jλ^jabλ^j

  • 这种方法合法吗?
  • 我在经验贝叶斯 (EB) 方面的经验为零,但我的印象是,在大多数情况下,它是作为类似于期望最大化的迭代过程实现的,而在我的情况下,我不会进行任何迭代。这仍然是申请EB的有效方式吗?(感谢指向相关参考的指针!)
  • 如果在我的模型中我会有一些带有“经验”先验的参数,而其他一些带有标准贝叶斯先验和超先验的参数,这会是一个问题吗?

2个回答

您的方法是否合法在很大程度上取决于您在发布或展示结果时如何描述您的方法。如果您对自己的方法和过程完全开放,那么读者就可以自己判断您的方法。我这么说是因为统计数据经常涉及主观选择,没有明确的正确或错误答案,最好的方法是简单地让你所有的选择都是开放的。我的意思是一种方法可以完全合法地使用经验贝叶斯,但读者可能会对经验贝叶斯提出异议。

但是,出于您模型的目的:您选择了一种与经验贝叶斯工作一致的方法。例如,请参见此处:http: //varianceexplained.org/r/empirical_bayes_baseball/

支持您的方法的参考:https ://www.jstor.org/stable/2669771?seq=1#page_scan_tab_contents

同样,只要您向您的工作的读者/消费者清楚说明您如何选择每个先前的分布,您就可以让读者决定他们在多大程度上同意您的分析。

另一种方法:如果这种方法让您感到不舒服,那么我个人更喜欢一种方法,那就是选择生成合理数据的先验分布。这在此处得到了很好的证明:https ://rss.onlinelibrary.wiley.com/doi/pdf/10.1111/rssa.12378 (尤其是图 4)。基本上,您所做的是从先前的数据中模拟您的数据,看看它是否合理地逼近真实数据。我还建议阅读以下内容:https ://arxiv.org/pdf/1708.07487.pdf以了解整个思考过程。

让我稍微偏离你的确切问题。您正在描述您的预期模型,其中给出答案的概率被建模为y=1

p(yi=1)=λ0.5+(1λ)pi

请注意,提出的模型可以用不同的形式描述

λ0.5+(1λ)pi=α+γi

在这种情况下,你可以写

λ=α0.5,pi=γi1λ

如果您考虑一下,那么您似乎可以将模型重新定义为逻辑回归,其中是无界的实值参数,通过将它们传递给逻辑函数 ,αγσ()

p(yi=1)=σ(α+γdi)

其中是一个指标,对于常规试验等于 ,对于“catch”试验概率只是您应该能够在一个步骤中从您的数据中在这种情况下,将是“捕获”试验的“基准率”,非随机答案的附加效果将由建模。d10y=1σ(α)ααγ

最后,这使我们能够将您的完整模型重新定义为

p(yi=1)=σ(α+d[β0+uj0+(β1+uj1)xi])

我没有任何正式的论据来支持我的论文,但对我来说,这个公式似乎更简单、更灵活(例如不受单位间隔的限制)。您可能会对此提出异议,但对我而言,这种公式在可解释性方面也更清晰,因为您直接对加性效应建模,而没有的权重。λpλ

至于先验,对于上述模型,您可以选择类似的东西,其中将控制的先验假设左右的可变性。αN(0,τ)τ0.5p(y=0)