比其他分析更早进行特权分析的贝叶斯理由是什么?

机器算法验证 贝叶斯
2022-01-27 08:44:30

背景和经验例子

我有两个研究;我进行了一个实验(研究 1),然后复制了它(研究 2)。在研究 1 中,我发现两个变量之间存在交互作用;在研究 2 中,这种交互作用方向相同,但不显着。以下是研究 1 模型的摘要:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 ** 

研究 2 的模型:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545  

我没有说“我想我什么都没有,因为我'复制失败'”,而是结合两个数据集,为数据来自什么研究创建一个虚拟变量,然后运行交互在控制研究虚拟变量后再次。即使在控制它之后,这种交互也是显着的,我发现条件和不喜欢/prej之间的这种双向交互不符合与研究虚拟变量的三向交互。

介绍贝叶斯分析

我有人建议这是使用贝叶斯分析的好机会:在研究 2 中,我有来自研究 1 的信息,我可以将其用作先验信息!通过这种方式,研究 2 正在对研究 1 中的常客、普通最小二乘结果进行贝叶斯更新。所以,我回过头来重新分析研究 2 模型,现在使用系数的信息先验:所有系数都有一个正常先验,其中平均值是研究 1 中的估计值,标准差是研究 1 中的标准误差。

这是结果的摘要:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

看起来现在我们有相当确凿的证据表明研究 2 分析中的相互作用。这与我简单地将数据堆叠在一起并使用研究编号作为虚拟变量运行模型时所做的一致。

反事实:如果我先进行研究 2 会怎样?

这让我开始思考:如果我先运行研究 2,然后使用研究 1 的数据来更新我对研究 2 的信念会怎样?我做了与上述相同的事情,但相反:我使用常客、普通最小二乘系数估计和研究 2 的标准差作为我对研究 1 数据分析的先验平均值和标准差,重新分析了研究 1 数据。总结的结果是:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

同样,我们看到了相互作用的证据,但情况可能不一定如此。请注意,两种贝叶斯分析的点估计值甚至都不在彼此的 95% 可信区间内。贝叶斯分析中的两个可信区间的非重叠比重叠多。

什么是时间优先的贝叶斯证明?

因此,我的问题是:贝叶斯学派尊重数据收集和分析的时间顺序的理由是什么?我从研究 1 中获得结果,并将它们用作研究 2 中的信息先验,以便我使用研究 2 来“更新”我的信念。但是,如果我们假设我得到的结果是从具有真实总体效应的分布中随机抽取的……那我为什么要优先考虑研究 1 的结果呢?使用研究 1 的结果作为研究 2 的先验而不是将研究 2 的结果作为研究 1 的先验的理由是什么?我收集和计算分析的顺序真的很重要吗?在我看来,这似乎不应该——贝叶斯对此的理由是什么?为什么我应该相信点估计值更接近 0.34 而不是 0.17 仅仅因为我首先运行了研究 1?


回应 Kodiologist 的回答

Kodiologist 评论说:

其中第二点指出了您与贝叶斯约定的重要背离。您没有先设置先验,然后以贝叶斯方式拟合两个模型。您以非贝叶斯方式拟合一个模型,然后将其用于另一个模型的先验。如果您使用传统方法,您将不会看到您在此处看到的对顺序的依赖。

为了解决这个问题,我拟合了研究 1 和研究 2 的模型,其中所有回归系数都具有的先验。变量是实验条件的虚拟变量,编码为0或1;变量以及结果均以 1 到 7 的 7 点量表进行测量。因此,我认为这是一个公平的先验选择仅根据数据的缩放方式,很少会看到比先前建议的系数大得多的系数。N(0,5)condprej

这些估计的平均估计和标准差与 OLS 回归中的大致相同。研究 1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

和研究 2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

由于这些均值和标准差与 OLS 估计值或多或少相同,因此仍会出现上述顺序效应。如果我在分析研究 2 时将研究 1 的后验汇总统计量插入先验,我观察到的最终后验与首先分析研究 2 然后使用这些后验汇总统计作为分析研究 1 的先验时不同。

即使我使用回归系数的贝叶斯均值和标准差作为先验而不是常客估计,我仍然会观察到相同的顺序效应。所以问题仍然存在:贝叶斯对首先进行的研究给予特权的理由是什么?

3个回答

贝叶斯定理说重新缩放后posterior等于prior * likelihood(因此概率总和为 1)。每个观察都有一个likelihood可用于更新prior和创建新的posterior

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

以便

posterior_n = prior * likelihood_1 * ... * likelihood_n

乘法的交换性意味着更新可以按任何顺序进行因此,如果您从一个先验开始,您可以以任何顺序混合研究 1 和研究 2 的观察结果,应用贝叶斯公式并得出相同的最终结果posterior

首先我要指出:

  1. 在您的显着性测试方法中,您使用不同的模型跟踪了一个负面结果,这给了您另一个机会获得正面结果。这样的策略会增加您的项目 I 类错误率。显着性检验需要提前选择您的分析策略以使值正确。p
  2. 通过将样本中的发现直接转化为先验,您对研究 1 的结果充满信心。请记住,先验不仅仅是过去发现的反映。它需要对你所有先前存在的信念进行编码,包括你在早期发现之前的信念。如果您承认研究 1 涉及抽样误差以及其他类型的不易处理的不确定性,例如模型不确定性,您应该使用更保守的先验。

其中第二点指出了您与贝叶斯约定的重要背离。您没有先设置先验,然后以贝叶斯方式拟合两个模型。您以非贝叶斯方式拟合一个模型,然后将其用于另一个模型的先验。如果您使用传统方法,您将不会看到您在此处看到的对顺序的依赖。

我想我可能会制作一系列带有不同但程式化问题的图表,以向您展示为什么从频率学方法转向贝叶斯方法会很危险,以及为什么使用汇总统计会产生问题。

而不是使用你的例子,它是多维的,我将把它缩减到一个维度,两个研究的规模是三个观察和三个观察。

我使用的数据是假的。两个样本都被迫具有-1的中位数。这很重要,因为它来自我必须经常使用的简化密度函数。频率密度和贝叶斯似然函数是

1π11+(xθ)2.
这是具有未知中值但尺度参数为 1 的柯西分布。在截断形式中,它被视为股票市场中最常见的情况,并出现在旋转物体的物理问题中,例如滚下山的岩石或著名的“海鸥灯塔问题”。

我之所以使用它是因为中心极限定理不适用,它缺乏足够的统计数据,极端观察很常见,切比雪夫不等式不成立,并且许多通常可行的解决方案都分崩离析。我使用它是因为它可以作为很好的例子,而不必在问题上投入太多工作。

有两个样本。在第一项研究中,数据为{5,1,4}. 在第二项研究中,数据是{1.5,1,.5}. 这种分布很好,因为高度集中的样本很常见,而且范围很大的样本很常见。99.99% 的置信区间通常是±669σ而不是±3σ大多数都习惯了。

两项独立研究的后验密度为贝叶斯分离后验

从视觉上很明显,从样本一中获取汇总统计数据可能会产生令人难以置信的误导。如果您习惯于看到漂亮的、单峰的、定义明确的和命名的密度,那么使用贝叶斯工具可以很快地解决这个问题。没有像它这样的命名分布,但是如果您没有直观地查看它,您当然可以用汇总统计信息来描述它。如果您要使用汇总统计信息来构建新的先验,那么使用汇总统计信息可能会出现问题。

两个样本的频率派置信度分布相同。因为尺度是已知的,唯一未知的参数是中位数。对于三个样本大小,中位数是 MVUE。虽然柯西分布没有均值或方差,但中位数的抽样分布却有。它比最大似然估计器效率低,但我不费吹灰之力就可以计算出来。对于大样本量,Rothenberg 的方法是 MVUE,也有中等样本量的解决方案。

对于频率分布,你得到频率论置信度分布。

请注意,如果您使用汇总统计信息,您将获得两个样本的相同统计信息。频率分布不太依赖于数据,因为尺度参数是已知的并且它们具有相同的中位数。因此,由于共同的中位数,汇总统计量对于样本的差异是不变的。虽然您会正确地指出这是人为的并且不会真正发生,但失真仍然存在。使用更适合贝叶斯思维的语言,频率论模型是Pr(x|θ)而不是Pr(θ|x)

频率分布假设样本大小无限重复三次,并显示样本中位数分布的限制分布。贝叶斯分布给定,因此它仅取决于观察到的样本,而忽略了该样本可能具有的好或坏属性。事实上,样本对于贝叶斯方法来说是不寻常的,因此可能会暂停以形成关于它的强有力的推论。这就是为什么后部如此宽,样本不寻常的原因。频率方法是控制异常样本,而贝叶斯方法不是。这就产生了一种反常的情况,即尺度参数的附加确定性缩小了频率派解决方案,但扩大了贝叶斯解决方案。x

联合后验是后验和乘法关联性的乘积,无论您使用哪种顺序都没有关系。视觉上,关节后部是联合和分离的后部

很明显,如果您对后验施加一些简化分布并使用它们的汇总统计数据,您可能会得到不同的答案。事实上,这可能是一个非常不同的答案。如果将 70% 的可信区域用于研究一,则会导致可信区域断开连接。在贝叶斯方法中有时会出现不连贯区间的存在。研究一的最高密度区间和最低密度区间的图形是HDR 与 LDR

您会注意到 HDR 被可信集合之外的一小部分区域破坏。

虽然这些问题中的许多问题通常在回归的大集合中消失,但让我举一个例子,说明贝叶斯和频率论方法在回归中如何以不同方式处理缺失变量的自然差异。

考虑一个结构良好的回归,其中缺少一个变量,即天气。让我们假设客户在雨天和晴天的行为不同。如果该差异足够大,则很容易有两种贝叶斯后验模式。一种模式反映了晴天的行为,另一种模式反映了下雨的行为。你不知道为什么你有两种模式。它可能是统计运行,也可能是缺失的数据点,但要么您的样本不寻常,要么您的模型有遗漏变量。

频率论解决方案将平均这两种状态,并可能将回归线置于实际没有发生客户行为的区域,但它会平均两种类型的行为。它也会向下偏斜。这些问题可能会在残差分析中被发现,尤其是在真实方差存在很大差异的情况下,但可能不会。它可能是不时出现在 Cross-validated 上的那些奇怪的残差图片之一。

您有来自相同数据的两个不同后验的事实意味着您没有将两者直接相乘。要么您从未与贝叶斯后验一对一映射的频率论解决方案创建后验,要么您从汇总统计数据创建先验并且似然函数不是完全对称的,这很常见。