如何比较自举回归斜率?

机器算法验证 回归 统计学意义 引导程序
2022-03-21 17:27:07

让我们假设我有两个数据集,每个数据集都有n个自变量x和因变量y的数据对让我们进一步假设我想通过引导观察(带替换)N次并计算回归y = a + bx来为每个数据集生成回归斜率分布每一次。我如何比较两个分布才能说斜率显着不同?用于测试分布中位数之间差异的 U 检验在很大程度上取决于 N,也就是说,我越频繁地重复引导,差异就越显着。如何计算分布之间的重叠以确定显着差异?

3个回答

进行自举是为了获得比大样本理论所假设的更稳健的抽样分布图。当你引导时,你采取的“引导样本”的数量实际上是没有限制的;实际上,您采用的引导样本越多,您就可以更好地近似采样分布。通常使用引导样本,尽管这个数字并没有什么神奇之处。此外,您不会对 bootsamples 进行测试;你有抽样分布的估计——直接使用它。这是一个算法:B=10,000

  1. 个引导观察进行带放回抽样,对一个数据集进行引导采样。[关于下面的评论,一个相关的问题是什么构成了用于您的引导样本的有效“引导观察”。事实上,有几种合法的方法;我将提到两个健壮的并且允许您反映数据结构:从您的数据集中)。例如,如果您有一个预测变量和一个响应变量,您将采样n1n1 (x,y)有序对。另一方面,在处理实验数据时,预测变量值没有被抽样,但实验单位被分配到每个预测变量的预期水平。在这种情况下,您可以从预测变量的每个与该预测变量级别的相应值配对。以这种方式,您不会对进行采样。]n1j yjyX
  2. 拟合你的回归模型并存储斜率估计(称之为β^1
  3. 个引导观察进行替换,对其他数据集进行引导采样n2
  4. 拟合其他回归模型并存储斜率估计(称之为β^2
  5. 从两个估计中形成一个统计量(建议:使用斜率差异β^1β^2
  6. 存储统计数据并转储其他信息,以免浪费内存
  7. 重复步骤 1 - 6,B=10,000
  8. 对斜率差异的自举抽样分布进行排序
  9. 计算与 0 重叠的 bsd 的百分比(以较小者为准,右尾 % 或左尾 %)
  10. 将此百分比乘以 2

该算法作为统计检验的逻辑与经典检验(例如 t 检验)基本相似,但您不假设数据或生成的抽样分布具有任何特定分布。(例如,您没有假设正态性。)您所做的主要假设是您的数据代表了您从中抽样/想要推广到的总体。也就是说,样本分布与总体分布相似。请注意,如果您的数据与您感兴趣的人群无关,那么您就完全不走运了。

如果您不愿意假设正态性,有些人担心使用回归模型来确定斜率。然而,这种担忧是错误的。高斯-马尔可夫定理告诉我们估计是无偏的(即以真值为中心),所以没问题。缺乏正态性仅仅意味着真实的抽样分布可能与理论上假设的分布不同,因此 p 值无效。引导过程为您提供了处理此问题的方法。

关于 bootstrapping 的另外两个问题:如果满足经典假设,bootstrapping 的效率低于参数测试(即,功率较小)。其次,当您在分布的中心附近进行探索时,bootstrapping 效果最好:均值和中位数很好,四分位数不太好,bootstrap 最小值或最大值必然会失败。关于第一点,您可能不需要根据自己的情况进行引导;关于第二点,引导斜率非常好。

您可以将两个数据集组合成一个回归。成为第一个数据集中的指标。然后运行回归 注意的解释是斜率与单独的回归: 你可以引导si

yi=β0+β1xi+β2si+β3sixi+ϵi
β3
E[yix,si=1]=(β0+β2)+(β1+β3)xiE[yix,si=0]=β0+β1xi.
β3如果您想要或只是使用标准测试程序(正常/吨)。如果使用分析解决方案,您需要假设跨组的同方差或纠正异方差。为了使引导程序对此具有鲁棒性,您需要在第一组中随机选择观察值,在第二组中随机个观察值,而不是从整个总体中nn2n

如果错误项之间存在相关性,则可能需要稍微更改此过程,因此如果是这种情况,请回写。

您可以将此方法推广到看似无关的回归 (SUR) 框架。这种方法仍然允许截距和斜率的系数在两个数据集中任意不同。

在一次回归中做所有事情是整洁的,独立性的假设很重要。但是以这种方式计算点估计不需要恒定的方差。试试这个 R 代码;

x <- rbinom(100, 1, 0.5)
z <- rnorm(100)
y <- rnorm(100)
coef(lm(y~x*z))
coef(lm(y~z, subset= x==1))[1] - coef(lm(y~z, subset= x==0))[1]
coef(lm(y~z, subset= x==1))[2] - coef(lm(y~z, subset= x==0))[2]

无论哪种方式,我们都会得到相同的点估计。标准误差的估计可能需要恒定的方差(取决于您使用哪一个),但这里考虑的自举不使用估计的标准误差。