二项式效应量显示 (BESD) 是否会误导效应量?

机器算法验证 解释 规模效应
2022-03-24 18:57:56

我很难接受唐纳德鲁宾会想出一个真正的柠檬技术。然而,这就是我对 BESD [ 1 , 2 , 3 ] 的看法。

Rosenthal 和 Rubin (1982) 的原始论文声称,“无论原始数据是连续的还是分类的,如何将任何乘积-矩相关性重新转换为这样的 [2x2] 显示”是有价值的。

下表来自 p. 上面第二个链接的451:

在此处输入图像描述

这种技术似乎夸大了几乎任何效果大小的大小。在这里, = .01,但是当“翻译”成 2x2 列联表时,我们似乎面临着更强的影响。我不否认,当数据以这种方式重新转换为分类格式时,确实= .1,但我觉得翻译中有些地方非常扭曲。R2ϕ

我在这里错过了什么真正有价值的东西吗?此外,我的印象是,在过去 10 年左右的时间里,统计界普遍拒绝将此作为一种合法方法——我错了吗?

分别计算实验 ( ) 和对照 ( ) 成功率 ( ) 的方程式很简单:ECsr

Esr=.50+r/2

Csr=.50r/2


参考:

Rosenthal, R. 和 Rubin, DB (1982)。实验效果大小的简单通用显示。教育心理学杂志,74,166-169。

3个回答

我可以证明它是有偏见的(我认为),但我无法解释原因。我希望有人能看到我的答案并帮助解释更多。

正如在许多荟萃分析和您发布的图片中一样,许多人将 BESD 解释为:如果您要对两个变量进行中位数拆分,您将准确地将人们放在 2 x 2 列联表的“正确”单元格中,给定百分比时间。

因此,如果,人们可能会说,“鉴于观察到,您可以这样想:X 中高于中位数的人在 Y 中也有 70% 的时间高于中位数。 " 这在某种程度上是Kraus (1995, p. 69)解释它的方式(他依赖于一个假设情况,其中一个变量是真正的二分变量,而另一个变量是中位数分裂):.50+r/2=.70r

在此处输入图像描述

人们也经常使用医学隐喻:“这个对应于对照组和实验条件下的人之间 40 个百分点的差异。”r

为了查看中位数分割式的解释是否有偏差,我模拟了 1,000,000 个病例的总体,其中真实总体然后我从这个人群中抽取了 100 人,计算了 BESD“正确率”(即),然后计算了 2 x 2 列联表的实际中值拆分单元格,就像上面描述的用于分类的列联表一样人们“正确地”。我这样做了 10,000 次。r=.38.50+r/2

然后我取了每个长度为 10,000 的向量的平均值和标准差。编码:

library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
  samp <- pop[sample(1:1000000, 100),]
  besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
  samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
  samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
  actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)

基于 BESD,我们得到这张表,其中v1v2指的是变量,lowhigh分别指的是中位数以下和以上:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 69     | 31      |
+---------+--------+---------+
| v1 high | 31     | 69      |
+---------+--------+---------+

基于实际对原始数据进行中位数分割,我们得到这张表:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 62     | 38      |
+---------+--------+---------+
| v1 high | 38     | 62      |
+---------+--------+---------+

因此,虽然有人可能会使用 BESD 争辩说,“控制和实验之间存在 38 个百分点的差异”,但实际中位数分裂的这个数字是 24。

我不确定为什么会发生这种情况,或者它是否取决于样本量和相关性(可以轻松地进行更多模拟来弄清楚),我认为这表明它是有偏见的。如果有人能用数学而不是计算的解释来解释,我会很高兴。

马克怀特的直觉是不正确的。BESD 实际上并未对中位数分割进行建模。中位数分裂与真实的统计信息丢失有关——它系统地削弱了关系(参见http://psycnet.apa.org/record/1990-24322-001),这就是为什么中值分割值显示出比 BESD 更小的准确度。BESD 展示了分类准确性,就好像变量是真正的二分法,而不是通过中值分割人为地二分法。要看到这一点,请计算中位数拆分数据的相关性。您会看到它小于原始变量的相关性。如果变量最初是二进制的,这两种方法会一致。从本质上讲,BESD 将变量显示为真正的二进制。当它用于连续变量时,这必然代表一种抽象——没有真正的“成功”和“失败”或“治疗”和“控制”组,

BESD 没有偏差。如果我们使用两个二元变量,它准确地反映了特定处理对分类准确性的影响。它是展示测量或治疗的潜在实用价值的有用展示,而且,是的,它确实证明了即使是具有小方差的影响也可能具有重要意义。BESD 广泛用于应用心理学和组织实践,它与其他实际效果大小显示非常一致(例如,使用有效性相关性 r=0.25 的测量自上而下选择一个组将导致 0.25选定组与未选定组相比,结果表现的 SD 增加)。

由于平方运算是非线性的,方差占统计始终会导致对变量关系大小的误解和低估。许多应用方法学家(例如,https ://us.sagepub.com/en-us/nam/methods-of-meta-analysis/book240589 )强烈反对使用它们来支持平方根(它更准确地传达了影响)。

有关详细答案、何时产生影响的分析以及更好的解决方案,请参阅从 Meta-Analytic Effect Size 计算二分结果中绝对百分比变化的精确方法:提高影响和成本结果估计,TR Miller, J Derzon, D Hendrie, Value in Health, 14:1, 144-151, 2011。这是该文章摘要中的摘要答案。目标:荟萃分析通常计算治疗效果大小 (Cohen's d),它很容易转换为另一种常见的度量,即二项式效果大小显示 (BESD)。BESD 是相关系数,代表干预后结果的百分比差异。d 和 BESD 都是任意单位;两者都没有衡量干预导致的绝对变化。用于估计 BESD 绝对变化的方法假设结果分为 50-50 和平衡设计。因此,不准确的假设支撑了对干预所产生的收益(及其成本效益)的大多数元分析估计。本文在没有这些假设的情况下开发了一个精确的公式。方法:该公式是从 1) 以 2×2 列联表表示的相关系数公式由治疗组和对照组的相对大小以及在没有干预的情况下患有该病症的人的百分比构成的, 2) 显示成功概率随治疗变化的 BESD 相关系数公式。结果:模拟表明,当问题结果发生在 35%-65% 的案例中时,BESD 仅近似于干预可能很好地实现的结果减少。对于不太常见的结果,BESD 大大高估了干预的影响。即使 BESD 准确估计了结果可能发生的百分比变化,它也描绘了将取得积极结果的病例比例的误导性图景。