NHST 何时适合开展业务?

机器算法验证 假设检验 测试 商业智能
2022-03-17 19:33:03

零假设显着性检验似乎在商业中被广泛使用。最明显的例子是 A/B 测试,其中企业将执行测试,比较其业务某些方面的两个变体,旧的和新的,如果测试显示出积极的差异,则切换到新的变体。作为一名 MBA 学生,我注意到 NHST 似乎是教授给大多数商科学生的唯一方法。

我不禁想到“A和B之间的差异在统计上显着吗?”这个问题。有时与“我应该选择 B 而不是 A?”非常不同,但我们被教导使用前一个问题来确定后者的正确答案。例如:

  1. 两个条件之间的统计显着差异并不意味着这种差异大到足以抵消其他因素。例如,切换到新变体本身的成本可能大于变体之间的统计显着差异带来的新收入。

  2. 在某些情况下,我们可能没有足够的数据来发现统计上的显着差异,但使用我们确实必须为决策提供信息的数据可能仍然有意义。例如,如果选择一个变体或另一个变体不花费任何成本,那么选择具有更大期望值的变体可能是有意义的,即使我们不能确定差异是否显着。这个想法是,我们不一定对 95% 的时间是对的感兴趣,而是对正确的次数比我们错误的次数或更大的错误次数感兴趣。

然而,在实践中,仅根据是否拒绝原假设来做出决定似乎很常见。统计测试似乎会自动给分析带来严谨的氛围,通常足以支持结论,而无需过多讨论在这种情况下对测试的正确解释应该是什么。那些认识到 NHST 在这方面存在一些局限性的人通常会说“有总比没有好”来消除这些限制,但我觉得在某些情况下,不幸的是,事实可能并非如此。

我的问题是:这些担忧是否合理?NHST 何时以及如何适合在商业中使用?

3个回答

您的担忧是完全合理的。

1)这达到了效果大小给定足够的数据,我们可以检测出微小的差异。但是,我们从 FROM 中得出的所有结论μXμY=0.00000010就是这两种方法的差值不为零。虽然我们可能对这个结论非常有信心,但我们保留说“是的,但我们对这么小的差异不感兴趣”的权利。

2)我不同意这里。具有较低平均值的总体可能表现出较高的样本平均值。事实上,我会给你一个 R 模拟来展示这有多普遍。

set.seed(2019)
V <- rep(NA,2500)
for (i in 1:length(V)){
    x <- rnorm(25,0,1)
    y <- rnorm(25,0.25,1)
    V[i] <- mean(x) - mean(y)
}
length(V[V>0])/length(V)*100

我们期望 的条目V小于零,因为总体平均值Y大于总体平均值X(0.25 对 0)。但是,这个模拟给了我x¯>y¯在 19.08% 的情况下。换句话说,你的计划将导致更糟糕的方法在大约五分之一的时间内被实施。也许你愿意承担这个风险,并且有量化的方法来捍卫这种立场,但你应该知道它很常见。

我将作为经济学家/计量经济学家和私营部门长达数十年的商业专业人士对此作出回应。

1)正如另一个答案指出的那样,我们应该将“统计意义”与“经济意义”(情况的“规模”方面)分开。

2) 统计显着性取决于“一个人愿意承担的错误风险量”。既定的科学传统是“尽可能保守和谨慎”,反对声称确实存在显着差异的说法。这反映在标准的 1%、5%、10%“显着性水平”中,人们在运行显着性测试时被教导使用。但是企业很可能希望/决定接受更多的此类风险,因此您可以在您选择的任何显着性水平(例如 40%)上进行显着性测试。

3)经典统计和预期值更适合关于中期/重复情况的决策。在企业中,我们必须做出许多短期/一次性的决定。然后,贝伊斯推理方法可能更适合,而且考虑“最可能”的结果而不是“预期值”可能更有意义。

4) 成本考虑当然应该进入商业决策。这归结为正确建模您的损失/收益函数。在传统的统计测试中,损失/收益函数被隐含地假设为围绕“零差”对称,因为科学的对象是准确性本身,因此不准确性的方向无关紧要。但在经济活动中,这种成本/收益对称的情况很少见。请参阅我在这篇文章这篇文章中的两个答案

这些担忧是合理的,但我不认为统计测试是实际业务实践中所有决策的最终目的。正确使用的统计数据仅有助于构建可用于决策的信息。如前所述,当您因为拒绝原假设而做出改变决定时,效果大小是一种可视化实际购买的好方法。在这一点上决定是否值得是可能不再涉及统计的事情。