双尾测试......我只是不相信。重点是什么?

机器算法验证 假设检验 统计学意义 推理 双尾检验
2022-01-24 03:49:18

以下摘自条目,单尾测试和双尾测试有什么区别?,在 UCLA 的统计帮助网站上。

...考虑在另一个方向上错过效果的后果。想象一下,您开发了一种您认为是对现有药物的改进的新药。您希望最大限度地提高检测改进的能力,因此您选择单尾测试。在这样做时,您无法测试新药是否不如现有药物有效。

在学习了假设检验的绝对基础知识并进入关于一对两尾检验的部分之后......我了解了一个尾检验的基本数学和增加的检测能力等......但我就是无法理解围绕一件事......有什么意义?我真的不明白为什么当你的样本结果只能是一个或另一个,或者两者都不是时,你为什么应该在两个极端之间分割你的 alpha。

从上面引用的文本中获取示例场景。对于相反方向的结果,您怎么可能“测试失败”?你有你的样本平均值。你有你的人口平均数。简单的算术告诉你哪个更高。在相反的方向有什么可以测试或无法测试的?如果您清楚地看到样本均值偏离了另一个方向,那么是什么阻止您从头开始提出相反的假设?

来自同一页面的另一个引用:

在运行未能拒绝原假设的双尾检验后选择单尾检验是不合适的,无论双尾检验有多“接近”显着性。

我认为这也适用于切换单尾测试的极性。但是,如果您一开始只是选择了正确的单尾测试,那么这个“篡改过的”结果怎么会更不有效呢?

显然,我在这里遗漏了大部分图片。这一切似乎太武断了。我想,从某种意义上说,什么是“统计显着”——95%、99%、99.9%……一开始是任意的。

4个回答

把数据想象成冰山一角——你在水面上所能看到的只是冰山一角,但实际上你有兴趣了解整个冰山的一些知识。

统计学家、数据科学家和其他处理数据的人都小心翼翼,不要让他们在水线以上看到的东西影响和偏向他们对水线以下隐藏内容的评估。出于这个原因,在假设检验的情况下,他们倾向于在看到冰山一角之前制定他们的零假设和替代假设,基于他们对如果能看到整个冰山可能会发生什么的预期(或缺乏预期) .

查看数据来制定假设是一种糟糕的做法,应该避免——这就像本末倒置。回想一下,数据来自从目标人群/感兴趣的宇宙中选择的单个样本(希望使用随机选择机制)。样本有自己的特质,可能反映也可能不反映潜在人群。为什么您希望您的假设反映人口的一小部分而不是整个人口?

另一种思考方式是,每次从目标人群中选择样本(使用随机选择机制)时,样本都会产生不同的数据。如果您使用数据(您不应该使用数据!!!)来指导您对零假设和替代假设的规范,那么您的假设将无处不在,主要由每个样本的特殊特征驱动。当然,在实践中我们只抽取一个样本,但如果其他人使用相同大小的不同样本进行相同的研究,他们将不得不改变他们的假设以反映现实,这将是一个非常令人不安的想法。他们的样本。

我的一位研究生院教授曾经有一句非常明智的说法:“我们不关心样本,只是它告诉我们关于人口的一些信息”我们想制定我们的假设来了解目标人群,而不是我们碰巧从该人群中选择的一个样本。

我认为在考虑您的问题时,如果您尝试牢记零假设显着性检验 (NHST) 的目标/卖点,这会有所帮助;它只是统计推理的一种范式(尽管非常流行),其他范式也有自己的优势(例如,有关 NHST 相对于贝叶斯推理的讨论,请参见此处)。NHST 的最大好处是什么?:长期错误控制如果您遵循 NHST 的规则(有时这是一个非常大的 if),那么从长远来看,您应该对自己做出的推论有多大可能出错有一个很好的认识。

NHST 的挑剔规则之一是,无需进一步更改您的测试程序,您只需查看您感兴趣的测试。实践中的研究人员经常忽略(或不知道)这条规则(参见 Simmons 等人,2012 年),在添加数据波后进行多次测试,检查他们的p-在模型中添加/删除变量等后的值。问题是研究人员很少对 NHST 的结果持中立态度;他们敏锐地意识到,显着的结果比非显着的结果更有可能被发表(出于误导和合理的原因;Rosenthal,1979)。因此,研究人员经常被激励添加数据/修改模型/选择异常值并反复测试,直到他们“发现”显着效果(参见 John 等人,2011,一个很好的介绍)。

上述实践产生了一个违反直觉的问题,在 Dienes (2008) 中有很好的描述:如果研究人员将不断调整他们的样本/设计/模型直到达到显着性,那么他们期望的假阳性发现的长期错误率(通常)和假阴性结果(通常是)将分别接近 1.0 和 0.0(即,无论是假的还是真的α=.05β=.20H0

在您的特定问题的上下文中,当研究人员不想对效应的方向做出特定预测时,他们会默认使用双尾检验。如果他们的猜测是错误的,并且在效应方向上进行单尾检验,他们的长期将被夸大。如果他们查看描述性统计数据并根据他们对趋势的观察进行单尾检验,他们的长期将被夸大。你可能认为这不是一个大问题,在实践中,值失去了它们的长期意义,但如果它们不保留它们的意义,那么你为什么要使用一种推理方法的问题优先考虑长期错误控制。ααp

最后(并且作为个人喜好问题),如果您首先进行双尾测试,发现它不重要,然后按照第一个测试暗示的方向进行单尾测试,我会遇到更少的问题,并且如果(且仅当)您在另一个样本中对该效果进行了严格的验证性复制,并在同一篇论文中发表了复制,则发现它很重要。只要您能够在没有相同分析灵活性的新样本中复制您的效果,探索性数据分析——使用错误率夸大灵活的分析实践——就可以了。

参考

Dienes, Z. (2008)。将心理学理解为一门科学:科学和统计推理导论帕尔格雷夫麦克米伦。

John, LK, Loewenstein, G. 和 Prelec, D. (2012)。用讲真话的激励措施来衡量可疑研究实践的普遍性。心理科学,23(5),524-532。

罗森塔尔,R. (1979)。文件抽屉问题和对空结果的容忍度。心理公报,86(3),638。

Simmons, JP, Nelson, LD 和 Simonsohn, U. (2011)。假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何重要的东西。心理科学,22(11),1359-1366。

不幸的是,药物开发的激励例子并不是一个好的例子,因为这不是我们开发药物的工作。如果趋势不利,我们会使用不同的、更严格的规则来停止研究。这是为了患者的安全,也因为药物不太可能神奇地朝着有意义的利益方向发展。

那么为什么要进行两次尾部测试呢?(在大多数情况下,我们对尝试建模的可能效果方向有一些先验概念)

零假设应该在合理、知情和合理的意义上与信念有一些相似之处。在大多数情况下,人们同意“无趣的结果”是在效应为 0 时,而负效应或正效应是同等重要的。很难阐明复合零假设,例如我们知道统计量可能等于小于一定数量。必须非常明确地说明零假设才能理解他们的科学发现。值得指出的是,进行复合假设检验的方式是,原假设下的统计量假设观察数据范围内最一致的值。因此,如果效果如预期的那样在正方向上,则无论如何都会将 null 值设为 0,而我们已经不必要地进行了讨论。

一个双尾测试相当于进行两个单侧测试,并控制多重比较!两尾检验实际上部分受到重视,因为从长远来看它最终会更加保守。当我们对效果的方向有充分的信心时,两个有尾检验会产生一半的误报,而对功效的总体影响很小。

在评估随机对照试验中的治疗的情况下,如果你试图向我推销单方面的测试,我会阻止你问:“等等,为什么我们会相信治疗实际上是有害的?真的有证据吗?支持这一点?甚至有平衡[展示有益效果的能力]吗?片面测试背后的逻辑不一致使整个研究受到质疑。如果真的什么都不知道,那么除了 0 之外的任何值都被认为是有趣的,并且两尾测试不仅是一个好主意,而且是必要的。

解决它的一种方法是暂时忘记假设检验,而是考虑置信区间。单边检验对应单边置信区间,双边检验对应双边置信区间。

假设您要估计总体的平均值。自然,您会抽取样本并计算样本均值。没有理由对面值进行点估计,因此您可以根据您有理由相信包含真实均值的区间来表达您的答案。你选择什么类型的间隔?到目前为止,双边间隔是更自然的选择。仅当您根本不关心找到估计值的上限或下限时,单边区间才有意义(因为您相信您已经知道一个方向上的有用界限)。您对这种情况真正确定的频率是多少?

也许将问题切换到置信区间并不能真正确定它,但是偏爱单尾检验但偏爱双边置信区间在方法上是不一致的。