“研究者意图”和阈值/p 值

机器算法验证 假设检验
2022-02-10 03:00:58

我正在阅读 John Kruschke 的“做贝叶斯数据分析”幻灯片,但实际上对他对 t 检验和/或整个零假设显着性检验框架的解释有疑问。他认为 p 值是不明确的,因为它们取决于研究者的意图。

特别是,他举了一个例子(第 3-6 页),两个实验室收集了相同的数据集,比较了两种治疗方法。一个实验室承诺收集 12 名受试者的数据(每种情况 6 名),而另一个实验室收集固定时间的数据,这也恰好产生了 12 名受试者。根据幻灯片,关键t-价值p<0.05这两种数据收集方案之间的区别:tcrit=2.33对于前者,但是tcrit=2.45对于后者!

一篇博文(我现在找不到)建议固定持续时间的场景具有更大的自由度,因为他们可以从 11、13 或任何其他数量的主题中收集数据,而固定 N 场景则通过定义,有N=12.

有人可以向我解释一下:

  • 为什么这些条件之间的临界值会有所不同?

  • (假设这是一个问题)如何纠正/比较不同停止标准的效果?

我知道根据重要性设置停止标准(例如,采样直到p<0.05) 可能会增加 I 类错误的机会,但这似乎并没有发生在这里,因为停止规则都不取决于分析的结果。

2个回答

我终于找到了与幻灯片相关的论文:Kruschke (2010),也可以直接从作者那里(通过 CiteSeerX)获得因为该期刊没有被广泛传播。解释有点平淡无奇,但我仍然不确定我是否购买它。

在固定 N 的情况下,关键t-value 计算如下:2N样本是从(相同的)总体中随机抽取的,并且t- 计算值。此过程重复多次以建立零分布。最后,tcrit设置为该分布的第 95 个百分位。

对于固定持续时间的情况,他假设受试者以平均速度到达λ. 通过重复两个步骤构建零分布。第一步,每个条件的受试者数量N1N2从带有参数的位置分布中得出λ. 下一个,N1N2从总体中随机抽取用于计算t-价值。这重复了很多次,并且tcrit设置为该分布的第 95 个百分位。

这对我来说似乎有点……厚颜无耻……。据我了解,没有一个t-分配; 相反,它是一个分布族,其形状部分由自由度参数决定。对于固定-N条件,有N每组科目和适当的t- 未配对 t 检验的值是2N2自由度,这大概就是他的模拟所再现的。

在另一种情况下,似乎“t"-like 分布实际上是来自许多不同的样本的组合t- 分配,取决于具体的抽奖。通过设置λ=N,可以得到平均自由度等于2NN,但这还不够。例如,平均t-分布为ν=1ν=5似乎不是t-具有 3 个自由度的分布。

总之:

  • 作者正在生成tcrit通过模拟,而不是仅仅从 CDF 计算它们。
  • 作者模拟固定持续时间场景的方式似乎可能会使相应的尾巴变胖t-分配。
  • 我仍然不相信这实际上是一个问题,但如果有人不这么认为,我很乐意阅读/赞成/接受答案。

这里有更多信息:http ://doingbayesiandataanalysis.blogspot.com/2012/07/sampling-distributions-of-t-when.html

此处提供了更完整的讨论:http: //www.indiana.edu/~kruschke/BEST/ 该文章考虑了在阈值 N 处停止、在阈值持续时间处停止和在阈值 t 值处停止的 p 值。