我正在阅读 John Kruschke 的“做贝叶斯数据分析”幻灯片,但实际上对他对 t 检验和/或整个零假设显着性检验框架的解释有疑问。他认为 p 值是不明确的,因为它们取决于研究者的意图。
特别是,他举了一个例子(第 3-6 页),两个实验室收集了相同的数据集,比较了两种治疗方法。一个实验室承诺收集 12 名受试者的数据(每种情况 6 名),而另一个实验室收集固定时间的数据,这也恰好产生了 12 名受试者。根据幻灯片,关键-价值这两种数据收集方案之间的区别:对于前者,但是对于后者!
一篇博文(我现在找不到)建议固定持续时间的场景具有更大的自由度,因为他们可以从 11、13 或任何其他数量的主题中收集数据,而固定 N 场景则通过定义,有.
有人可以向我解释一下:
为什么这些条件之间的临界值会有所不同?
(假设这是一个问题)如何纠正/比较不同停止标准的效果?
我知道根据重要性设置停止标准(例如,采样直到) 可能会增加 I 类错误的机会,但这似乎并没有发生在这里,因为停止规则都不取决于分析的结果。