机器算法验证 - 再现性危机是否也影响了置信区间？ - 吾爱随笔录

再现性危机让许多人对 $p$ -值来衡量统计结果的相关性。鉴于一个解释 $p$ -值和一些概率知识，看到有多少验证性研究未能显示并不奇怪 $p<0.05$ 当原始研究有 $p<0.05$ （保证率远高于 $0.05$ ）。我挣扎的一点是，这是否真的证实或反驳了原始研究。

一个想法是：为什么不根据置信区间比较这些研究？如果原始研究在不包括零假设值的 95% CI 的基础上被宣布具有统计学意义（相当于 $p$ -基于值的推断），尽管本身缺乏统计学意义，但验证性研究会产生位于 95% CI 内的效果似乎更合理？

这是否意味着评估研究可重复性（而不是评估统计显着性）的基础是错误的？