我做了一些定量研究,并在 Stata 中使用了 Rank-Order 逻辑回归。自变量的 p 值几乎为 0,这表明它们对因变量有显着影响。但是,由于样本量很大(35000 条记录)并且系数很小(例如 0.0001),因此它表明没有关系,因为当样本量很大时,一切都会变得重要。我也仅用 5000 条记录测试了该模型,也得到了显着的结果。你建议我做什么?我应该使用小样本量,那么我论文的审稿人就不会指出大样本量的问题......或者有没有其他方法可以报告我的结果并表明变量实际上具有显着影响?我将不胜感激。谢谢
大样本量,小系数,显着结果。我应该怎么办?
我想以前有人问过。意识到,如果没有预先指定的样本量和 alpha 水平, -value 只是您最终得到的样本量的度量,这一点很有用。不吸引人。我使用的一种方法是:在多大的样本量下, 0.05 水平是合适的?相应地缩放。例如,我觉得 0.05 水平通常适合有 100 个观察值的问题。那就是:我会说哇,那是如果它有 1/20 的机会是误报,这是一个有趣的发现。因此,如果您的样本量为 5,000,则比 100 大 50 倍。因此,将 0.05 水平除以 50,得出 0.001 作为显着性水平。这与费舍尔提倡的一致:不要用 p 值进行显着性检验,将它们与研究的功效进行比较。样本量是研究功效的最简单/最原始的衡量标准。以传统的 0.05 为截断值的过度研究完全没有意义。
通常,在查看数据和结果后选择显着性截止值是不可取的。有人可能会认为,随意选择一个更严格的事后显着性标准可能是不道德的。实际上,它只会欺骗读者,让他们认为您进行了比您进行的更好的对照试验。这样想:如果你观察到 p = 0.04,你就不会问这个问题;分析将是一个整洁的推理包。
另一种看待它的方式是:只需报告 CI,并且分析具有统计显着性。例如,对于从 (0.01, 0.16) 开始的风险比,您可能有 95% 的置信区间 - 空值为 1。可以说 p 值非常小,所以您不需要混乱显示 p=0.0000000023 的页面(不要这样做......只显示 p 的精确度,如果 3 位小数显示 p < 0.001 并且从不四舍五入到 0.000 - 这表明你不知道什么是 p 值方法。)。
您遇到了“具有统计意义”和“有意义”之间的鸿沟。正如您所指出的,如果有足够的样本量,您可以将统计显着性分配给任意小的差异 - 没有任何差异太小而不能用足够大的 N 称为“显着”。您需要使用领域知识来确定什么是一个“有意义的”区别。例如,您可能会发现一种新药将人的寿命延长了 10 秒——尽管您可以非常确信这种增加不是由于数据的随机变化造成的,但这并不是有意义的寿命延长。
其中一些将来自于了解您的问题以及该领域的人认为有意义的事情。您还可以尝试考虑可能复制您的发现的未来研究,以及他们可能使用的典型 N。如果未来的研究可能有一个低得多的 N,您可以计算在该大小的数据中复制您的发现所需的效应大小,并且只报告显着、有意义且可重现的结果。
当您有很多样本并且观察到的效果非常小(对于指定的应用程序而言很小)时,您可以放心地得出结论,自变量对因变量没有重要影响。效应量可以是“统计显着的”,同时又不重要。
使用小样本而忽略大样本的结果是不合适的。你应该感谢那些阅读你的论文并根据你的观察设计一些新实验的人。
我认为您应该决定“预期的最小效应大小”,即您希望在模型中包含的最小系数。比如说,您是否关心小于 0.0001、1 或 100 的系数?澄清一下,效应大小是原假设错误的程度,或者系数实际上有多大。这是人口的参数。另一方面,预期的最小效应大小是与您要检测的零点的最小偏离量。这是测试的一个参数。
既然您已经有了样本量以及一些预期的最小效应量,那么在给定参数和和来决定如何平衡你的显着性水平和权力。(从技术上讲,所有这些参数都必须在查看数据之前确定,但在这一点上,我想你可以假装你没有看到它们。)然后,执行你的测试,比较和,并据此得出结论。
顺便说一句,我相信没有理由排除任何记录,例如,除非您正在进行交叉验证。更多的数据通常会导致更准确的推理,此外,以选择性方式丢弃样本点可能会引入偏差。