这是关于 SPSS 中的 t 检验的问题。
我有两组,我想测试这两种方法是否相等。我正在使用带有引导的 t 检验。最后,我得到了一个 p 值<0.005,这通常会导致我拒绝两个总体的平均值相等的零假设,但在我的情况下,零位于基于 1000 个样本的 95% BCA 引导置信区间内.
我仍然拒绝均值假设吗?
这是关于 SPSS 中的 t 检验的问题。
我有两组,我想测试这两种方法是否相等。我正在使用带有引导的 t 检验。最后,我得到了一个 p 值<0.005,这通常会导致我拒绝两个总体的平均值相等的零假设,但在我的情况下,零位于基于 1000 个样本的 95% BCA 引导置信区间内.
我仍然拒绝均值假设吗?
警告: 这个答案假设问题是关于解释自举 p 值和 CI。传统 p 值(非自举)和自举 CI 之间的比较将是一个不同的问题。
使用传统(非自举)t 检验,95%CI 和 p 值相对于 0.05 的显着性截止值的位置将始终告诉您同样的事情。这是因为它们都基于相同的信息:您的自由度的 t 分布以及在您的样本中观察到的均值和标准误差(或在双样本 t- 的情况下均值和标准误差之间的差异)测试)。如果您的 CI 不与 0 重叠,那么您的 p 值必然是 < .05 --- 当然,除非软件中存在错误或用户在执行或解释测试时出现错误。
使用自举 t 检验,CI 和 p 值都直接从自举生成的经验分布计算:p 值只是自举组差异的百分比比原始观察到的差异更极端;95%CI 是自举组差异的中间 95%。p 值和 CI 在自举检验中的显着性存在分歧并非不可能。
在自举检验的背景下,p 值(与 CI 相比)更直接地反映了假设检验的精神,因此依靠该值来决定是否在您想要的 alpha(通常为 0.05)。因此,在您的情况下,当 p 值小于 0.05 但 95%CI 包含零时,我建议拒绝原假设。
所有这些都跳过了关于“重要性”真正应该有多重要以及零假设显着性检验是否真的对工具有用的大想法。简而言之,我总是建议用效应量估计来补充任何显着性检验分析(对于两样本 t 检验,最佳效应量估计可能是Cohen's d),这可以提供一些额外的背景信息来帮助您理解结果。
相关有用的帖子:从自举重采样中获取的置信区间的含义是什么?
如果原假设的 p 值小于 0.05,则零不应包含在您假设在原假设中为零的参数的 0.05 处的置信区间中。这是同一件事。所以有一个错误,或者你没有测试相同的假设。
编辑,正如其他答案和下面的评论正确表明的那样,这不是完整的故事。但是,我仍然认为,如果一个测试表明组具有不同的平均值(p < 0.005),而另一个不拒绝(p > 0.05),那么测试可能真的在检查不同的东西。
虽然理论上这种差异可能是由于渐近性(bootstrap 是有限样本的近似值,其他测试是基于正态假设的近似值),但这种差异非常大。我认为它大得惊人,如果不弄清楚这是怎么回事,你还不应该得出结论。顺便说一句,通过在此处发布问题,这也正是您正在做的事情。也许你可以分享这些数字,让这个有趣的问题更具体一些。