当数据充满异常值时,我可以进行独立的 t 检验吗?以及如何解释 t 统计量?

数据挖掘 统计数据 统计模型 推理
2022-02-25 15:10:22

我正在研究 2 个样本独立 t 检验。我对测试组和对照组进行了分析,我必须写一份报告,但我的问题很少。

  1. 我们是否必须取出异常值然后进行 t 检验?

  2. 一旦我执行 t-test- 任何人都可以解释 t-test 输出吗?解释不应该是统计术语,而是非业务人员也可以理解的方式。我需要对两个样本的置信区间和均值差异进行简单解释。

  3. 我们可以绘制什么样的图表来表示我们的结果?

2个回答

对不相等的样本量进行 t 检验很好,但是,功效不如相等的样本量。

1:) 是或否。不可能在不绘制异常值的情况下说。更重要的是,你能假设你的数据是正态分布的吗?你检查过QQ图吗?你检查过直方图吗?它们看起来接近正态分布吗?尽管只要样本量足够大,t 检验就对非正态数据具有稳健性,但您的数据不应表现得离正态太远。

当您考虑异常值时,请问自己以下问题:

  • 有多少异常值?如果你有很多,t 检验可能不合适。
  • 为什么是异常值?如果这是一个随机错误(你只是不走运),你可以将它包含在 t 检验中。如果是系统性错误,请停止测试,返回并检查您的数据。
  • 你如何定义异常值?
  • 这些异常值看起来对称吗?如果是这样,您可能会假设您的样本来自正常人群。您可以检查数据的偏度。

必须尝试了解这些异常值才能做出决定。

2 :) 您可以解释为“均值差异的概率是(或不)显着”

3 :) 你应该为每组画一个箱线图。

1)也许,记住你假设一个正态分布,如果你不满足这些假设你没有运行一个有效的测试。

2)您正在测试差异是否为零,即在我的置信区间中没有差异=零。

3)条形图是最容易理解的,因为您可以看到差异。箱线图提供更多信息,但仅供技术人员使用。