在 R 中,我有一个包含 348 个度量的样本,并且想知道我是否可以假设它是正态分布的,以供将来的测试使用。
基本上遵循另一个堆栈答案,我正在查看密度图和 QQ 图:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
我在统计方面没有丰富的经验,但它们看起来像是我见过的正态分布的例子。
然后我运行 Shapiro-Wilk 测试:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
如果我正确解释它,它会告诉我拒绝原假设是安全的,即分布是正态的。
但是,我遇到了两个 Stack 帖子(here和here),它们严重破坏了该测试的实用性。看起来如果样本很大(348被认为是大吗?),它总是会说分布不正常。
我应该如何解释这一切?我应该坚持使用 QQ 图并假设我的分布是正常的吗?