我有一个大型数据集(500000 个数据,V1 列包含所有数据)。
x <- read.csv("mydata.csv", header=F)
hist(x)
这使:

看数据,我相信这不是正态分布。作为进一步检查,我构建了一个 qqplot:
x_norm <- (x$V1 - mean(x$V1))/sd(x$V1)
qqnorm(x_norm); abline(0, 1)
这给了:

为了检查 x$V1 (原始数据)对正态分布的拟合优度,我使用了:
rnorm <- rnorm(500000, mean(x$V1), sd(x$V1))
cc <- cbind(rnorm, x$V1)
g <- goodfit(cc, method="MinChisq")
summary(g)
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 914.5227 17 1.679266e-183
Warning message:
In summary.goodfit(g) : Chi-squared approximation may be incorrect
给予plot(g):

这看起来正确吗?我可以自信地断定我的数据集X$V1是或不是正态分布吗?
基于以上分析,我应该测试什么其他分布?