我有来自两个不同数据集的分布,我想测量它们的分布(就它们的 bin 频率而言)有多相似。换句话说,我对数据点序列的相关性不感兴趣,而是对它们相对于相似性的分布特性感兴趣。目前我只能观察到眼球的相似性,这还不够。我不想假设因果关系,也不想在这一点上进行预测。所以,我认为相关性是要走的路。
斯皮尔曼的相关系数用于比较非正态数据,由于我对数据中的真实基础分布一无所知,我认为这将是一个节省的赌注。我想知道这个度量是否也可以用来比较分布数据而不是分布中汇总的数据点。这里是 R 中的示例代码,它举例说明了我想要检查的内容:
aNorm <- rnorm(1000000)
bNorm <- rnorm(1000000)
cUni <- runif(1000000)
ha <- hist(aNorm)
hb <- hist(bNorm)
hc <- hist(cUni)
print(ha$counts)
print(hb$counts)
print(hc$counts)
# relatively similar
n <- min(c(NROW(ha$counts),NROW(hb$counts)))
cor.test(ha$counts[1:n], hb$counts[1:n], method="spearman")
# quite different
n <- min(c(NROW(ha$counts),NROW(hc$counts)))
cor.test(ha$counts[1:n], hc$counts[1:n], method="spearman")
这有意义还是我违反了系数的一些假设?
谢谢,R。