我不是统计学家,但有时我需要摆弄数据。我有两个数据集,单位间隔内的值列表。我将它们绘制为直方图,因此我对它们的“距离”有一个直观的了解。但我想做一些更正式的事情。
我的第一个想法是仅将垃圾箱中值的差异相加,但这并不令人满意。然后我想对这些取一个三箱平均值和总和差异。(抱歉,如果我正在修改统计术语)
但我想我可能正在重新发明轮子,所以我来到了这里。类似的问题似乎指向“Kolmogorov Smirnov 测试”或类似的东西。
所以我的问题是:这是计算这些数据集相距多远的正确方法吗?有没有一种简单的方法可以在 R 中做到这一点?理想情况下只是KStest(data1,data2)还是什么?
编辑要强调的是,我对直接测量数据相距多远的方法特别感兴趣,而不是对每个数据拟合分布然后测量分布之间的距离。[这还有意义吗?我猜 R 中的数值计算将通过从分布中抽样来完成。]