我正在进行一些研究,其中涉及以视觉/图形方式观察不同样本分布形状之间的差异。
我想自动化这个过程(至少在某种程度上),这样我就可以扩展我查看的样本数量(以及加快速度,减少人为错误等)。
有没有办法定量描述/测量分布的形状,以便可以通过算法进行形状之间的比较?
我正在进行一些研究,其中涉及以视觉/图形方式观察不同样本分布形状之间的差异。
我想自动化这个过程(至少在某种程度上),这样我就可以扩展我查看的样本数量(以及加快速度,减少人为错误等)。
有没有办法定量描述/测量分布的形状,以便可以通过算法进行形状之间的比较?
如果问题是单变量的,那么为什么不对(居中,重新缩放)向量进行 KS 测试?
您不能使用关联pvalues(因为中心和比例分量已由数据确定),但D统计数据给出了两个向量之间距离的相对度量(简而言之,这只是两个 CDF 之间的切比雪夫距离) .
因此,在 中R,它将是(假设x和y是两个可能不同长度的向量(每个向量包含一个样本,其分布形状要比较)。
例如,如果和:
#two distributions with different shape
y<-rnorm(100,0,3)
x<-rpois(100,1)
x_s<-(x-median(x))/mad(x)
y_s<-(y-median(y))/mad(y)
par(mfrow=c(2,1))
hist(y_s)
hist(x_s)
ks.test(x_s,y_s)
PS我留下了原来的答案,因为它似乎很有用,坦率地说我花了一些时间来写。@Modo:让我知道删除它是否更好。
当然,如果问题是多变量的:
给定具有 x协方差矩阵 的形状矩阵定义为。因此总是,我们可以将原始矩阵分解为 。这个标量因子的平方根 的比例分量。
估计的散布矩阵S 的形状矩阵类似地计算为,其比例分量为。
和之间的差异(距离) 可以定义为 其中是特征值。