有没有定量的方法来比较不同样本的分布形状?

机器算法验证 分布 数据可视化 非参数
2022-03-06 05:44:04

我正在进行一些研究,其中涉及以视觉/图形方式观察不同样本分布形状之间的差异。

我想自动化这个过程(至少在某种程度上),这样我就可以扩展我查看的样本数量(以及加快速度,减少人为错误等)。

有没有办法定量描述/测量分布的形状,以便可以通过算法进行形状之间的比较?

2个回答

如果问题是单变量的,那么为什么不对(居中,重新缩放)向量进行 KS 测试?

您不能使用关联pvalues(因为中心和比例分量已由数据确定),但D统计数据给出了两个向量之间距离的相对度量(简而言之,这只是两个 CDF 之间的切比雪夫距离) .

因此,在 中R,它将是(假设xy是两个可能不同长度的向量(每个向量包含一个样本,其分布形状要比较)。

例如,如果xP(λ)yN(μ,σ2)

#two distributions with different shape
y<-rnorm(100,0,3)
x<-rpois(100,1)
x_s<-(x-median(x))/mad(x)
y_s<-(y-median(y))/mad(y)
par(mfrow=c(2,1))
hist(y_s)
hist(x_s)
ks.test(x_s,y_s)

PS我留下了原来的答案,因为它似乎很有用,坦率地说我花了一些时间来写。@Modo:让我知道删除它是否更好。

当然,如果问题是多变量的:

给定具有 x协方差矩阵 的形状矩阵定义为因此总是,我们可以将原始矩阵分解为 这个标量因子的平方根 的比例分量ppΣΣΓ=|Σ|1/pΣ|Γ|=1Σ=|Σ|1/pΓ|Σ|1/2pΣ

估计的散布矩阵S 的形状矩阵类似地计算为,其比例分量为G=|S|1/pS|S|1/2p

之间的差异(距离) 可以定义为 其中是特征值。G1G2

D_s(G1,G2)=logλ1(G21/2G1G21/2)λp(G21/2G1G21/2)
λ1...λp