如何确定数据集与分布的近似程度?

机器算法验证 分布 采样 kullback-leibler
2022-04-18 23:46:24

很简单,我有一些概率分布 p(x),我如何衡量一个经验密度(一组 delta 质量)是否比另一个更好。我知道 KL 散度是两个连续密度之间的公认度量,但尚不清楚如何将其应用于一组样本。

1个回答

出于可视化目的,请尝试QQ 图,它是数据的分位数与预期分布的分位数的图。

如果您需要统计检验,Kolmogorov-Smirnov的非参数检验,使用经验和分析 cdf 的最大差异。p(x)

当然,您也可以在两种分布下评估数据的对数概率: ,取较大者。这相当于最大似然密度比较。是适合您的数据的分布,则这可能无效,尤其是如果它们具有不同数量的拟合参数;在这种情况下,您想要进行“模型比较”,并且有多种工具可以做到这一点— AIC、BIC、贝叶斯因子、似然比检验、交叉验证等)L1=ip1(Xi)L2=ip2(Xi)p1p2