使用经验 CDF 与分布 CDF?

机器算法验证 分布 数据可视化 密度函数 累积分布函数
2022-03-14 18:32:47

注意:由于未决的出版物,我故意没有标记轴。线条颜色代表所有三个图中的相同数据。
我使用负二项分布拟合我的数据以生成 pdf。我对 pdf 很满意,并且满足了我的研究需求。PDF图:

替代文字


对于报告 CDF 时,我应该使用经验 CDF 还是拟合 CDF?经验和拟合 CDF 之间存在细微差异,特别是在 x = 40 时,黄色和青色线在经验分布中相交,但不是拟合。

经验:
替代文字

负二项式 CDF: 替代文字

2个回答

就个人而言,我更倾向于使用一组PP plotsQQ plots来显示理论与经验分布的拟合

在数据的端点以及存在“稀疏”数据的其他地方,需要小心处理经验 CDF。这是因为他们倾向于对每个数据点“之间”发生的事情做出薄弱的结构性假设。为经验 CDF 图而不是线使用“点”也是一个好主意,或者将点叠加在线上,以便更容易查看大部分数据的实际位置。另一种选择是将数据的“点”放在拟合的 CDF 图上,尽管图中可能发生了太多事情。

也许这是一个绘图困难,但经验 CDF 应该看起来像一个楼梯或阶梯函数(水平线在观察值处“跳跃”)。上面的经验图看起来不是这样,它们看起来“平滑”。也许它们是使用某种更平滑的绘图的“非参数”CDF?

如果它是“非参数”CDF,那么您基本上是在比较模型:负二项式和非参数式。

我的建议:为每个数据(新图表上的每种颜色)制作一个单独的图,然后将经验 CDF 作为观察数据的“点”,并将拟合的负二项式 CDF 作为同一图上的平滑线。这看起来类似于带有拟合线的回归式散点图。我正在谈论的那种情节的一个例子(它有 R 代码来创建它)是这里如何通过 Y 和 X 的相关性来呈现解释方差的增益?)