如何使用 CDF 和 PDF 统计数据进行分析

机器算法验证 数理统计
2022-02-16 17:11:16

这可能是一个太笼统的问题,但我希望我能在这里找到帮助。我正在我的大学开始一份 RA 工作,我的主题将与 Internet 流量分析有关。我对分析领域相当陌生,但我想在研究领域这是我必须做的很多事情。

我浏览了几篇论文,其中很多我发现他们使用概率密度 (PDF)、CDF、CCDF 等来解释他们获得的结果。例如,用户会话持续时间的 PDF、每天传输的字节数的 CDF 等。我参加了概率和统计课程,所以我了解它们是什么,但我仍然对选择这种表示的情况感到困惑。

所以,如果有人做这样的图表和分析(在任何其他一般主题或这个主题中)你能简单地告诉我在什么情况下我会使用这些表示中的一种或另一种

3个回答

这部分是品味和惯例的问题,但理论、对目标的关注以及一点点认知神经科学 [参见参考资料] 可以提供一些指导。

因为 pdf 和 cdf 传达相同的信息,所以它们之间的区别在于它们是如何做到的:pdf 表示具有面积的概率,而 cdf 表示具有(垂直)距离的概率。研究表明,人们比较距离比比较区域更快、更准确,而且他们系统地错误估计了区域。因此,如果您的目的是提供一个用于读取概率的图形工具,您应该倾向于使用 cdf。

Pdfs 和 cdfs 也表示概率密度:前者用高度表示,而后者用斜率表示密度。现在情况发生了逆转,因为人们对坡度的估计不佳(这是角度的正切;我们倾向于看到角度本身)。密度擅长传达有关模式、尾部重量和间隙的信息。在这种情况下以及需要强调概率分布的局部细节的任何其他地方,都倾向于使用 pdf。

有时 pdf 或 cdf 会提供有用的理论信息。它的值(或更确切地说是其倒数)涉及分位数、极值和等级统计的标准误差公式。在这种情况下显示 pdf 而不是 cdf。当研究非参数设置中的多元相关性时,例如使用copulas,cdf 被证明更有用(可能是因为它是将连续概率定律转换为统一概率定律的函数)。

pdf 或 cdf 可以与特定的统计测试密切相关。Kolmogorov-Smirnov 检验(和 KS 统计量)在cdf 周围的垂直缓冲区方面具有简单的图形表示;就pdf(我知道的)而言,它没有简单的图形表示。

ccdf(互补 cdf)用于关注幸存者和罕见事件的特殊应用程序。它的使用往往是按惯例确定的。

参考

WS 克利夫兰 (1994)。图形数据的元素。美国新泽西州萨米特:霍巴特出版社。国际标准书号 0-9634884-1-4

BD 凹痕 (1999)。制图:专题地图设计第 5 版。美国马萨诸塞州波士顿:WCB McGraw-Hill。

AM MacEachren (2004)。地图的工作原理。美国纽约州纽约:吉尔福德出版社。国际标准书号 1-57230-040-X

我同意 whuber 的回答,但还有一个小问题:

CDF 有一个简单的非参数估计量,不需要做出任何选择:经验分布函数估计 PDF并不是那么简单。如果您使用直方图,则需要选择 bin 宽度和第一个 bin 的起点。如果您使用内核密度估计,则需要选择内核形状和带宽。一个怀疑或愤世嫉俗的读者可能想知道你是否真的完全先验地选择了这些,或者你是否尝试了一些不同的值并选择了那些给出你最喜欢的结果的值。

不过,这只是一个小问题。whuber 制造的更重要,所以我可能只会在考虑这些之后仍然未决定时使用它来选择。

我想这取决于你要找到什么统计数据或发现,研究、研究或报告。我假设您可能会使用这些图表来表示您的大学主题的发现,对吧?

例如,如果你想展示你的发现,比如“用户在某个网站上停留了多长时间”,最好在 CDF 中显示它,因为它显示了他通过页面等在该网站上花费的累积时间.

另一方面,如果您想简单地显示用户点击广告链接(例如 Google Adwords 链接)的概率,那么您可能希望以 PDF 格式显示它,因为它可能是正态分布钟形曲线,您可以显示发生这种情况的概率。

希望这会有所帮助,杰夫