直方图和pdf的区别?

机器算法验证 分布 密度函数 直方图
2022-01-20 05:02:29

如果我们想直观地看到连续数据的分布,应该使用 histogram 和 pdf 中的哪一个?

直方图和pdf之间有什么区别,而不是公式明智?

4个回答

澄清德克斯点:

假设您的数据是正态分布的样本。您可以构建以下情节:

替代文字

红线是经验密度估计,蓝线是基础正态分布的理论 pdf。请注意,直方图在这里以密度而不是频率表示。这样做是出于绘图目的,通常在直方图中使用频率。

所以回答你的问题:如果你想描述你的样本,你可以使用经验分布(即直方图),如果你想描述假设的基础分布,你可以使用 pdf。

绘图由 R 中的以下代码生成:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)

直方图是对密度的计算机前年龄估计。密度估计是一种替代方法。

现在我们两者都使用,并且有大量文献说明应该使用哪些默认值。

另一方面,pdf 是给定分布的封闭式表达式。这与用估计的密度或直方图描述数据集不同。

这里没有硬性规定。如果您知道人口密度,那么 PDF 会更好。另一方面,我们经常处理样本,直方图可能会传达一些估计密度掩盖的信息。例如,Andrew Gelman 提出了这一点:

直方图的变化

直方图的一个主要好处是,作为原始数据的图,它包含自己的错误评估的种子。或者,换一种说法,稍微不平滑的直方图的锯齿状通过直观地指示采样可变性来提供有用的服务。这就是为什么,如果您查看我的书籍和已发表文章中的直方图,我几乎总是使用很多垃圾箱。我也几乎从不喜欢人们有时用来显示一维分布的那些核密度估计。我宁愿查看直方图并知道数据在哪里。

相对频率直方图(离散

  • 'y' 轴是归一化计数
  • “y”轴是该特定箱/范围的离散概率
  • 归一化计数总和为 1

密度直方图(离散

  • “y”轴是密度值(“归一化计数”除以“bin 宽度”)
  • 酒吧面积总和为 1

概率密度函数 PDF(连续

  • PDF 是直方图的连续版本,因为直方图箱是离散的
  • 曲线下的总面积积分为 1

这些参考资料很有帮助:) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

来自上述站点的Continuous_probability_distribution

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html