在这个例子中,第二个峰值density plot
很大。为什么数据的地毯表示 - 似乎显示很少高值 - 似乎与那里估计的更高密度不匹配?
如何才能使地毯图不那么具有误导性?
这是它的R
代码:
plot(density(Boston$tax))
rug(Boston$tax, col=2, lwd=3.5)
在这个例子中,第二个峰值density plot
很大。为什么数据的地毯表示 - 似乎显示很少高值 - 似乎与那里估计的更高密度不匹配?
如何才能使地毯图不那么具有误导性?
这是它的R
代码:
plot(density(Boston$tax))
rug(Boston$tax, col=2, lwd=3.5)
从 R 包MASS
中,中的总观察值Boston
,税值低于470
和有上面的税值665
。事实上666
是迄今为止数据集中最常见的值,出现次。
因此,如果密度图左侧的面积大约是右侧面积的两倍,则可以合理地将其视为表示分布。目视检查表明这可能是正在发生的事情。
更准确的表示会使正确的峰值更高更窄,这可以通过调整参数来实现。
添加评论:
例如,密度函数和一些手动抖动的带宽要窄得多:
library(MASS)
plot(density(Boston$tax, bw=5))
rug(Boston$tax + rnorm(length(Boston$tax), sd=5), col=2, lwd=3.5)
你会得到这样的东西