如何描述以下具有两个峰的分布的形状?描述分布形状的重要内容是什么?
它是以下R
代码的输出:
plot(density(Boston$tax))
(数据集是包中的Boston
数据MASS
。)
我还想知道下图中的地毯(这些红点)是什么意思:
我使用与上面相同的数据使用以下代码创建了它:
plot(density(Boston$tax))
rug(Boston$tax, col=2, lwd=3.5)
如何描述以下具有两个峰的分布的形状?描述分布形状的重要内容是什么?
它是以下R
代码的输出:
plot(density(Boston$tax))
(数据集是包中的Boston
数据MASS
。)
我还想知道下图中的地毯(这些红点)是什么意思:
我使用与上面相同的数据使用以下代码创建了它:
plot(density(Boston$tax))
rug(Boston$tax, col=2, lwd=3.5)
为了向另一个人描述这种双峰形状,您可以将其称为“双峰”(仅表示“两种模式”-通常被认为是两种局部模式,即使其中只有一个可能是分布)。
然后,您可以寻求描述峰的位置和分布以及相对比例或高度(这可以通过视觉方式或更正式地完成,例如使用高斯混合模型)。
例如,作为第一个简单的描述,我可能会说“分布似乎是双峰的,主峰在 290 左右,较低的峰在 670 左右”
- 然后如果有必要,提供关于峰周围曲线的相对高度或宽度/面积的额外细节,如果这些细节中的任何一个对您的观众很重要(例如,沿着“峰在周围的分布主模式比小模式周围的更宽”)。
如果我们以接近高斯混合模型的方式进行思考,则有轻微的迹象表明在 420 附近会出现第三个“颠簸”,但它与更大的模式足够接近,不会产生单独的峰值。
您使用的那些红色标记rug
是实际数据值;对于每个观察,在页边空白处放置一个红色标记(类似于您使用 看到的标记stripchart(Boston$tax,pch="|")
)。您通常会用细线而不是宽线来标记它们。因为这些值位于绘图的边缘,所以标记看起来有点像地毯边缘的流苏。这与核密度估计本身无关(除了显示计算 KDE 的数据),它只是在图中添加了一种不同类型的信息;您可以使用rug
将信息添加到数据的各种其他显示中。地毯图只是数据值的边缘(对于某些主图)一维图。
当数据有很多重复值时,地毯图的信息量不那么丰富(就像税收变量一样 - 例如,666 处有 132 个值,它们都是一个在另一个之上绘制的);您通常可以通过一点“抖动”来改善它,但是有很多重复的值甚至rug(jitter(x,amount=20))
无法区分这些值。对于这种情况,使用透明度和较少量的抖动或其他一些指示(例如点图)可能会更好:
plot(density(Boston$tax),col=3) #$
stripchart(Boston$tax,add=TRUE,pch=16,cex=.03,at=-0.00013,method="stack",col=8)