机器算法验证 - 如何描述/解释具有两个峰的分布的形状？ - 吾爱随笔录

如何描述/解释具有两个峰的分布的形状？

机器算法验证 r 分布数据可视化密度函数

2022-04-01 16:57:16

如何描述以下具有两个峰的分布的形状？描述分布形状的重要内容是什么？

MASS 包中波士顿税收数据的密度图

它是以下R代码的输出： plot(density(Boston$tax))

（数据集是包中的Boston数据MASS。）

我还想知道下图中的地毯（这些红点）是什么意思：

与上述相同数据的密度加地毯图

我使用与上面相同的数据使用以下代码创建了它：

plot(density(Boston$tax))
rug(Boston$tax, col=2, lwd=3.5)

1个回答

为了向另一个人描述这种双峰形状，您可以将其称为“双峰”（仅表示“两种模式”-通常被认为是两种局部模式，即使其中只有一个可能是分布）。

然后，您可以寻求描述峰的位置和分布以及相对比例或高度（这可以通过视觉方式或更正式地完成，例如使用高斯混合模型）。

例如，作为第一个简单的描述，我可能会说“分布似乎是双峰的，主峰在 290 左右，较低的峰在 670 左右”

- 然后如果有必要，提供关于峰周围曲线的相对高度或宽度/面积的额外细节，如果这些细节中的任何一个对您的观众很重要（例如，沿着“峰在周围的分布主模式比小模式周围的更宽”）。

如果我们以接近高斯混合模型的方式进行思考，则有轻微的迹象表明在 420 附近会出现第三个“颠簸”，但它与更大的模式足够接近，不会产生单独的峰值。

您使用的那些红色标记rug是实际数据值；对于每个观察，在页边空白处放置一个红色标记（类似于您使用看到的标记stripchart(Boston$tax,pch="|")）。您通常会用细线而不是宽线来标记它们。因为这些值位于绘图的边缘，所以标记看起来有点像地毯边缘的流苏。这与核密度估计本身无关（除了显示计算 KDE 的数据），它只是在图中添加了一种不同类型的信息；您可以使用rug将信息添加到数据的各种其他显示中。地毯图只是数据值的边缘（对于某些主图）一维图。

当数据有很多重复值时，地毯图的信息量不那么丰富（就像税收变量一样 - 例如，666 处有 132 个值，它们都是一个在另一个之上绘制的）；您通常可以通过一点“抖动”来改善它，但是有很多重复的值甚至rug(jitter(x,amount=20))无法区分这些值。对于这种情况，使用透明度和较少量的抖动或其他一些指示（例如点图）可能会更好：

plot(density(Boston$tax),col=3)  #$
stripchart(Boston$tax,add=TRUE,pch=16,cex=.03,at=-0.00013,method="stack",col=8)

在此处输入图像描述

其它你可能感兴趣的问题

上一篇相关矩阵的特征值呈现指数衰减下一篇给定数据集的 95% 置信区间