数据挖掘 - 表示不同的数据集 - 吾爱随笔录

表示不同的数据集

数据挖掘可视化绘图

2022-03-13 09:26:27

我对绘制不同的数据集没有想法....

我有 10 组数据...每组包含车辆的实际速度和车辆的预测速度..

如何组合所有数据集并以有意义的方式显示？我不认为我可以简单地平均，因为它们是绝对值（在一次跑步中，我以 25 英里/小时的速度行驶，第二次跑步，我可能以 30 英里/小时的速度行驶）//...

关于如何以有意义的方式（如方差）表示 10 组数据有什么想法吗？

任何想法表示赞赏

1个回答

这个问题有两种解决方案，虽然我只解释第二种，因为我认为这是最好的选择。

第一个选项：

10 x 轴上的车辆速度散点图和 y 轴上的预测车辆速度散点图。我看到这个图唯一有用的场景是用它们的速度对不同类型的车辆进行聚类（如果实际上有很多车辆模型）。当然，您也可以在单个散点图中聚合所有数据点并对数据集进行颜色编码（例如，数据集 1 = 蓝色，数据集 2 = 红色等）

第二种选择：

计算每个数据点的车速和预测速度的差值，然后将所有结果绑定到一个数据表中，以便每列包含每个数据集的实际速度和预测速度之间的差值。然后将每列绘制为箱线图中的条形图，在这里您将能够描述所有差异，包括异常值和均值的符号。您可能已经知道，方框代表标准差（方差），中心线代表平均值。您可以在此处找到有关箱线图的更多信息：维基百科

R 和 ggplot2 中的示例代码

dt1 <- data.frame(data = c(runif(20, min = -1, max = 1),
                       runif(20, min = -1, max = 1), 
                       runif(20, min = -2, max = 1)), 
              datasetName = c(rep("dataset1", 20),
                              rep("dataset2", 20), 
                              rep("dataset3", 20)))


ggplot(dt1, aes(x = datasetName, y = data)) +
geom_boxplot(fill = "white", colour = "#3366FF") +
labs(x = "Dataset Name", y = "Difference Between Speed and Predicted Speed",  title = "Datasets distribution")

生成的图像应如下所示：

其它你可能感兴趣的问题