用于显示多级分类数据中的差异(或缺乏)的图表

数据挖掘 统计数据 图表 图形模型
2022-02-12 23:23:18

我正在尝试找到一种有趣的方式来解释和显示我正在进行的研究的一组数据。第 2-4 列显示了不同类型细菌(AD 型)的抗生素覆盖率从时间 1 到时间 2 的净变化。1 表示增加了对该类型细菌的覆盖范围,-1 表示停止了对该细菌的覆盖范围,0 表示覆盖范围没有变化(即在时间 1 或时间 2 未覆盖,或者已覆盖两次都一样)。第 1 列显示细菌培养物是阳性还是阴性。我有兴趣以图形方式显示文化为阳性与阴性时 AD 覆盖率的差异。每行代表一个不同的案例。

您会注意到在大多数情况下 AD 没有变化 (0)。大多数情况没有变化的事实可能是最有趣的一点,但我也不知道如何使这一点在图表上突出。

我尝试制作的图表仅包括至少有 1 处更改的情况。到目前为止,我主要尝试了条形图/柱形图,显示每次变化时阳性/阴性文化的比例。因此,该列可能是 B - 添加,带有文化阳性和文化阴性栏,显示每个的相对比例,以查看文化是否对添加 B 产生了影响,对于 B - 停止、C - 添加、C - 也是如此每个类别的停止等。

在大多数情况下,我看到文化并没有真正影响每个类别的覆盖范围是增加还是停止,但我制作的图表并没有以令人信服的方式说明这一点。

有什么想法吗?

文化ABCD
负 0 0 0 0
正 -1 0 0 0
正 0 0 0 0
负 1 1 1 0
负 0 -1 -1 0
负 0 0 -1 0
负 0 0 0 0
负 0 0 0 0
正 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 -1 0 0
负 0 0 0 0
正 1 0 0 1
正 0 0 0 0
正 0 -1 -1 0
负 1 1 1 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 -1 0 0
负 0 1 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
正 0 0 0 0
正 0 1 -1 0
正 0 0 1 0
负 0 0 0 0
负 1 1 1 0
正 0 0 0 0
正 1 1 1 0
负 -1 -1 -1 0
负 0 0 0 0
负 0 0 0 0
负 -1 -1 -1 0
正 0 0 0 0
负 0 0 0 0
正 1 0 0 0
负 0 -1 0 0
负 0 0 0 0
正 0 0 0 0
负 -1 -1 0 0
负 0 0 0 0
负 0 0 -1 0
负 0 0 1 0
正 0 0 0 0
负 0 0 0 0
正 0 0 -1 0
负 0 0 0 0
负 0 0 0 0
正 1 0 0 0
负 0 0 0 0
负 0 0 -1 0
负 0 0 0 -1
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 -1 0
负 0 -1 -1 0
正 -1 0 0 0
负 0 0 0 0
负 0 0 0 0
正 0 0 0 0
负 0 0 0 0
负 1 1 1 0
正 0 0 0 0
负 0 0 0 0
负-1 0 0 0
正 0 1 0 0
负 0 0 0 0
正 -1 -1 0 0
正 -1 0 0 0
正 0 0 0 1
正 0 0 0 0
负 0 0 0 0
正 0 -1 0 0
正 -1 -1 -1 0
负 0 0 -1 0
负 0 0 0 0
负 0 -1 -1 0
负 0 1 0 0
负 0 0 0 0
正 0 0 0 0
负 -1 -1 -1 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 1 1 1 0
正 0 0 0 0
正 0 0 0 0
负 0 0 0 0
负 0 0 0 0
正 0 0 0 0
负 0 1 0 0
负-1 1 0 0
负 0 0 0 0
正 1 1 1 0
负 0 0 0 1
负 0 0 0 0
负 0 0 0 0
负 1 0 0 0
负-1 0 0 0
负-1 0 0 0
负 0 0 0 0
正 -1 0 0 0
正 0 0 0 0
负 0 -1 0 1
负 -1 -1 0 0
负-1 0 0 0
负 0 0 0 0
负-1 0 0 0
负-1 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 1 1 1 0
负 0 0 0 0
负-1 0 0 0
正 0 0 0 0
负 0 0 0 0
负 0 0 0 1
负 0 0 0 0
负 0 0 1 0
正 0 0 0 0
负 0 0 0 0
负 0 0 -1 0
负 0 0 0 0
负-1 0 0 0
负 0 0 0 0
负 0 0 0 0
正 0 0 0 1
正 -1 0 0 0
正 -1 -1 -1 0
正 1 0 1 0
负-1 0 0 0
正 0 1 0 0
负 0 0 0 0
正 0 0 0 0
负 0 0 0 0
负 1 1 1 1
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 1 1 0 0
负 0 0 0 0
负 -1 -1 -1 0
负 0 -1 0 0
负 1 0 0 0
正 0 0 0 0
负 1 1 0 0
负 0 0 0 0
正 0 0 0 0
负-1 0 0 0
负-1 0 0 0
负 1 1 1 0
负 0 -1 0 0
正 0 0 -1 0
负 0 0 0 0
正 1 0 0 0
负 0 0 0 0
正 0 1 1 0
正 0 0 0 0
负 -1 -1 -1 0
负 1 1 1 0
负 1 1 1 0
负 0 0 0 0
负 0 0 1 0
正 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 -1 -1 0 0
正 0 0 0 1
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 0 0 0
负 0 -1 0 0
正 -1 -1 -1 0
负 0 0 0 0
负 0 0 0 0
正 0 0 1 0
正 0 -1 0 0
负-1 0 0 0
负 1 1 1 0
负 1 1 1 0
正 1 0 0 0
正 0 0 0 0
负-1 0 0 0
正 0 -1 -1 0
负 0 0 0 0
负 0 0 0 0
负 1 0 0 0
正 0 1 1 0
2个回答

好的,这是我对R & ggplot2的尝试

1 简单的堆叠直方图

在此处输入图像描述

2 闪避堆叠直方图 ~ 细菌

在此处输入图像描述

3 闪避直方图 ~ 文化

在此处输入图像描述

4 闪避直方图~变化

在此处输入图像描述

5 按独特“模式”变化~细菌的数量分组

在此处输入图像描述

6 按独特“模式”的数量分组变化~细菌,抖动

在此处输入图像描述

7 按独特“模式”的数量分组变化~细菌,抖动(常量宽度)

在此处输入图像描述

8 按独特“模式”的数量分组变化~细菌,抖动(常量宽度)

在此处输入图像描述

9 包含所有模式及其计数的表

在此处输入图像描述

备注:显示“模式”数量的图表未考虑“负面”观察数量显着高于“正面”观察数量的事实(146 vs 57,见表)。所以从某种意义上说,这种比较是不公平的,但这很容易解决。

第一个输入:请确认您是否真的在询问图形,因为在绘图和作为数学对象的图形之间存在误解。如果您的意思是可视化而不是图形作为数学对象,请告诉我编辑您的标签和标题。

无论如何,我将继续我的答案,因为图表是可视化的正确工具,而且即使您不小心触摸了它们,也可以分析您的数据!

您可以从图论的角度以不同的方式看待您的问题。我以最简单的方式将案例假设为节点,并将变化视为边缘。您可以继续将想法发展为更复杂的结构。

假设每个案例都是图中的一个节点。然后,您可以使用一个图对每个细菌进行建模,其中如果变化为零,则两个节点之间没有边,如果有,则边的权重为 1 或 -1,对于不同的情况。然后你拿出4张图,你可以根据网络拓扑对每张图进行统计分析。

作为更详细的建模,您可以考虑与每个时间戳对应的每种情况的两个节点,并将它们与权重 1 或 -1 连接,或者在变化为零的情况下不连接它们。为了避免权重,您可以简单地使用有向图,其中一条边来自案例节点X及时t0转到案例节点X及时t1如果更改为 1 且为 -1,则边缘来自 case 节点X及时t1到案例节点X及时t0. 在这种情况下,连接的拓扑结构也说明了很多。

在这两种情况下,图形的可视化可能不是直观的。如果不是,您可以可视化节点、边、度数、图形本身等的不同统计度量。

希望能帮助到你!