机器算法验证 - 如何最好地可视化三组之间许多比例的差异？ - 吾爱随笔录

如何最好地可视化三组之间许多比例的差异？

机器算法验证数据可视化介绍

2022-01-24 09:06:32

我试图直观地比较三种不同的新闻出版物如何涵盖不同的主题（通过 LDA 主题模型确定）。我有两种相关的方法可以做到这一点，但是从同事那里收到了很多反馈，认为这不是很直观。我希望有人有更好的想法来可视化这一点。

在第一张图中，我显示了每个出版物中每个主题的比例，如下所示：

所有主题和出版物的比例

对于我与之交谈过的几乎每个人来说，这都非常简单直观。但是，很难看出出版物之间的差异。哪份报纸报道的话题更多？

为此，我绘制了主题比例最高的出版物和第二高的出版物之间的差异，由最高的出版物着色。像这样：

第一和第二高主题之间的差异

因此，例如，足球的巨大标准实际上是 al-Ahram English 和 Daily News Egypt 之间的距离（在足球报道中排名第二），它被涂成红色，因为 Al-Ahram 排名第一。同样，试验是绿色的，因为埃及独立的比例最高，条形大小是埃及独立和每日新闻埃及之间的距离（再次 #2）。

我必须在两段中解释所有内容的事实是一个非常确定的迹象，表明该图表未通过自给自足测试。仅通过观察很难判断到底发生了什么。

关于如何以更直观的方式在视觉上突出显示每个主题的主要出版物的任何一般性建议？

编辑：要使用的数据：这是dputR 的输出，以及CSV 文件。

编辑2：这是一个初步的点图版本，点的直径与语料库中主题的比例成正比（主题最初是如何排序的）。虽然我仍然需要稍微调整一下，但感觉比我以前做的更直观。谢谢大家！

4个回答

感谢您提供可访问的数据以及有趣的数据集和图形挑战。

我的主要建议是（克利夫兰）点图。

在此处输入图像描述

我想强调的最重要的细节：

这里的叠加允许并简化了比较。
显示中的主题顺序显得非常随意。如果没有自然顺序（例如时间、空间、有序变量），我总是会对其中一个变量进行排序以提供一个框架。使用哪个可能取决于一个研究人员的决定是否特别有趣或重要。另一种可能性是对论文之间的差异进行某种程度的排序，以便接受相似报道的主题位于一端，而接受不同报道的主题位于另一端。
开放标记或点符号允许比封闭或实心标记或符号更好地解决重叠或同一性问题，在最坏的情况下，它们会相互遮挡或遮挡。（在这里可能会很好用的替代方法是用于三份报纸的 A、D 和 I 等字母。）

显然，我的设计还有很大的改进空间。例如，字体是否太大和/或太重？另一方面，标题必须易于阅读，否则图表将失败。

一些更小、更挑剔的点：

一种。图表上的红色和绿色是要避免的颜色组合。当使用不同的标记时，颜色选择就不那么重要了。

湾。图表上的水平刻度会分散注意力。相比之下，我的网格线是需要的，但我尝试通过使用细而轻的线条使它们不引人注目。

C。总数约为 20 x 0.1% 或 2%，所以 98% 的论文是其他内容？我直接在提供的 .csv 中使用了比例。 $\times$

克利夫兰点状图主要归功于

克利夫兰，WS 1984。数据表示的图形方法：全刻度断点、点图和多基记录。美国统计学家38：270-80。

克利夫兰，WS 1985。图形数据的元素。 加利福尼亚州蒙特雷：沃兹沃思。

克利夫兰，WS 1994。图形数据的元素。 新泽西州萨米特：霍巴特出版社。

一个前身（在统计学上因完全不同的工作而闻名！！！）是

Pearson, ES 1956。统计几何的某些方面：在理解数理统计的理论和应用中使用视觉表示。皇家统计学会杂志A 119：125-146。

相同主要思想的另一个较早的用法是

Snedecor, GW 1937。 应用于农业和生物学实验的统计方法。 爱荷华州艾姆斯：大学出版社。请参见图 2.1、2.3（第 24、39 页）。

在 1956 年之前的每个后续版本中。请注意，标题和出版商在版本之间会间歇性地变化。

对于那些感兴趣的人，该图是在阅读带有代码的 .csv 后在 Stata 中准备的

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color)

尼克考克斯的点图可能最适合完整的图片。如果您真的想强调第一个与第二个关系，这里对您的图表进行了修改，它用第二个条的长度抵消了差异条。

在此处输入图像描述

对于不同的大图视图，您可以尝试使用斜率图或平行坐标图。这里的行可能有点太拥挤，但如果你想突出主题的一个子集，它可能会起作用。

在此处输入图像描述

此外，您还可以尝试helpmeviz.com，该网站专门针对此类非常具体的数据即问题。

我的第一个要求是建议一个马赛克情节；它将每个子类别绘制为一个矩形，其中一个维度表示主要类别的总数，另一个维度表示子类别的比例份额。有一个 R 包可以绘制它们，但使用较低级别的绘图工具也相当简单。

但是，如果要比较比例的维度中只有 2 或 3 个类别，则马赛克图（如基于百分比的堆叠条形图）效果最佳。因此，如果您想比较三种报纸中每一种的文章比例的主题之间的差异，但对于您的预期用途而言，它们会很好地比较三种报纸在每个主题的报道比例上的差异。一个微妙但重要的区别！

对于您要强调的内容，我认为最有效的图表是最简单的图表之一——分组条形图。 比点图更懂条形图的人；一目了然，您可以看到您正在比较不同大小的数量，并且您要比较的值是并排的。

但是，如果您真的想强调比例差异，您可以创建一个自定义分组条形图，修改为定位每个组，以便每个类别的中值与轴对齐，而不是零值：

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

请注意，每个组中的条仍然对齐以便于大小比较，并且每个组的基线现在根据该组的中值定位在轴的左侧，而投影到轴右侧的条是等效的到您的第二个条形图，显示前两个类别之间的差异。

无论您使用标准分组条形图还是上述偏移调整图，您仍然可以从马赛克图中获得灵感，并使每个条形的宽度与该报纸的总文章数成正比（因此该条与该报纸在该类别中的文章数量成正比）。

由于您的测试统计数据是每个比较的属性，而不是单个值的属性，因此我认为根据重要性缩放每个数据点没有用。相反，我会在每个代表重要性的分组旁边有一个图标。对于学术出版物，标准*/ **/***具有熟悉的好处，但如果您想展示统计数据的完整连续体，您可以发挥创意。

你试过气泡图吗？https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

各个主题可以是圆圈，每个圆圈可以是每个新闻媒体报道该主题的百分比饼图。圆圈的大小可以表明该主题的相对覆盖范围。例如，如果关于石油的文章总数多于关于文化的文章，那么石油圈的直径就更大。

其它你可能感兴趣的问题

上一篇异常值和异常值之间的区别下一篇当组在混合模型中被视为随机与固定时，斜率估计存在很大差异