我试图直观地比较三种不同的新闻出版物如何涵盖不同的主题(通过 LDA 主题模型确定)。我有两种相关的方法可以做到这一点,但是从同事那里收到了很多反馈,认为这不是很直观。我希望有人有更好的想法来可视化这一点。
在第一张图中,我显示了每个出版物中每个主题的比例,如下所示:
对于我与之交谈过的几乎每个人来说,这都非常简单直观。但是,很难看出出版物之间的差异。哪份报纸报道的话题更多?
为此,我绘制了主题比例最高的出版物和第二高的出版物之间的差异,由最高的出版物着色。像这样:
因此,例如,足球的巨大标准实际上是 al-Ahram English 和 Daily News Egypt 之间的距离(在足球报道中排名第二),它被涂成红色,因为 Al-Ahram 排名第一。同样,试验是绿色的,因为埃及独立的比例最高,条形大小是埃及独立和每日新闻埃及之间的距离(再次 #2)。
我必须在两段中解释所有内容的事实是一个非常确定的迹象,表明该图表未通过自给自足测试。仅通过观察很难判断到底发生了什么。
关于如何以更直观的方式在视觉上突出显示每个主题的主要出版物的任何一般性建议?
编辑:要使用的数据:这是dput
R 的输出,以及CSV 文件。
编辑2:这是一个初步的点图版本,点的直径与语料库中主题的比例成正比(主题最初是如何排序的)。虽然我仍然需要稍微调整一下,但感觉比我以前做的更直观。谢谢大家!