如何创建像 IBM 的 Watson News Explorer 这样的社交网络?

数据挖掘 机器学习 k-均值 无监督学习
2022-03-10 14:14:51

IBM 的新闻浏览器视图给我留下了深刻的印象。它显示了搜索关键字的网络视图,并用图表探索了关系边缘。

这里是

截屏

我认为它在后台使用 k-means 聚类。我也想对 twitter 数据做同样的事情。我有推文和用户并提到我想显示它们之间的相同网络关系。任何人都可以向我推荐任何图形数据工具像 IBM 一样通过获取数据来展示网络。

使用 k-means 之类的聚类算法或任何其他算法来完成我的工作?还是我需要采取任何其他方法?

1个回答

他们根据新闻文章、主题和命名实体(位置、人员、公司、组织)创建了一个图表。这里发生了很多事情,但 k-means 不是其中之一。如果我必须这样做,我会使用命名实体识别 (NER) 和文档嵌入(doc2vec 等)。一旦有了嵌入和边缘(感谢 NER),就可以使用图布局算法,如力方向。如果图形太密集,则将较弱的边缘变薄。如果所有这些对您来说都是中文,请从阅读“命名实体识别”和“词嵌入”开始。这个想法是将一个数字(或者更确切地说,一个向量)附加到从单词到文档的所有内容。

Twitter 是另一头野兽。文本内容,例如,不会与这些嵌入算法配合得很好,但你有标签和强大的社交信号;提及、转发和关注。这也很复杂,所以我会给你留下一篇相关论文:Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling