数据挖掘 - 如何创建像 IBM 的 Watson News Explorer 这样的社交网络？ - 吾爱随笔录

如何创建像 IBM 的 Watson News Explorer 这样的社交网络？

数据挖掘机器学习 k-均值无监督学习橙

2022-03-10 14:14:51

IBM 的新闻浏览器视图给我留下了深刻的印象。它显示了搜索关键字的网络视图，并用图表探索了关系边缘。

这里是

我认为它在后台使用 k-means 聚类。我也想对 twitter 数据做同样的事情。我有推文和用户并提到我想显示它们之间的相同网络关系。任何人都可以向我推荐任何图形数据工具像 IBM 一样通过获取数据来展示网络。

使用 k-means 之类的聚类算法或任何其他算法来完成我的工作？还是我需要采取任何其他方法？

1个回答

他们根据新闻文章、主题和命名实体（位置、人员、公司、组织）创建了一个图表。这里发生了很多事情，但 k-means 不是其中之一。如果我必须这样做，我会使用命名实体识别 (NER) 和文档嵌入（doc2vec 等）。一旦有了嵌入和边缘（感谢 NER），就可以使用图布局算法，如力方向。如果图形太密集，则将较弱的边缘变薄。如果所有这些对您来说都是中文，请从阅读“命名实体识别”和“词嵌入”开始。这个想法是将一个数字（或者更确切地说，一个向量）附加到从单词到文档的所有内容。

Twitter 是另一头野兽。文本内容，例如，不会与这些嵌入算法配合得很好，但你有标签和强大的社交信号；提及、转发和关注。这也很复杂，所以我会给你留下一篇相关论文：Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling。

其它你可能感兴趣的问题

上一篇查询神经网络模型下一篇多二进制虚拟特征与多值单特征