如何创建像 IBM 的 Watson News Explorer 这样的社交网络?
数据挖掘
机器学习
k-均值
无监督学习
橙
2022-03-10 14:14:51
1个回答
他们根据新闻文章、主题和命名实体(位置、人员、公司、组织)创建了一个图表。这里发生了很多事情,但 k-means 不是其中之一。如果我必须这样做,我会使用命名实体识别 (NER) 和文档嵌入(doc2vec 等)。一旦有了嵌入和边缘(感谢 NER),就可以使用图布局算法,如力方向。如果图形太密集,则将较弱的边缘变薄。如果所有这些对您来说都是中文,请从阅读“命名实体识别”和“词嵌入”开始。这个想法是将一个数字(或者更确切地说,一个向量)附加到从单词到文档的所有内容。
Twitter 是另一头野兽。文本内容,例如,不会与这些嵌入算法配合得很好,但你有标签和强大的社交信号;提及、转发和关注。这也很复杂,所以我会给你留下一篇相关论文:Twitter-Network Topic Model: A Full Bayesian Treatment for Social Network and Text Modeling。
其它你可能感兴趣的问题
