短文档的主题模型

机器算法验证 参考 文本挖掘 主题模型 自然语言
2022-02-11 10:08:41

这个问题的启发,我想知道是否针对大量极短文本的主题模型进行了任何工作。我的直觉是 Twitter 应该是此类模型的自然灵感来源。然而,从一些有限的实验来看,标准主题模型(LDA 等)在这类数据上的表现相当差。

有没有人知道在这方面所做的任何工作?本文讨论了将 LDA 应用于 Twitter,但我真的很感兴趣是否有其他算法在短文档上下文中表现更好。

3个回答

这是一个较晚的答案,但对于搜索此问题的相关研究和工具的其他人可能很有用:

  1. 来自哥伦比亚的 Weiwei Guo 实现了短文本主题建模的代码。他在论文“Modeling Sentences in the Latent Space”(http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf)中描述了实现,代码可在此处获得: http://www .cs.columbia.edu/~weiwei/code.html

  2. 虽然这不是主题建模,但如果您有涉及短文本的分类任务,您可以使用 LibShortText。从他们的网站描述

“LibShortText 是一个开源的短文本分类分析工具。它可以处理例如标题、问题、句子、短消息的分类……”

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

虽然我对他的工作不是很熟悉,但我知道Jacob Eisenstein已经在 twitter 数据中完成了文本分析和图形模型方面的工作。特别是,本文描述了主题建模在 twitter 数据和微博中的应用。

编辑:实际上在阅读了更多论文之后,他们说:

但是,Twitter 上的平均消息只有 16 个词的标记,对于传统的主题建模来说太稀疏了;相反,我们将来自给定用户的所有消息收集到一个文档中。

因此,也许那篇论文可能没有太大帮助,但也许其他爱森斯坦的出版物可能会引导您朝着正确的方向前进。

最近一篇名为“ a biterm topic model for short text ”(WWW13)的论文在这个话题上取得了一些进展,下面是它的代码