短文档的主题模型
机器算法验证
参考
文本挖掘
主题模型
自然语言
2022-02-11 10:08:41
3个回答
这是一个较晚的答案,但对于搜索此问题的相关研究和工具的其他人可能很有用:
来自哥伦比亚的 Weiwei Guo 实现了短文本主题建模的代码。他在论文“Modeling Sentences in the Latent Space”(http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf)中描述了实现,代码可在此处获得: http://www .cs.columbia.edu/~weiwei/code.html
虽然这不是主题建模,但如果您有涉及短文本的分类任务,您可以使用 LibShortText。从他们的网站描述
“LibShortText 是一个开源的短文本分类分析工具。它可以处理例如标题、问题、句子、短消息的分类……”
虽然我对他的工作不是很熟悉,但我知道Jacob Eisenstein已经在 twitter 数据中完成了文本分析和图形模型方面的工作。特别是,本文描述了主题建模在 twitter 数据和微博中的应用。
编辑:实际上在阅读了更多论文之后,他们说:
但是,Twitter 上的平均消息只有 16 个词的标记,对于传统的主题建模来说太稀疏了;相反,我们将来自给定用户的所有消息收集到一个文档中。
因此,也许那篇论文可能没有太大帮助,但也许其他爱森斯坦的出版物可能会引导您朝着正确的方向前进。
最近一篇名为“ a biterm topic model for short text ”(WWW13)的论文在这个话题上取得了一些进展,下面是它的代码
其它你可能感兴趣的问题