LDA(潜在狄利克雷分配)——在数据挖掘中是一个非常流行的话题。
问题有哪些工业系统使用 LDA 或者可能是一些相关模型?(可能是谷歌/亚马逊/...?)
附言
我也会感谢您对以下方面的评论: https ://mathoverflow.net/questions/304352/latent-dirichlet-allocation-math-words-digest
LDA(潜在狄利克雷分配)——在数据挖掘中是一个非常流行的话题。
问题有哪些工业系统使用 LDA 或者可能是一些相关模型?(可能是谷歌/亚马逊/...?)
附言
我也会感谢您对以下方面的评论: https ://mathoverflow.net/questions/304352/latent-dirichlet-allocation-math-words-digest
我无法回答现有公司的系统,但我绝对可以分享 LDA 在 NLP 中的应用。
潜在狄利克雷分配是自然语言处理中主题建模的一种流行技术。这个想法是拥有包含大量文档的自然语言文本的语料库,目标是获得出现在语料库中的单词的分布(分布)被称为一个主题。
对于可视化分析,您可以在此处查看此笔记本。它利用了为 LDA 构建的 NLP 库,称为pyLDAvis。
因此,假设您有一个语料库,并且您想构建一个标记器,将文档(输入文本)标记为 N 个类之一,但您没有标记数据。你如何开始?一种方法是使用 LDA 执行主题建模,获取主题,然后将主题命名为 N 个类。使用 LDA 模型标记数据,使用松散标记的数据构建分类器。