获取文章意图的算法?

数据挖掘 神经网络 深度学习 nlp
2022-03-10 17:18:51

我目前正在从事一个项目,我的工作是对一篇文章进行意图分析。假设我收到了这篇文章,我想分类它是什么类型的文章?任何建议,哪种模型最适合应用?

2个回答

我认为最简单的方法是用词向量对它们进行聚类。“20 Newspaper”数据集将是算法的一个很好的测试 http://qwone.com/~jason/20Newsgroups/

在 Sklearn 网站上,您会找到一些使用词向量和分类的简单示例:http: //scikit-learn.org/stable/datasets/twenty_newsgroups.html

如果你深入这个领域,你可以开始使用 LSTM 网络和神经网络,但这有点难以开发。因此,首先,尝试在统计上使用该问题。如果你想从语义上分析文本,你将需要 LSTM。

我希望我能帮助你。

听起来您正试图根据每篇文章固有的一组标签对每篇文章进行分类。

作为 Christian 的解决方案的替代方案(我认为这确实符合您所描述的目的),您可以考虑使用 N-Gram 模型和词性(POS)标记来执行以下操作(按此顺序) :

  1. 计算文档/语料库中重复出现的常用短语的频率
  2. 应用 POS 标记来分类名词(专有和常用)、动词、形容词......等。
  3. (可选)应用某种规则以仅选择前Y个最常见的术语

使用标准语言模型,您可以计算这些单词在每个文档中出现的相对概率,然后对哪篇文章最有可能提到某个标签进行加权。

您可以了解如何创建频率表POS 标记、使用附加链接计算相对频率(在 python 中)。