如何构建新闻标签模型

数据挖掘 主题模型
2022-03-07 06:57:53

我正在尝试建立一个新闻标签系统。给定一篇新闻文章,从新闻文章中找到最能描述该文章的 5-6 个关键术语。请参阅以下来自谷歌新闻的图片。

在此处输入图像描述

我可以采取哪些方法来获得人类可读的标签?

1个回答

您可以使用 NLP 获取标题或新闻内容的标签。标签通常是名词块、实体或标题中提到的动作。您需要执行文本处理的标准步骤,即删除停用词、将句子标记为单词、进行词干提取或词形还原,然后对其进行解析以提取信息。其中大部分已经实施。查看spaCy或使用NLTK

您还可以查看SVO(主语、动词、宾语模型)来分配标签。SpaCy 提供了一种简单的方法来做到这一点,请检查一下。