自然语言处理任务的分类

数据挖掘 nlp
2022-03-13 10:41:38

问题

我目前正在学习自然语言处理的基础知识。我看到这个领域的许多任务是为句子中的每个单词分配标签,包括词性标注、分块、命名实体识别和语义角色标注。

我的问题是

  • 是否还有其他任务涉及为句子中的每个单词分配标签。我能想到的一件事是情感分析,即为整个句子/文档或句子/文档的不同方面分配标签。
  • 是否有一些推荐阅读的调查总结了自然语言处理中的一般任务。
1个回答

基本上,您需要了解 NLP 中的无监督学习任务。为此,我们主要使用嵌入矩阵对输入句子进行矢量化。

文字总结:

许多系统都使用不基于神经网络的文本摘要。这些系统将输入向量化,然后使用排序算法(如 TextRank)和基于重要性的余弦相似度对句子进行排序。然后给出最重要的句子作为输出。你可以在这里阅读更多

两个文档之间的相似性:

如果您有像Doc2Vec这样功能强大的文档向量化器,那么相似文档的向量彼此相似且具有一定的分数。该分数可以使用余弦相似度得出。

技术博客与基于计算机科学的博客而非度假/旅游博客的相似度得分更高。

这样的系统在许多用例中都很有用。这里也应用了聚类算法。

情绪分析不是无监督的学习任务。这是一个分类任务:

为了训练情感分析模型,您需要一个由文本及其对应的情感(分类或二进制)组成的数据集。这样的模型无法通过聚类或排序方法来实现。但是,是的,这些模型像其他模型一样使用词嵌入。

一些描述 NLP 下分类的基本任务的链接: