问题
我目前正在学习自然语言处理的基础知识。我看到这个领域的许多任务是为句子中的每个单词分配标签,包括词性标注、分块、命名实体识别和语义角色标注。
我的问题是
- 是否还有其他任务不涉及为句子中的每个单词分配标签。我能想到的一件事是情感分析,即为整个句子/文档或句子/文档的不同方面分配标签。
- 是否有一些推荐阅读的调查总结了自然语言处理中的一般任务。
我目前正在学习自然语言处理的基础知识。我看到这个领域的许多任务是为句子中的每个单词分配标签,包括词性标注、分块、命名实体识别和语义角色标注。
我的问题是
基本上,您需要了解 NLP 中的无监督学习任务。为此,我们主要使用嵌入矩阵对输入句子进行矢量化。
文字总结:
许多系统都使用不基于神经网络的文本摘要。这些系统将输入向量化,然后使用排序算法(如 TextRank)和基于重要性的余弦相似度对句子进行排序。然后给出最重要的句子作为输出。你可以在这里阅读更多。
两个文档之间的相似性:
如果您有像Doc2Vec这样功能强大的文档向量化器,那么相似文档的向量彼此相似且具有一定的分数。该分数可以使用余弦相似度得出。
技术博客与基于计算机科学的博客而非度假/旅游博客的相似度得分更高。
这样的系统在许多用例中都很有用。这里也应用了聚类算法。
情绪分析不是无监督的学习任务。这是一个分类任务:
为了训练情感分析模型,您需要一个由文本及其对应的情感(分类或二进制)组成的数据集。这样的模型无法通过聚类或排序方法来实现。但是,是的,这些模型像其他模型一样使用词嵌入。
一些描述 NLP 下分类的基本任务的链接:
https://natural-language-understanding.fandom.com/wiki/List_of_natural_language_processing_tasks
https://www.analyticsvidhya.com/blog/2017/10/essential-nlp-guide-data-scientists-top-10-nlp-tasks/
“NLP 的深度学习:近期趋势概述”,Elvis https://link.medium.com/iItIayc0NW
https://blog.algorithmia.com/introduction-natural-language-processing-nlp/