数据挖掘 - 自然语言处理任务的分类 - 吾爱随笔录

数据挖掘 nlp

2022-03-13 10:41:38

问题

我目前正在学习自然语言处理的基础知识。我看到这个领域的许多任务是为句子中的每个单词分配标签，包括词性标注、分块、命名实体识别和语义角色标注。

我的问题是

1个回答

基本上，您需要了解 NLP 中的无监督学习任务。为此，我们主要使用嵌入矩阵对输入句子进行矢量化。

文字总结：

许多系统都使用不基于神经网络的文本摘要。这些系统将输入向量化，然后使用排序算法（如 TextRank）和基于重要性的余弦相似度对句子进行排序。然后给出最重要的句子作为输出。你可以在这里阅读更多。

两个文档之间的相似性：

如果您有像Doc2Vec这样功能强大的文档向量化器，那么相似文档的向量彼此相似且具有一定的分数。该分数可以使用余弦相似度得出。

技术博客与基于计算机科学的博客而非度假/旅游博客的相似度得分更高。

这样的系统在许多用例中都很有用。这里也应用了聚类算法。

情绪分析不是无监督的学习任务。这是一个分类任务：

为了训练情感分析模型，您需要一个由文本及其对应的情感（分类或二进制）组成的数据集。这样的模型无法通过聚类或排序方法来实现。但是，是的，这些模型像其他模型一样使用词嵌入。

一些描述 NLP 下分类的基本任务的链接：

其它你可能感兴趣的问题