NLP 注释器的主要类型有哪些?

数据挖掘 nlp 文本挖掘
2021-10-04 13:35:17

我是文本挖掘领域的新手,并且一直在UIMA 网站等地方阅读注释器。我遇到了许多新术语,例如命名实体识别、标记器、词形还原器、地名词典等。来自外行背景,这一切都非常令人困惑,所以任何人都可以告诉我或链接到可以解释注释器的主要类别的资源是什么他们做什么?

1个回答

以下是为了搜索和其他应用程序从文本数据中提取语言单元通常必需的基本自然语言处理功能(或注释器):

断句- 将文本(通常是文本段落)拆分为句子。即使在英语中,对于诸如“布朗先生和夫人住在 20 号房间”之类的情况也可能很难。

Tokenizer - 将文本或句子拆分为单词或单词级单位,包括标点符号。对于没有空格且对单词边界没有稳定理解的语言(例如中文、日文),这项任务并非易事

词性标注器——在句子的上下文中猜测每个词的词性;通常,每个单词都会从预先开发的标签集中分配一个所谓的 POS 标签,以服务于您的最终任务(例如,解析)。

Lemmatizer - 将给定单词转换为其规范形式(引理)。通常你需要知道这个词的词性标签。例如,作为动名词的单词“加热”必须转换为“热”,但作为名词必须保持不变。

Parser - 执行句子的句法分析并构建句法树或图。有两种主要的方式来表示句子的句法结构:通过constituency 或 dependency

Summarizer - 通过选择文档的一组信息量最高的句子来生成文本的简短摘要,代表其主要思想。然而,可以以比仅从现有句子中选择句子更智能的方式完成。

命名实体识别- 从文本中提取所谓的命名实体。命名实体是来自文本的词块,指的是某种类型的实体。类型可能包括:地理位置(国家、城市、河流……)、人名、组织名称等。在进入 NER 任务之前,您必须了解您想要获得什么,并且可能预先定义命名实体的分类要解析的类型。

共指解析- 将命名实体(或根据您的任务,任何其他文本单元)分组到对应于单个真实对象/含义的集群中。例如,一个文本中的“B. Gates”、“William Gates”、“Microsoft 创始人”等可能表示同一个人,使用不同的表达方式引用。

还有许多其他有趣的 NLP 应用程序/注释器(请参阅NLP 任务类别)、情感分析、机器翻译等)。这方面有很多书籍,经典书籍:Daniel Jurafsky 和 ​​James H. Martin 的“语音和语言处理”,但对你来说可能太详细了。