nltk中实体识别的标签映射是什么?

数据挖掘 nltk 命名实体识别
2021-09-19 04:04:49

当使用 NLTK 进行实体识别时,结果是 aTree带有一堆映射到标签的单词(例如,,,Mark -> NNP... first -> JJ)。乍一看并不清楚所有标签代表什么,我无法在文档中找到有关这些标签的任何NLTK文档。

>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sentence = "Mark and John are the first to work at Google from one years old in 39 years."
>>> print ne_chunk(pos_tag(word_tokenize(sentence)))
(S
  (PERSON Mark/NNP)
  and/CC
  (PERSON John/NNP)
  are/VBP
  the/DT
  first/JJ
  to/TO
  work/VB
  at/IN
  (ORGANIZATION Google/NNP)
  from/IN
  one/CD
  years/NNS
  old/JJ
  in/IN
  39/CD
  years/NNS
  ./.)

我最终查看了源代码以获取映射。发布以防其他人遇到同样的问题。

2个回答

根据nltk 源码进行标签映射

  'CC':   'Coordinating conjunction',   'PRP$': 'Possessive pronoun',
  'CD':   'Cardinal number',            'RB':   'Adverb',
  'DT':   'Determiner',                 'RBR':  'Adverb, comparative',
  'EX':   'Existential there',          'RBS':  'Adverb, superlative',
  'FW':   'Foreign word',               'RP':   'Particle',
  'JJ':   'Adjective',                  'TO':   'to',
  'JJR':  'Adjective, comparative',     'UH':   'Interjection',
  'JJS':  'Adjective, superlative',     'VB':   'Verb, base form',
  'LS':   'List item marker',           'VBD':  'Verb, past tense',
  'MD':   'Modal',                      'NNS':  'Noun, plural',
  'NN':   'Noun, singular or masps',    'VBN':  'Verb, past participle',
  'VBZ':  'Verb,3rd ps. sing. present', 'NNP':  'Proper noun, singular',
  'NNPS': 'Proper noun plural',         'WDT':  'wh-determiner',
  'PDT':  'Predeterminer',              'WP':   'wh-pronoun',
  'POS':  'Possessive ending',          'WP$':  'Possessive wh-pronoun',
  'PRP':  'Personal pronoun',           'WRB':  'wh-adverb',
  '(':    'open parenthesis',           ')':    'close parenthesis',
  '``':   'open quote',                 ',':    'comma',
  "''":   'close quote',                '.':    'period',
  '#':    'pound sign (currency marker)',
  '$':    'dollar sign (currency marker)',
  'IN':   'Preposition/subord. conjunction',
  'SYM':  'Symbol (mathematical or scientific)',
  'VBG':  'Verb, gerund/present participle',
  'VBP':  'Verb, non-3rd ps. sing. present',
  ':':    'colon',

扩展@Kevin S Lin 的答案。词性标注或词性标注是指:

将文本(语料库)中的单词标记为对应于特定词性的过程,基于其定义和上下文,即它与短语、句子或段落中相邻和相关单词的关系。在将单词识别为名词、动词、形容词、副词等时,通常会向学龄儿童教授这种简化形式。

可以使用以下方式找到有关每个特定标签的更多信息:

nltk.help.upenn_tagset()

虽然tagsets需要下载数据集。更多关于这些问题的信息可以在这里找到。