识别单个单词(不是文本)的词性

数据挖掘 nlp
2022-03-01 06:09:20

请原谅对这个问题的潜在无知。关于 NLP,我不是一个完整的处女:

我正在尝试将词性分配给单个单词。我意识到许多单词可以充当多个词性,但我正在寻找人类最有可能将单词解释为脱离上下文的词性。

是否有任何数据库包含相当大的单词集的此信息?或者,是否有任何带有 POS 标签的大型语料库,我可以在其中输入单词,并获得每个单词在语料库中播放的 POS 的频率分布。

谢谢。

2个回答

可能有帮助的 POS 标记数据集:链接

不要担心单个单词。最先进的 PoST 模型通常基于循环神经网络 (RNN)。他们将单词序列作为输入,并根据上下文单词对它们进行分类。如果您的模型很好,那么作为更广泛表达式一部分的单个单词应该是正确的分类器。

我推荐的主要数据集是 Penn Treebank 数据集的免费部分,可从 python 库nltk 获得您还可以从同一模块下载布朗语料库。两者之间存在兼容性问题(PoS 标签不同),但是您可以使用通用标签集将它们组装在一起(不太精确,但适用于两者)。

此外,查看这个很棒的 Kaggle 数据集它是 PoST 和 NER 任务的数据集,您可以使用它来训练您的分类器。(似乎标签集与 Penn Treebank 相同,这意味着您可以将两个数据集组合成一个更大的数据集。)