数据挖掘 - 如何获取印地语 pos 标记的标签集？ - 吾爱随笔录

数据挖掘 nlp

2022-02-27 03:39:45

我正在尝试使用 python（nltk库）标记印地语文本。我已经成功了，但我无法理解一些标签。

我尝试搜索标签集，但我能找到的唯一信息是关于一些upenn_tagset. 我得到的标签只匹配来自upenn_tagset.

有谁知道如何获得印地语的标签集？

1个回答

我不熟悉 NLTK，但标签集必须来自用于训练标注器的带注释的语料库。根据https://www.nltk.org/book/ch05.html（第 2.2 节），如果您能找到印地语语料库的名称，您应该能够通过以下方式访问带有标签的单词：

nltk.corpus.<corpus>.tagged_words()

显然，这是 NLTK 中可用的语料库列表：http ://www.nltk.org/nltk_data/ ，它可能有助于找到用于训练印地语词性标注器的语料库。

一旦您确定了语料库，您很可能可以通过搜索有关原始作者创建的论文来找到有关标记集和注释过程的解释。

其它你可能感兴趣的问题