具有多个粗体形式的引理示例

人工智能 自然语言处理 图书
2021-11-12 06:08:24

引理的数量可以用作语言中单词数量的粗略衡量标准。一个引理可以有多种词形类型。从下一段摘自Regular Expressions,Text Normalization,Edit Distance的p12可以理解

语言中单词数量的另一个衡量标准是引理的数量而不是词形类型。字典可以帮助计算引理;字典条目或粗体形式是引理数量的一个非常粗略的上限(因为某些引理有多个粗体形式)。1989 年版的牛津英语词典有 615,000 个词条。

还给定一个引理可以有多种粗体形式,这里提到的粗体形式是什么?它们与单词形式不同吗?

如果可能,请提供具有多个粗体形式的引理的示例。

2个回答

它的措辞非常混乱,根据语言术语,我认为它是不正确的。

引理是单词的规范形式,通常是动词的不定式、名词的主格单数和形容词的肯定形式。属于一个词的变形形式将用于动词的其他时态和人称等,名词的格和数,以及形容词的比较/最高级。

这就提出了一个是什么的问题,这个问题没有一个令人满意的答案,即使是在现代语言学创立100多年之后……

无论如何,“粗体形式”(我作为语言学家 30 年来从未遇到过的一个术语)指的是字典词条,它们是引理。有一些词条被具有多种含义的词“共享”:语言学中的常见例子是bank,它可以是金融机构,河流的一侧,一个描述飞机机翼倾斜过程的术语在飞行中,或者它可能意味着将一定数量的钱存入账户等。所有这些词你会在银行下找到在字典中,但通常在几个不同的条目下。所以我想这就是“多种粗体形式”的意思。然而,这些通常是完全不相关的单词,偶然拼写相同;在某些情况下,它也可能是同一个词,然后发展出不同的含义。

总结一下:您引用的段落在使用术语时完全错误/草率,因为字典词条我见过的每本字典中的引理,但这些并不是唯一的,因为几个不同的单词可能具有拼写相同的引理方式(但它们仍然是不同的引理——没有一个单词会有多个字典条目)。

例如:

  • bank(银行,银行),名词:金融机构
  • bank(银行,银行),名词:河边
  • 银行(银行,银行,银行,银行),动词:倾斜飞机的翅膀
  • 银行(银行,银行,银行,银行),动词:将钱存入帐户

我们有四个引理(粗体),其中两个有两个屈折形式,另外两个各有三个。这也是四个不同的词,一共有四种不同的词形(bankbank是所有词的共同形式)

通常,为避免混淆,您会将它们称为b一个nķ1对于金融机构,以及b一个nķ2对于河岸等,表示它们是不同的词。

您可能会看到英语有许多 lemmata(这是 lemma 的正确复数,因为它起源于希腊语),它比单词类型的数量小 3-4 倍,而在其他语言中,这个比例会要小得多,因为它们有更多的变形变体。英语名词只有单数和复数形式,而德语名词在四种情况下都有单数和复数形式(尽管其中一些会共享相同的词形式)。

以下是一些示例:减少减少减少减少->减少am or are or is -> be ; n't -> not've -> have . 使用 spacy 时,可以引用令牌来查找词形还原的根。

lemmas =[token.lemma_ for token in doc]
lemmas =[lemma for lemma in lemmas
       if lemma.isalpha() or lemma == '-PRON-'
       ]


I use lemma to find parts of speech

维基

在计算语言学中,词形还原是根据单词的预期含义确定单词的词元的算法过程。与词干提取不同,词形还原取决于正确识别句子中的预期词性和单词的含义,以及围绕该句子的更大上下文,例如相邻句子甚至整个文档