从预处理文本中提取 SVO 三元组时的规则是什么?

数据挖掘 Python nlp 文本挖掘 特征提取
2022-02-12 22:38:55

如果您有一些已标记的预处理文本,如果您想要三元组(单词,单词,单词),那么提取主谓宾(SVO)三元组的规则是什么。你能以句子为例并提取所有三元组吗?您是否只需要从 N 个单词中找到所有不重复的组合?

1个回答

主谓宾(SVO)三元组的目标是为一个句子提取一个三元组。

这句话:

一只稀有的黑松鼠已成为郊区花园的常客。

产生以下 SVO:

(松鼠,成为,访客)

Rusu 等人从句子中提取三元组。概述了如何做到这一点。首先,您需要一个解析树(Stanford Parser 和 OpenNLP 是最常见的)。然后可以提取这三个项目:

将通过执行广度优先搜索并选择作为名词的 NP 的第一个后代来找到主题。

...句子的谓词,将在 VP 子树中执行搜索。动词短语最深的动词后代将给出三连音的第二个元素。

......我们寻找对象。这些可以在三个不同的子树中找到,VP 子树的所有兄弟都包含谓词。子树是:PP(介词短语)、NP 和 ADJP(形容词短语)。在 NP 和 PP 我们搜索第一个名词,而在 ADJP 我们找到第一个形容词。