数据挖掘 - 从预处理文本中提取 SVO 三元组时的规则是什么？ - 吾爱随笔录

数据挖掘 Python nlp 文本挖掘特征提取

2022-02-12 22:38:55

如果您有一些已标记的预处理文本，如果您想要三元组（单词，单词，单词），那么提取主谓宾（SVO）三元组的规则是什么。你能以句子为例并提取所有三元组吗？您是否只需要从 N 个单词中找到所有不重复的组合？

1个回答

主谓宾（SVO）三元组的目标是为一个句子提取一个三元组。

这句话：

一只稀有的黑松鼠已成为郊区花园的常客。

产生以下 SVO：

（松鼠，成为，访客）

Rusu 等人从句子中提取三元组。概述了如何做到这一点。首先，您需要一个解析树（Stanford Parser 和 OpenNLP 是最常见的）。然后可以提取这三个项目：

将通过执行广度优先搜索并选择作为名词的 NP 的第一个后代来找到主题。

...句子的谓词，将在 VP 子树中执行搜索。动词短语最深的动词后代将给出三连音的第二个元素。

......我们寻找对象。这些可以在三个不同的子树中找到，VP 子树的所有兄弟都包含谓词。子树是：PP（介词短语）、NP 和 ADJP（形容词短语）。在 NP 和 PP 我们搜索第一个名词，而在 ADJP 我们找到第一个形容词。

其它你可能感兴趣的问题