有没有办法根据提取的命名实体在文档中的重要性/出现度对其进行排名?

数据挖掘 nlp 命名实体识别
2021-10-04 08:00:00

寻找一种方法来按照它们在上下文中的重要性/相关性对任何文档中存在的数十个和数百个命名实体进行排名。

有什么想法吗 ?

提前致谢!

1个回答

一个简单的方法是使用TF-IDF(词频-逆文档频率)。它可以帮助您找到文档中突出的术语(通过与您的整个语料库进行比较)并使用它来对您的实体进行排名。

来自 scikit-learn 的 TfidfVectorizer

请注意,TfidfVectorizer 是在单词级别上的。因此,如果您的实体可以包含多个单词,则需要进行一些处理。

或者,您可以使用允许您生成单词热图的模型。然后您可以使用该热图在该热图中查找您的 NE。这篇论文,A Structured Self-Attentive Sentence Embedding,可以给你一些想法。