寻找一种方法来按照它们在上下文中的重要性/相关性对任何文档中存在的数十个和数百个命名实体进行排名。
有什么想法吗 ?
提前致谢!
寻找一种方法来按照它们在上下文中的重要性/相关性对任何文档中存在的数十个和数百个命名实体进行排名。
有什么想法吗 ?
提前致谢!
一个简单的方法是使用TF-IDF(词频-逆文档频率)。它可以帮助您找到文档中突出的术语(通过与您的整个语料库进行比较)并使用它来对您的实体进行排名。
来自 scikit-learn 的 TfidfVectorizer
请注意,TfidfVectorizer 是在单词级别上的。因此,如果您的实体可以包含多个单词,则需要进行一些处理。
或者,您可以使用允许您生成单词热图的模型。然后您可以使用该热图在该热图中查找您的 NE。这篇论文,A Structured Self-Attentive Sentence Embedding,可以给你一些想法。