潜在语义索引误报检测

数据挖掘 gensim 集成电路
2022-03-10 11:03:43

我正在使用 Gensim LsiModel我有一组文档和一组固定的主题。有些文件已经分类,有些则没有。目标是用最相关的类别对未分类的文档进行分类。我正在使用此处描述的相似性搜索。

http://radimrehurek.com/gensim/tut3.html

因此,我将每个未分类的文档与分类的语料库进行比较,以找到最相关的类别。我在具有适当类别的文档上看到了非常好的性能。但是,可以预期某些文档将没有相关类别,例如它是西班牙语、垃圾邮件,或者它只是不适合现有类别。使用这个模型,每个文档都被分类,最适合的是具有最高相似度分数的类别。我的问题是,如何确定何时没有相关类别我的假设是文档的相似性度量都应该很低,但这并不总是正确的。这似乎也是一种武断的措施。有没有更好的方法来说明特定文档不适合现有类别?

0个回答
没有发现任何回复~