我正在使用 Gensim LsiModel。我有一组文档和一组固定的主题。有些文件已经分类,有些则没有。目标是用最相关的类别对未分类的文档进行分类。我正在使用此处描述的相似性搜索。
http://radimrehurek.com/gensim/tut3.html
因此,我将每个未分类的文档与分类的语料库进行比较,以找到最相关的类别。我在具有适当类别的文档上看到了非常好的性能。但是,可以预期某些文档将没有相关类别,例如它是西班牙语、垃圾邮件,或者它只是不适合现有类别。使用这个模型,每个文档都被分类,最适合的是具有最高相似度分数的类别。我的问题是,如何确定何时没有相关类别?我的假设是文档的相似性度量都应该很低,但这并不总是正确的。这似乎也是一种武断的措施。有没有更好的方法来说明特定文档不适合现有类别?