数据挖掘 - 潜在语义索引误报检测 - 吾爱随笔录

我正在使用 Gensim LsiModel。我有一组文档和一组固定的主题。有些文件已经分类，有些则没有。目标是用最相关的类别对未分类的文档进行分类。我正在使用此处描述的相似性搜索。

http://radimrehurek.com/gensim/tut3.html

因此，我将每个未分类的文档与分类的语料库进行比较，以找到最相关的类别。我在具有适当类别的文档上看到了非常好的性能。但是，可以预期某些文档将没有相关类别，例如它是西班牙语、垃圾邮件，或者它只是不适合现有类别。使用这个模型，每个文档都被分类，最适合的是具有最高相似度分数的类别。我的问题是，如何确定何时没有相关类别？我的假设是文档的相似性度量都应该很低，但这并不总是正确的。这似乎也是一种武断的措施。有没有更好的方法来说明特定文档不适合现有类别？