我正在从事文本分类工作。这项工作的目的是分类特定文档是属于 A 类还是 B 类。
我使用了 KNN 算法,我能够得到一些不错的结果。不过我想知道两件事。
- 为什么特定文件被归类为 A 类或 B 类?是什么关键字或信息使文档被归类为此类?
- 如何进行误分类分析?
请帮忙。
我正在从事文本分类工作。这项工作的目的是分类特定文档是属于 A 类还是 B 类。
我使用了 KNN 算法,我能够得到一些不错的结果。不过我想知道两件事。
请帮忙。
在我看来,您的两个问题都可以通过将检索到的邻居存储在您的测试集上并对其进行彻底分析来回答。假设您使用 unigram + tf-idf 文本表示和余弦相似度距离度量来进行 K-NN 检索,一旦您有一个分类文档来显示 K 个邻居并分析它们的常见 unigram 和它们各自的 tf-,这将是微不足道的idf 权重,以查看影响分类的因素。此外,对错误分类的文档执行此操作可以帮助您了解哪些功能导致了错误。
我很想知道是否有更系统化的方法来解决这些问题。