我有一组文件,我想将它们分类为真假
我的问题是我必须取文档中的整个单词,然后根据这些文档中的相似词对它们进行分类,或者我只能取一些我感兴趣的单词,然后将其与文档进行比较。哪一个在分类文档方面效率更高,并且可以与 SVM 一起使用。
我有一组文件,我想将它们分类为真假
我的问题是我必须取文档中的整个单词,然后根据这些文档中的相似词对它们进行分类,或者我只能取一些我感兴趣的单词,然后将其与文档进行比较。哪一个在分类文档方面效率更高,并且可以与 SVM 一起使用。
两种方法都有效。但是,如果您保留文档中的所有单词,您基本上将使用高维向量(每个术语代表一个维度)。因此,分类器,例如 SVM,将需要更多时间来收敛。
因此,通过诸如去除停用词、词干提取、主成分分析 (PCA) 等预处理步骤来降低术语空间维度是一种标准做法。
一种方法可以是通过诸如 LDA 的主题建模技术分析文档语料库,然后仅保留那些代表主题的词,即在单个主题类中具有高成员值的词。
另一种方法(受信息检索的启发)可能是保留每个文档中的前 K 个 tf-idf 术语。