tf-idf 对出现在语料库中大量文档中的单词进行打折。我正在构建一个仅在有效文档上训练的异常检测文本分类算法。后来我使用 One-class SVM 来检测异常值。有趣的是,tf-idf 的性能比简单的计数矢量化器更差。一开始我很困惑,但后来它对我来说是有意义的,因为 tf-idf 折扣最能表明有效文档的属性。因此,我正在考虑一种新方法,该方法将更多地加权总是出现在文档中的单词,或者更确切地说,为不存在这些单词分配负权重。我有预设的词库,所以不用担心不相关的词,如(is,that)会被加权。
您对此类表示有什么想法吗?我唯一能想到的就是从某个文档中为零的属性中减去文档频率。