赋予语料库中频繁出现的术语更多权重的词表示?

数据挖掘 异常检测 nlp 离群值 tfidf 词袋
2022-02-21 14:51:24

tf-idf 对出现在语料库中大量文档中的单词进行打折。我正在构建一个仅在有效文档上训练的异常检测文本分类算法。后来我使用 One-class SVM 来检测异常值。有趣的是,tf-idf 的性能比简单的计数矢量化器更差。一开始我很困惑,但后来它对我来说是有意义的,因为 tf-idf 折扣最能表明有效文档的属性。因此,我正在考虑一种新方法,该方法将更多地加权总是出现在文档中的单词,或者更确切地说,为不存在这些单词分配负权重。我有预设的词库,所以不用担心不相关的词,如(is,that)会被加权。

您对此类表示有什么想法吗?我唯一能想到的就是从某个文档中为零的属性中减去文档频率。

1个回答

我不知道有任何标准表示会增加文档常用词的重要性,但 IDF 可以简单地恢复:而不是通常的

idf(w,D)=log(N|dD | wd|)

您可以使用以下内容:

revidf(w,D)=log(N|dD | wd|)

但是,对于您描述的任务,我很想尝试一些更高级的特征工程,通常使用表示当前文档中单词分布与平均分布有多接近的特征。