机器算法验证 - 为什么 tf-idf 与 SVM 结合使用来对文档进行分类？ - 吾爱随笔录

机器算法验证支持向量机自然语言

2022-03-31 10:33:56

词频 - 逆文档频率是文档中的词计数与词在语料库中的普遍性加权。该权重基于以下原则：几乎每个文档中出现的术语因此对单个文档的特定性较低，应按比例缩小，以便 tf-idf 值代表该术语在文档中的相对重要性。

但是，使用线性分类器的 SVM 不会适当地加权文档中的词频吗？它不会自动解释普遍存在的术语并分别降低它们的权重吗？

1个回答

如果您只将每个特征乘以与该术语的稀有度相对应的某个权重（即 $log(\frac{M}{a_i})$ 在哪里 $M$ 是文档的总数，并且 $a_i$ 是具有所考虑术语的文档数），然后使用 SVM，那么您执行的特征缩放是无用的（正如您所观察到的）。

但是，如果在缩放之后还对数据进行规范化，然后执行 SVM，那么如果您只是使用 SVM 或在没有特征缩放的规范化数据上使用 SVM，那么您会得到不同的结果。这可能会产生积极影响，原因有两个：

1）归一化听起来很合理，因为长文档和短文档的字数会有很大的不同，而归一化的字数反映了文档中单词的频率，它很重要。

2）如果你在归一化之前通过稀有词进行特征缩放，归一化的向量在稀有词的方向上会更长，这可能对区分文档更重要。

其它你可能感兴趣的问题