为什么 tf-idf 与 SVM 结合使用来对文档进行分类?

机器算法验证 支持向量机 自然语言
2022-03-31 10:33:56

词频 - 逆文档频率是文档中的词计数与词在语料库中的普遍性加权。该权重基于以下原则:几乎每个文档中出现的术语因此对单个文档的特定性较低,应按比例缩小,以便 tf-idf 值代表该术语在文档中的相对重要性。

但是,使用线性分类器的 SVM 不会适当地加权文档中的词频吗?它不会自动解释普遍存在的术语并分别降低它们的权重吗?

1个回答

如果您只将每个特征乘以与该术语的稀有度相对应的某个权重(即log(Mai)在哪里M是文档的总数,并且ai是具有所考虑术语的文档数),然后使用 SVM,那么您执行的特征缩放是无用的(正如您所观察到的)。

但是,如果在缩放之后还对数据进行规范化,然后执行 SVM,那么如果您只是使用 SVM 或在没有特征缩放的规范化数据上使用 SVM,那么您会得到不同的结果。这可能会产生积极影响,原因有两个:

1)归一化听起来很合理,因为长文档和短文档的字数会有很大的不同,而归一化的字数反映了文档中单词的频率,它很重要。

2)如果你在归一化之前通过稀有词进行特征缩放,归一化的向量在稀有词的方向上会更长,这可能对区分文档更重要。