词频 - 逆文档频率是文档中的词计数与词在语料库中的普遍性加权。该权重基于以下原则:几乎每个文档中出现的术语因此对单个文档的特定性较低,应按比例缩小,以便 tf-idf 值代表该术语在文档中的相对重要性。
但是,使用线性分类器的 SVM 不会适当地加权文档中的词频吗?它不会自动解释普遍存在的术语并分别降低它们的权重吗?
词频 - 逆文档频率是文档中的词计数与词在语料库中的普遍性加权。该权重基于以下原则:几乎每个文档中出现的术语因此对单个文档的特定性较低,应按比例缩小,以便 tf-idf 值代表该术语在文档中的相对重要性。
但是,使用线性分类器的 SVM 不会适当地加权文档中的词频吗?它不会自动解释普遍存在的术语并分别降低它们的权重吗?
如果您只将每个特征乘以与该术语的稀有度相对应的某个权重(即在哪里是文档的总数,并且是具有所考虑术语的文档数),然后使用 SVM,那么您执行的特征缩放是无用的(正如您所观察到的)。
但是,如果在缩放之后还对数据进行规范化,然后执行 SVM,那么如果您只是使用 SVM 或在没有特征缩放的规范化数据上使用 SVM,那么您会得到不同的结果。这可能会产生积极影响,原因有两个:
1)归一化听起来很合理,因为长文档和短文档的字数会有很大的不同,而归一化的字数反映了文档中单词的频率,它很重要。
2)如果你在归一化之前通过稀有词进行特征缩放,归一化的向量在稀有词的方向上会更长,这可能对区分文档更重要。