假设我有一个包含 1,000 个文档的数据集。
每个文档都是餐厅评论(文本相对较短),并带有标签 {Negative, Indifferent, Positive}。
假设数据集有 600 条正面评论、200 条中立评论和 200 条负面评论。
我想训练一个分类器根据评论的文本将评论分类为负面、无关紧要或正面。
暂时不使用任何词嵌入,最好的方法是使用 TF-IDF 作为特征工程。
然而,当我更仔细地思考这一点时,我并不完全确定这是否是与简单的词频 (tf) 模型相比的最佳方法。
具体来说,TF-IDF 模型将采用与任何标签/类别无关的术语的逆文档频率。
因此,在上面的示例中,如果许多正面评论中包含“正面”这个词,那么这个词将自动修改(并且通常会降低)TF-IDF 分数,这仅仅是因为数据集中的大多数文档都是正面的(600文件)。
另一方面,如果使用简单的 TF,那么“正面”这个词将具有非常高的价值,并且很明显它与正面评价直接相关。
为什么在这种情况下 TF-IDF 必然是最好的选择?