词袋模型:布尔与 TF-IDF

数据挖掘 特征提取
2022-02-11 20:33:33

当我使用传统的特征工程设计文档分类器时,我更喜欢(而不是布尔模型)tf-idf 模型将文档表示为向量,因为直观地布尔模型会丢失每个单词对于将文档分类到特定类别的重要性的信息。

我的意思是使用布尔模型将文档表示为向量是在 n 维向量空间中给它一个比基于 tf-idf 的特征提取更有意义的位置,当每个维度表示一个术语时,通过使用离散值而不是连续值,因为离散(0或1)值忽略了每个术语的权重差异,尽管在使用线性组合进行文档分类时参数调整过程可以优化每个术语的系数。

由于上述原因,我是否有理由认为使用布尔特征作为词袋模型从文档中提取特征向量不是一个好的选择?

我已经知道最近的方法,比如表示学习和降维,比如词嵌入或 BERT 语言模型。我的问题仅限于从文档数据中提取一些传统的特征。

1个回答

您的推理是正确的:对于与基于文档语义的信息检索和/或文档分类相关的大多数任务,建议考虑术语的重要性(在文档内部和所有文档中,因此 TF 和 IDF )。

然而 TF-IDF 不一定总是最好的选择:

  • 有一些分类任务不是基于文档的语义。例如,如果目标是通过写作风格对文档进行分类(例如查找同一作者的文档),那么主题无关紧要,因此 IDF 不相关。
  • 在非常小的数据集和/或非常短的文档的情况下,使用 TF-IDF 分数可能会导致过度拟合。在这种情况下,使用布尔值可能会表现得更好,因为它使模型的工作更容易。