当我使用传统的特征工程设计文档分类器时,我更喜欢(而不是布尔模型)tf-idf 模型将文档表示为向量,因为直观地布尔模型会丢失每个单词对于将文档分类到特定类别的重要性的信息。
我的意思是使用布尔模型将文档表示为向量是在 n 维向量空间中给它一个比基于 tf-idf 的特征提取更有意义的位置,当每个维度表示一个术语时,通过使用离散值而不是连续值,因为离散(0或1)值忽略了每个术语的权重差异,尽管在使用线性组合进行文档分类时参数调整过程可以优化每个术语的系数。
由于上述原因,我是否有理由认为使用布尔特征作为词袋模型从文档中提取特征向量不是一个好的选择?
我已经知道最近的方法,比如表示学习和降维,比如词嵌入或 BERT 语言模型。我的问题仅限于从文档数据中提取一些传统的特征。