tf-idf 和 tf 与随机森林的区别

数据挖掘 分类 文本挖掘 随机森林
2021-09-25 11:54:02

我正在研究使用随机森林作为分类器和词袋方法的文本分类问题。我正在使用随机森林的基本实现(scikit 中存在的那个),它在每次拆分时在单个变量上创建一个二元条件。鉴于此,使用简单的 tf(词频)特征有区别吗?其中每个单词都有一个相关的权重,表示文档中出现的次数,或 tf-idf(词频 * 逆文档频率),其中词频也乘以一个值,该值表示文档总数之间的比率以及包含该词的文档数量)?

在我看来,这两种方法之间应该没有任何区别,因为唯一的区别是每个特征的比例因子,但由于拆分是在单个特征的级别上完成的,所以这应该没有区别。

我的推理是否正确?

1个回答

决策树(以及因此的随机森林)对输入特征的单调变换不敏感。

由于乘以相同的因子是单调变换,我假设对于随机森林确实没有区别。

但是,您最终可能会考虑使用不具有此属性的其他分类器,因此使用整个 TF * IDF 可能仍然有意义。