数据挖掘 - tf-idf 和 tf 与随机森林的区别 - 吾爱随笔录

我正在研究使用随机森林作为分类器和词袋方法的文本分类问题。我正在使用随机森林的基本实现（scikit 中存在的那个），它在每次拆分时在单个变量上创建一个二元条件。鉴于此，使用简单的 tf（词频）特征有区别吗？其中每个单词都有一个相关的权重，表示文档中出现的次数，或 tf-idf（词频 * 逆文档频率），其中词频也乘以一个值，该值表示文档总数之间的比率以及包含该词的文档数量）？

在我看来，这两种方法之间应该没有任何区别，因为唯一的区别是每个特征的比例因子，但由于拆分是在单个特征的级别上完成的，所以这应该没有区别。

我的推理是否正确？