我正在研究使用随机森林作为分类器和词袋方法的文本分类问题。我正在使用随机森林的基本实现(scikit 中存在的那个),它在每次拆分时在单个变量上创建一个二元条件。鉴于此,使用简单的 tf(词频)特征有区别吗?其中每个单词都有一个相关的权重,表示文档中出现的次数,或 tf-idf(词频 * 逆文档频率),其中词频也乘以一个值,该值表示文档总数之间的比率以及包含该词的文档数量)?
在我看来,这两种方法之间应该没有任何区别,因为唯一的区别是每个特征的比例因子,但由于拆分是在单个特征的级别上完成的,所以这应该没有区别。
我的推理是否正确?