我有一个项目,我应该从头开始学习机器学习的工作原理。到目前为止,一切都比预期的要好,但我觉得我有很多方法可供选择。
我的项目:
我有 700 行和 108 列的数据作为我的特征,使用RandomForestClassifier.
到目前为止,我正在使用train_test_split拆分我的数据,但我正在阅读很多文章,其中建议将数据拆分为 3 个集合(训练、开发、测试)。
由于我没有那么多数据,我想使用交叉验证。
我的问题:
所以我实现了它,但无法真正找到CV和带有 shuffle的train_test_split之间的区别。
在这样做之前,我以为我知道这些与模型选择策略之间的区别,但现在我有点困惑。
我的知识和问题:
1. train_test_split 存在集合不平衡的问题,所以如果我不走运,我只用正面或负面的例子训练我的模型。
--> 不能通过使用来解决stratify=True吗?
2. train_test_split 不会一直以相同的方式拆分集合,因此结果无法比较
--> 设置random_state=0解决了问题?
3. 我什么时候可以使用简历?
4、如何理解下面这张图,它有什么好处:

- 什么是继续的好方法?
非常感谢您提前提供的所有帮助和时间!干杯!