我是机器学习的新手,一直在努力学习。我将药物成分数据作为自变量,将其功效值作为因变量。
我将它分成训练集和测试集(0.8:0.2)并将模型拟合到训练集。然后我尝试使用随机森林方法进行回归。
用于预测训练集的结果模型给出准确度为 0.97,测试集为 0.82。我一直在尝试更改射频参数,但这是我能达到的最高测试精度。
我还发现 OOB 得分为 0.85。
我的问题是,这种方法对吗?我一直在互联网上研究随机森林,发现随机森林的工作方式是通过装袋,因此模拟 CV。拆分数据是正确的做法吗?并且可以使用分数,或者OOB分数是要知道模型准确性的吗?也许两者兼而有之?