问题是关于RandomForest 模型中训练/测试拆分的错误选择策略。我知道以这种方式选择测试集会产生错误的输出,但我想了解原因。
(模型查看前几天的数据,并试图预测第二天的数据是否会高于或低于今天,即分类问题)
我从另一个示例中复制了训练/测试拆分代码,它只是将随机行设置为 train_set 或 test_set。(试图在下面说明) 原始数据是例如 EURUSD 的每日收盘价。
然后我基于此创建功能。每个特征都会查看一些先前的数据点,并提出一组特征,这些特征是 X_test 中的一行。然后我训练一个随机森林模型来尝试预测第二天的收盘价。
test_set 中的准确性非常高,并且随着它查看的历史先前点数的增加而增加,这似乎表明过度拟合。
例如,当我将训练/测试拆分模型更改为具有train_set: data in January-June和test_set: data in August时,即完全独立的数据集并且不可能混合,准确度是更现实的 50%。
同样,我知道火车/测试拆分是不正确的,但是有人可以帮我理解为什么..吗?
我的问题很简单:每次我想验证一行(即 test_set 中的一个预测)时,我都会使用查看先前数据的功能来预测明天的数据?怎么会出现过拟合?