错误的训练/测试拆分策略

数据挖掘 随机森林
2022-02-20 08:19:40

问题是关于RandomForest 模型中训练/测试拆分的错误选择策略。我知道以这种方式选择测试集会产生错误的输出,但我想了解原因

(模型查看前几天的数据,并试图预测第二天的数据是否会高于或低于今天,即分类问题)

我从另一个示例中复制了训练/测试拆分代码,它只是将随机行设置为 train_set 或 test_set。(试图在下面说明) 在此处输入图像描述 原始数据是例如 EURUSD 的每日收盘价。

然后我基于此创建功能。每个特征都会查看一些先前的数据点,并提出一组特征,这些特征是 X_test 中的一行。然后我训练一个随机森林模型来尝试预测第二天的收盘价。

test_set 中的准确性非常高,并且随着它查看的历史先前点数的增加而增加,这似乎表明过度拟合。

例如,当我将训练/测试拆分模型更改为具有train_set: data in January-Junetest_set: data in August时,即完全独立的数据集并且不可能混合,准确度是更现实的 50%。

同样,我知道火车/测试拆分是不正确的,但是有人可以帮我理解为什么..吗?

我的问题很简单:每次我想验证一行(即 test_set 中的一个预测)时,我都会使用查看先前数据的功能来预测明天的数据?怎么会出现过拟合?

0个回答
没有发现任何回复~