我正在处理面板数据——每一行代表一个时间戳(观察),一个时间戳有多行(每行大约 20 行)。我总共有 8719 个唯一时间戳。
Obs_temp 是目标列。“1”列代表小时。每个时间戳都有 20 个不同的观察值(具有不同的特征值但相同的目标值)。
当我将数据随机拆分为训练&测试和预测时,随机森林和 KNN 的 MAE 分别为 0.55 和 0.0002。(基线 MAE=1.97)这是我所期待的,因为相同时间戳的 20 行最终可能会同时出现在训练集和测试集上。
当我删除所有与时间相关的列时,它们仍然几乎完美地得分。所以我的问题是,随机森林怎么知道它已经在训练集中有一些测试观察?
编辑:样本数据集已更新为具有相同时间戳的行(根据 2 个不同的时间戳过滤)。
