如果我在此过程中犯了统计或机器学习方面的不当行为,请告诉我?
我想从 变量。我使用来自不同气象站的数据。我保留一些气象站作为测试站点/数据。
我通过对训练数据的交叉验证进行特征选择和超参数调整。我的模型是随机森林 (RF) 和另外两个基于树的模型。
在我在测试站点上评估我的模型之前,我对保留其中一项功能持怀疑态度:气象站的高程,. 这是一个静态特征,在与站点相关的所有数据行中都存在/相同。对 RF 有一点了解让我担心模型会将其用作一种“site_id”,并可能过度拟合此功能。如果我使用线性/非线性回归模型,我不会担心。
所以我训练我的模型一次有一次没有作为一个特点。
然后我在测试站点上评估我的模型,结果发现模型没有在测试站点上做得更好。
甚至在测试这个关于静态特性的假设之前,我也想做类似的测试,同时删除其他特性,比如.
现在我的问题是:现在我知道了伤害了我的模型,我喜欢重新训练我的模型并在有和没有的情况下测试模型性能在过滤的特征集中。
对我来说,我似乎在使用我的测试数据来过滤掉我的功能,所以这是不对的。但是,我有这些信息,如果最终伤害了我的模型,我为什么要继续测试假设并准备我的模型在他们里面?