我正在训练一个回归模型(使用分位数回归森林),以使用具有不同滞后时间的天气变量来预测作物产量与趋势(残差)的偏差。为了提高我的结果的准确性和可信度,我最近测试了将目标变量替换为它的平滑版本(使用局部加权散点图平滑计算,LOWESS),使用没有滞后时间的特征作为自变量(即,有滞后时间= 0) 试图从测量数据中去除噪声。下图中,叉号代表观测值,红点为异常值,灰线为因变量的平滑版本。
结果我得到了显着改善,但这种方法似乎有些不对劲。
我一直在研究机器学习中平滑技术的使用,并发现平滑是一种在数据预处理、特征工程和数据挖掘中用于噪声过滤的技术(例如,此处或此处;或此处,应用于时间序列预测)。一方面,从目标变量中去除噪声以估计从我试图建模的过程中得出的“真实值”听起来是合乎逻辑的;但是,我了解到预处理适用于特征(解释变量),我不确定平滑目标变量是一个有效的过程。总结一下:
用平滑版本替换目标变量是否有效?
如果是,鉴于用于平滑目标变量的自变量先验不可用,我应该如何进行?
一种。使用平滑的目标变量训练模型并使用原始目标变量对其进行测试;或者
湾。使用平滑的目标变量训练和测试模型。
任何想法将不胜感激。