概念漂移意味着模型试图预测的目标变量的统计特性会随着时间以不可预见的方式发生变化。
参考经典房价预测用例:
房价会随着时间而变化,因此我今天使用的模型在未来可能毫无意义。
解决概念漂移的最佳方法是什么?
- 我们是否不断更新输入以取代过去的旧房价?
- 我们是否为销售日期添加了一个额外的特性——通过将时间方面作为一个具有更大数据集的特性来添加?
- 我们最终是否会在训练期间更改模型超参数以构建更适合新数据的模型?
概念漂移意味着模型试图预测的目标变量的统计特性会随着时间以不可预见的方式发生变化。
参考经典房价预测用例:
房价会随着时间而变化,因此我今天使用的模型在未来可能毫无意义。
解决概念漂移的最佳方法是什么?
一般来说,实际上不可能解决概念漂移问题。但我可以为房价漂移带来两个类似的答案:
与其他价格一样,漂移通常得到很好的测量和研究。正如人们会根据通货膨胀修正价格一样,人们可以用住房指数(通常是美国的这个指数)来修正过去的房价。它将帮助您的模型具有多年可比的价格。
解决漂移的另一种方法是考虑具有相似漂移的相关变量的比率。对于房价,这可能是该社区的收入中位数。这将为您提供一个对整体漂移不太敏感的变量。
正如你所看到的,这两种方法在实践中几乎是等价的,因为它主要在于纠正特征,最终纠正目标。主要区别在于,在第一种情况下,您直接谈论美元,这通常更面向业务。如果您尝试使用您的模型来预测未来并且需要预测住房指数或工资中位数,那么这些方法的应用可能会有些困难。