这是基于我有限的机器学习范围和经验,如果我错了,请纠正我。当前使用的许多机器学习模型(SVM、增强树、DNN)都是在训练、验证和测试数据集共享相同分布的假设下工作的。如果分布不同但不是很大,它们可以在一定程度上起作用。这里的“可以工作”意味着它们工作得不是最优的(即如果分布相同,可以更好地工作),而不是他们背后的理论应该处理分布差异并且可以像“钉钉子”一样处理它们。
因此我的问题是:是否有工作基于数据集实际上正在经历一系列分布变化的假设进行预测?一个疯狂的想法是观察训练集和验证集之间的分布差异,并假设验证集和测试集之间存在相同的差异,并学会在测试集上进行良好的预测。这对于数据性质可能随时间变化的时间序列非常有效。