机器学习学会在未来的数据分布上很好地工作?

数据挖掘 机器学习 分配
2022-02-28 05:56:14

这是基于我有限的机器学习范围和经验,如果我错了,请纠正我。当前使用的许多机器学习模型(SVM、增强树、DNN)都是在训练、验证和测试数据集共享相同分布的假设下工作的。如果分布不同但不是很大,它们可以在一定程度上起作用。这里的“可以工作”意味着它们工作得不是最优的(即如果分布相同,可以更好地工作),而不是他们背后的理论应该处理分布差异并且可以像“钉钉子”一样处理它们。

因此我的问题是:是否有工作基于数据集实际上正在经历一系列分布变化的假设进行预测?一个疯狂的想法是观察训练集和验证集之间的分布差异,并假设验证集和测试集之间存在相同的差异,并学会在测试集上进行良好的预测。这对于数据性质可能随时间变化的时间序列非常有效。

2个回答

它已经以各种名称进行了研究,例如域适应、样本选择偏差、协变量偏移。

请阅读这份关于迁移学习的调查报告。它涵盖了所有可能的组合,例如

1)训练和测试数据的分布相同

2)训练和测试分布之间的逐渐变化

3)训练和测试的不同但相关的分布

它还将为您提供进一步研究该主题所需的所有必要资源。

许多机器学习和数据挖掘算法的一个主要假设是训练数据和未来数据必须在相同的特征空间中并且具有相同的分布。这个假设很弱,在许多情况下可能不成立。例如,假设我们在一个感兴趣的领域有一个分类任务,但我们在另一个感兴趣的领域只有足够的训练数据,后者的数据可能在不同的特征空间或遵循不同的数据分布。

你可以在文献中找到很多方法。他们中的一些人试图解决训练集和测试集的边际分布 p(X) 的差异,而另一些人试图解决条件分布 p(y|x) 的差异。一些方法考虑了训练集和测试集分布之间的差异。几乎所有方法都试图使两个分布更接近,使用训练实例的权重(重要性采样),以便新的加权训练集接近测试集。其他方法转换特征空间,使训练集和测试集的分布足够接近。

有关此主题的更多信息,您可以查看调查

潘、新野嘉林、杨强。“关于迁移学习的调查。” IEEE Transactions on Knowledge and Data Engineering 22,没有。10 (2010): 1345-1359。