训练集和真实世界数据集之间的差异:领域适应?

数据挖掘 机器学习 预测建模 数据集 领域适应
2021-10-09 04:33:42

我在文献中读到,在某些情况下,训练集不能代表真实世界的数据集。但是,我似乎找不到一个合适的术语来描述这种现象;解决这个问题的恰当术语是什么?

编辑:

到目前为止,我已经适应了术语域适应,简称为机器学习中的一个领域,旨在从特定的数据分布中学习,以预测来自不同(但相关)目标分布的数据。

4个回答

您可能正在寻找抽样偏差另外另一种情况(训练集实际上很好地代表了现实世界的数据集)通常被称为代表性样本。

希望这可以帮助。

您所描述的案例在文献中被称为样本选择偏差 [1]。这个案例是迁移学习/领域适应领域的一部分。训练集不能很好地代表现实世界的数据集,这意味着训练集和测试集的分布存在差异。域适应领域中提到相同问题的另一个术语是协变量偏移。

  1. B. Zadrozny,“在样本选择偏差下学习和评估分类器”,Proc。第 21 届国际会议 机器学习,2004 年 7 月。

外推?当您的数据分布随时间变化时会发生很多情况,因此在训练集中进行了良好建模的系统将不知道如何处理不在相似范围内的值。更多的通用术语,所以它可能是你正在寻找的。

它还具有不同的效果,具体取决于您使用的技术。像随机森林这样的东西不太擅长外推,而其他像逻辑回归这样的东西仍然可以执行。

过拟合?

当您使模型对训练集过于具体时会发生这种情况,因此它在该特定训练数据上表现得非常好,但随后它无法泛化到其他数据(“现实世界数据”),因此在现实中表现不佳.