我在文献中读到,在某些情况下,训练集不能代表真实世界的数据集。但是,我似乎找不到一个合适的术语来描述这种现象;解决这个问题的恰当术语是什么?
编辑:
到目前为止,我已经适应了术语域适应,简称为机器学习中的一个领域,旨在从特定的数据分布中学习,以预测来自不同(但相关)目标分布的数据。
我在文献中读到,在某些情况下,训练集不能代表真实世界的数据集。但是,我似乎找不到一个合适的术语来描述这种现象;解决这个问题的恰当术语是什么?
编辑:
到目前为止,我已经适应了术语域适应,简称为机器学习中的一个领域,旨在从特定的数据分布中学习,以预测来自不同(但相关)目标分布的数据。
您可能正在寻找抽样偏差。另外另一种情况(训练集实际上很好地代表了现实世界的数据集)通常被称为代表性样本。
希望这可以帮助。
您所描述的案例在文献中被称为样本选择偏差 [1]。这个案例是迁移学习/领域适应领域的一部分。训练集不能很好地代表现实世界的数据集,这意味着训练集和测试集的分布存在差异。域适应领域中提到相同问题的另一个术语是协变量偏移。
外推?当您的数据分布随时间变化时会发生很多情况,因此在训练集中进行了良好建模的系统将不知道如何处理不在相似范围内的值。更多的通用术语,所以它可能是你正在寻找的。
它还具有不同的效果,具体取决于您使用的技术。像随机森林这样的东西不太擅长外推,而其他像逻辑回归这样的东西仍然可以执行。
当您使模型对训练集过于具体时会发生这种情况,因此它在该特定训练数据上表现得非常好,但随后它无法泛化到其他数据(“现实世界数据”),因此在现实中表现不佳.