如果我们可以用于训练的数据已经过时了怎么办。例如,如果我用 20 世纪的计算机销售报告训练我的模型并尝试预测实际趋势,那是一场灾难,对吗?
另一个很好的例子是描述罪犯的例子。它将历史“错误”作为事实,并可能错误地怀疑无辜者(基于种族或民族)。
我怎样才能避免这种情况?
如果我们可以用于训练的数据已经过时了怎么办。例如,如果我用 20 世纪的计算机销售报告训练我的模型并尝试预测实际趋势,那是一场灾难,对吗?
另一个很好的例子是描述罪犯的例子。它将历史“错误”作为事实,并可能错误地怀疑无辜者(基于种族或民族)。
我怎样才能避免这种情况?
使用您上面给出的示例中的知识的一种方法是将该信息用作当前模型的先验。虽然前一段时间观察到的确切趋势不太可能预测未来趋势,但一些一般性观察/相关性可能仍然与今天相关。
关于你的犯罪分析的例子。在这种情况下建立预测模型可能会产生很大的偏差并且是有争议的。我邀请您阅读本 ML 评论的展望第 XVIII.D 部分,了解机器学习的社会影响和提到的参考资料。
如果您的训练数据已过时,如果您在考虑该数据集的情况下训练模型,然后将其应用于更新且未过时的测试数据集,您可能会遇到问题。如果您在训练时有一些新数据可用,一种解决方案可能是执行域适应/迁移学习方法来解决这种差异,例如在考虑较小的较新数据集和较大的过时数据集的特征分布中. 实际上,您将找出过时数据集的哪一部分保持不变,或者经过一些转换后哪一部分可能有用。您可以查看相关参考书目以获取有关迁移学习和领域适应的更多信息。