我训练了一个模型,它在看不见的数据上表现很好,但是在部署到生产环境后,我得到的数据非常不同,比如训练和测试数据中的最高值是~23,但是我从生产中得到的数据的值是~80,并且只有 1 个特征,这是回归问题。谁能推荐我能做些什么来解决这个问题。
如果训练数据和测试数据之间存在巨大差异怎么办?
数据挖掘
深度学习
回归
2022-03-13 17:59:54
1个回答
对我来说,您似乎正在使用错误的数据进行训练。你的算法的结果只会和你训练它的数据一样好。您应该问自己的第一个问题是,是否可以转换或更新您的数据集以使其更真实。如果不深入了解问题的本质,不幸的是,很难在这方面提供帮助。不过,在我看来,这将是最干净的解决方案。
如果你不能更新你的训练数据来代表真实世界的分布,你的问题与试图将模拟数据传输到真实世界的应用程序非常相似,就像在机器人技术中经常看到的那样。通常,作者试图明确地学习模拟和真实世界数据之间的转换,就像这篇关于优化的好论文中所示。简而言之,作者通过两个高斯过程 (GP) 对数据进行建模,一个类似于模拟数据,而另一个是我上面提到的转换。因此,您的真实世界数据将是来自 GP 的两个内核的总和。我确信类似的方法适用于您的问题,即使您(很可能)不使用 GP,因为您对贝叶斯优化不感兴趣。
尽管如此,如果你想采用这种方法,你还需要从你的真实分布中收集更多数据,而不是一个全新的数据集。
其它你可能感兴趣的问题