故意过度拟合模型有意义吗?
假设我有一个用例,我知道数据在训练数据方面不会有太大变化。
我在这里考虑的是交通预测,其中交通状态遵循一组固定的模式
- 早上通勤
- 夜间活动
- 等等。
除非汽车用户突然增加或道路基础设施发生重大变化,否则这些模式不会发生太大变化。在这种情况下,我希望模型尽可能偏向于它在当前数据中学习的模式,假设将来模式和数据将非常相似。
故意过度拟合模型有意义吗?
假设我有一个用例,我知道数据在训练数据方面不会有太大变化。
我在这里考虑的是交通预测,其中交通状态遵循一组固定的模式
除非汽车用户突然增加或道路基础设施发生重大变化,否则这些模式不会发生太大变化。在这种情况下,我希望模型尽可能偏向于它在当前数据中学习的模式,假设将来模式和数据将非常相似。
不,过度拟合数据是没有意义的。
过拟合这个词实际上是指模型之间的比较:如果model_a在给定的训练数据上表现更好,但在样本外比model_b更差,那么 model_a就是过拟合。或者换句话说:“存在更好的选择”。
如果交通状况“相对于训练数据完全不会改变”,那么您只需记住训练数据即可获得最佳结果(同样,这不是“过度拟合”)。
但是“数据相对于训练数据不会有太大变化”仅仅等同于对基础模式有一个合理的表示。这是机器学习效果最好的地方(Ferdi 解释的固定环境)。
我会说,过度拟合你的数据是有道理的,但仅用于研究目的。(不要在生产中使用过拟合模型!)
在数据可能很复杂且任务不平凡的情况下,尝试过度拟合模型可能是重要的一步!
如果您可以过拟合模型 - 这意味着数据可以由模型描述。
如果您甚至不能过度拟合 - 它可以为您提供调查线索:
一般来说,故意过度拟合您的数据是没有意义的。问题是很难确保模式也出现在数据中未包含的部分中。您必须确认数据中存在模式。这样做的一种可能性是平稳性的概念。
你的描述让我想起了平稳性和遍历性。从上下文/业务方面,您假设您的时间序列遵循某些模式。这些模式称为平稳性或遍历性。
定义平稳性:
平稳过程是一个随机过程,其无条件联合概率分布在随时间移动时不会改变。因此,均值和方差等参数也不会随时间而变化。
定义遍历性:
遍历过程是与或表示系统或过程相关的过程,该过程具有以下特性:给定足够的时间,它们包括或影响给定空间中的所有点,并且可以通过合理选择的点进行统计表示。
现在您要确保它确实遵循这些特定模式。您可以这样做,例如使用单位根检验(如 Dickey-Fuller)或平稳性检验(如 KPSS)。
定义单位根检验:
有单位根。
没有单位根。这在大多数情况下意味着平稳性。
定义平稳性检验:
有平稳性。
没有平稳性。
进一步阅读:
如果时间序列真正遵循这些模式,预测和预测将“从统计的角度更容易”,例如,您可以应用计量经济学模型进行预测,如 ARIMA 或 TBATS。如果您具有横截面数据平稳性并且单位根不是常见概念,我的回答与单变量和多变量时间序列有关。