添加额外输入数据后生产的准确性下降

数据挖掘 美国有线电视新闻网
2021-10-10 06:12:21

我正在尝试使用 CNN 来预测 TimeSeriesA。我创建时间序列的快照图像,然后标记这些图像。

通过一个非常简单的快照,我得到了合理的训练和测试准确性。当我将模型应用于生产中的现实世界时,我也获得了合理的准确性。

为了提高准确性,我在快照中添加了其他时间序列,这些时间序列可能会或可能不会增加价值。

我的训练和测试准确性都提高了(训练更多)。但是,我的生产精度大大下降了。

为什么会发生这种情况?原始数据仍以完全相同的格式保存在快照中。CNN 会被附加数据混淆(错误的词!)吗?

下面看一下 TimeSeriesA 的平稳性:

Year: 2000 Ave: -0.0003 Std: 0.0076 Skew: 0.2166
Year: 2001 Ave: -0.0002 Std: 0.0072 Skew: 0.0158
Year: 2002 Ave: 0.0006 Std: 0.0056 Skew: -0.2445
Year: 2003 Ave: 0.0007 Std: 0.0065 Skew: -0.0402
Year: 2004 Ave: 0.0003 Std: 0.0067 Skew: -0.2640
Year: 2005 Ave: -0.0005 Std: 0.0056 Skew: 0.2420
Year: 2006 Ave: 0.0004 Std: 0.0047 Skew: 0.2711
Year: 2007 Ave: 0.0004 Std: 0.0039 Skew: -0.3177
Year: 2008 Ave: -0.0001 Std: 0.0087 Skew: 0.3768
Year: 2009 Ave: 0.0001 Std: 0.0076 Skew: 0.2327
Year: 2010 Ave: -0.0002 Std: 0.0074 Skew: 0.0112
Year: 2011 Ave: -0.0001 Std: 0.0074 Skew: -0.2599
Year: 2012 Ave: 0.0001 Std: 0.0051 Skew: 0.2541
Year: 2013 Ave: 0.0002 Std: 0.0046 Skew: 0.0818
Year: 2014 Ave: -0.0005 Std: 0.0039 Skew: -0.1489
Year: 2015 Ave: -0.0004 Std: 0.0076 Skew: 0.2973
Year: 2016 Ave: -0.0001 Std: 0.0051 Skew: 0.0076
Year: 2017 Ave: 0.0005 Std: 0.0045 Skew: 0.3101
Year: 2018 Ave: -0.0002 Std: 0.0045 Skew: -0.1658
Year: 2019 Ave: -0.0002 Std: 0.0033 Skew: -0.1124

我使用截至 2010 年底的数据训练模型。我的训练准确度和验证准确度约为 65%。

然后,当我将模型应用于 2011 年至 2019 年的数据时,我的准确度下降了。绿色年份是那些包含在培训中的年份。

在此处输入图像描述

1个回答

显然,在不知道确切数据的情况下,我所说的一切都只是猜测。以下是我的一些猜测,为什么会发生这种情况:

  • 您的生产数据与训练数据的分布不同

这可能会发生,需要进行数据分析以仔细检查您的生产数据可能会如何偏离。如果是这种情况,我会调查可能导致这种情况的原因,您可以适应吗?还是由于您可以测量的外部因素?

  • 您的网络太大并且训练中的工件过拟合

如果您的网络很大,您可能对训练和测试集中存在的某些工件过度拟合,因此它在您的生产数据上表现不佳。我会训练较小的网络或许多较小的快照,以仔细检查您的模型是否可以正确学习。

  • 你的评价方法不合适

在训练时间序列时,请确保始终评估未来的数据而不是过去的数据(这是作弊!)

  • 错误

显然,错误可能总是导致某些问题的原因。也许预处理正在做一些时髦的事情。