机器算法验证 - 我什么时候可以停止寻找更好的模型？ - 吾爱随笔录

我正在寻找能源股票价格和天气之间的模型。我有在欧洲国家之间购买的 MWatt 的价格，以及很多关于天气的值（Grib 文件）。5 年（2011-2015）期间的每个小时。

价格/天

这是一年中的每一天。我有这个每小时 5 年。

3D 散点图，以开尔文为单位，持续一小时。我每小时每个数据有 1000 个值和 200 个数据，例如 klevin、wind、geopential 等。

我正在尝试预测 Mwatt 的每小时平均价格。

我的天气数据非常密集，超过 10000 个值/小时，因此具有很高的相关性。这是短数据、大数据的问题。

我已经尝试了 Lasso、Ridge 和 SVR 方法，其中 MWatt 的平均价格作为结果，我的天气数据作为收入。我将 70% 作为训练数据，30% 作为测试数据。如果我的测试数据是非预测的（在我的训练数据中某处），我有一个很好的预测（R² = 0.89）。但我想对我的数据进行预测。

因此，如果测试数据在我的训练数据之后按时间顺序排列，则它不会预测任何内容（R²=0.05）。我认为这很正常，因为这是一个时间序列。并且存在很多自相关。

我认为我必须使用像 ARIMA 这样的时间序列模型。我计算了方法的顺序（系列是静止的）并进行了测试。但它不起作用。我的意思是预测的 r² 为 0.05。我对测试数据的预测根本不是我的测试数据。我用我的天气作为回归量尝试了 ARIMAX 方法。把它不添加任何信息。

所以我每天和每周都进行季节性削减

如果我可以预测我的股价趋势趋势，我就可以拥有这个：

蓝色是我的预测，红色是真正的价值。

我将以天气的滚动平均值作为收入和股票价格趋势的趋势作为结果进行回归。但目前，我还没有找到任何关系。

但是如果没有交互，我怎么知道什么都没有呢？也许只是我没有找到它。