我什么时候可以停止寻找更好的模型?

机器算法验证 时间序列 预测 预测模型 造型 大数据
2022-01-20 14:09:49

我正在寻找能源股票价格和天气之间的模型。我有在欧洲国家之间购买的 MWatt 的价格,以及很多关于天气的值(Grib 文件)。5 年(2011-2015)期间的每个小时。

价格/天

在此处输入图像描述

这是一年中的每一天。我有这个每小时 5 年。

天气示例

在此处输入图像描述 3D 散点图,以开尔文为单位,持续一小时。我每小时每个数据有 1000 个值和 200 个数据,例如 klevin、wind、geopential 等。

我正在尝试预测 Mwatt 的每小时平均价格。

我的天气数据非常密集,超过 10000 个值/小时,因此具有很高的相关性。这是短数据、大数据的问题。

我已经尝试了 Lasso、Ridge 和 SVR 方法,其中 MWatt 的平均价格作为结果,我的天气数据作为收入。我将 70% 作为训练数据,30% 作为测试数据。如果我的测试数据是非预测的(在我的训练数据中某处),我有一个很好的预测(R² = 0.89)。但我想对我的数据进行预测。

因此,如果测试数据在我的训练数据之后按时间顺序排列,则它不会预测任何内容(R²=0.05)。我认为这很正常,因为这是一个时间序列。并且存在很多自相关。

我认为我必须使用像 ARIMA 这样的时间序列模型。我计算了方法的顺序(系列是静止的)并进行了测试。但它不起作用。我的意思是预测的 r² 为 0.05。我对测试数据的预测根本不是我的测试数据。我用我的天气作为回归量尝试了 ARIMAX 方法。把它不添加任何信息。

ACF/PCF,测试/训练数据

所以我每天和每周都进行季节性削减

在此处输入图像描述

周上趋势第一

在此处输入图像描述

如果我可以预测我的股价趋势趋势,我就可以拥有这个: 在此处输入图像描述

蓝色是我的预测,红色是真正的价值。

我将以天气的滚动平均值作为收入和股票价格趋势的趋势作为结果进行回归。但目前,我还没有找到任何关系。

但是如果没有交互,我怎么知道什么都没有呢?也许只是我没有找到它。

1个回答

您可能对称为“计算力学”的正式科学领域感兴趣。在 James Crutchfield 和 David Feldman 的一篇文章中,他们列出了计算力学程序——据我所知——解析(1)确定性不确定性和推断确定性关系的信息成本之间的界限,(2)随机不确定性和推断概率分布的信息成本,以及(3)熵不确定性和信息贫乏的后果。

要直接回答您的问题(尽管也很广泛,因为您提出了一个广泛的问题),我们如何知道我们何时从数据中学到了“足够”或“我们能做到的一切”是一个开放的研究领域。前者必然取决于一个人作为研究人员和世界参与者的需求(例如,考虑到多少时间?多少处理能力?多少记忆,多少紧迫性等)。

我不在这个领域,甚至对这篇特定的文章也没有深入了解,但他们是一些很酷的思想家。:)

Crutchfield, JP 和 Feldman, DP (2003)。看不见的规律,观察到的随机性:熵收敛的水平混沌,13(1):25-54。