输入数据的 NN 结构

数据挖掘 神经网络 辍学
2022-03-04 19:02:22

在金融市场中,存在一个简单的问题,即不同国家的交易日历不同。例如,瑞典庆祝瑞典国庆日,挪威庆祝惠特星期一。通常情况下,股市中因假期休市的时间序列在第二天市场再次开市时“赶上”。

例如:

+-----------------+------------+------------+------------+------------+
| Date            | SEK 1      | SEK 2      | NOK 1      | NOK 2      |
+-----------------+------------+------------+------------+------------+
| Date 1          | + 0.2%     | +0.4%      | +0.3%      | +0.6%      |
| Date 2          | + 1.1%     | +0.7%      | +0.3%      | +2.1%      |
| Date 3          | -3.2%      | -2.9%      | NaN        | NaN        |
| Date 4          | +0.1%      | -0.2%      | -2.8%      | -1.6%      |
+-----------------+------------+------------+------------+------------+

我的模型的目标是调整第 3 天和第 4 天的挪威克朗收益,因为它们已被第 3 天的挪威克朗假期扭曲了。为此,我将使用尽可能多的好日期,例如第 1 天并建立一个通过随机删除一些数据,调整以下日期并使用删除的调整作为输入来创建大型数据集,显然我知道监督输出是真实数据。

我觉得这很适合神经网络,但我之前从未构建过输入丢失的神经网络。

只构建网络是否合适,其中丢失的输入数据点对该轮的权重没有影响?是否有任何神经网络(或全部)默认执行此操作?

2个回答

神经网络没有特别适合的原因,如果有的话可能太多(取决于您的时间序列的复杂性)。

无论如何,你需要处理你的 Nan 值,如果你正在寻找一个快速模型,它会自动估算,我建议lgbm因为它会用可以最大程度地减少折叠损失的值来估算 NAN(进行高度优化的估算)。

我不认为您数据中的这个银行假期应该被视为缺失或 nan。那些日子市场实际上“不交易”。这本身就是模型可能倾向于做出更好推理的数据集的内在信号。出于这个原因,它应该明确设置为零。

给定足够大的数据集并且就神经网络而言,LSTM 模型可以很好地帮助您捕捉那些您可能无法精确定位的其他许多漂移。本教程可能是您的用例优缺点的一个很好的起点。

https://towardsdatascience.com/recurrent-neural-network-to-predict-multivariate-commodity-prices-8a8202afd853