“机器学习者”关于统计金融时间序列模型的几个问题

机器算法验证 机器学习 有马 金融
2022-03-19 07:54:21

为了解释为什么我有那些你会在下面找到的愚蠢问题,我不得不说我更像是一个机器学习的人。当我研究生物信息学的问题时,一切都很好。当我听到“回归”或“峰度和偏斜”之类的词时,第一种情况我只是微笑,第二种情况我只是笨拙地用肩膀做出一些动作,试图说出类似的话:“是的,我听说过,甚至知道如何计算它,但为什么地球上会有人需要它呢?”。

一年前情况发生了巨大变化,只是为了好玩,我试图将我的机器学习知识应用于一些金融时间序列。

我从“技术”“分析”“指标”提供的信号创建贝叶斯网络的想法开始。想法失败了。此外,在这个站点上找到至少两个具有相似想法的主题(使用神经网络而不是贝叶斯)也有点令人高兴。

接下来,经过大量努力,我能够构建 kNN 和符号回归的混合体,我对 2000 年到 2006 年的 1 小时数据进行了训练,并在 2007 年的数据上进行了测试。这个模型实际上带来了巨大的利润。但是当我将它应用于最新数据时,我意识到由于经济危机,它的准确性急剧下降,并且不再起作用,因为市场发生了变化,我需要更多新数据,我只能在 2-5年。

好吧,后来尝试了很多东西,如果整个事情一开始是“只是为了好玩”,那就不再有趣了。直到我找到了 Ruey S. Tsay 关于 ARIMA、GARCH、TAR 和所有其他对我来说全新的东西的在线讲座。

基本上我发现了一个全新的世界,我真的很喜欢它。现在我能够拟合我的第一个 ARIMA 模型,然后通过查看 ACF、PACF、玩季节性等对其进行调整以减少两次均方根误差。

好吧,乐趣又回来了,我有很多,我希望有更多。但我有一些问题,发现了这个很棒的网站。在此处阅读有关 ARIMA 和其他相关技术的几乎所有主题,以及与类似方法相关的许多其他一般主题。肯定会阅读更多。我仍在思考机器学习方法的思维框架,这会导致很多愚蠢的问题,我在这个网站上找到了大部分问题的答案。

所以,经过这么长的介绍,这里是我剩下的愚蠢问题:

  1. 虽然机器学习方法更关心在数据中找到“模式”,但我发现它与广泛使用随机游走理论的金融时间序列的统计模型相矛盾(这使得模式的存在至少值得怀疑)。我意识到它的描述非常幼稚和不正确,但我想说的是,大多数机器学习技术在概念上与问题的统计方法相矛盾。我并不是说某些方法更好,我只是说它们存在矛盾。这是正确的,这个矛盾有多大?

  2. 我真的很喜欢 TAR 模型的描述和想法,对我来说它看起来像是机器学习与统计的结合。这是我将 GARCH 添加到我的 ARIMA 后接下来要尝试的模型。但我对此有一些疑问:

    • TAR 肯定同时使用统计和机器学习方法。因此,请记住我的第一个问题,在尝试为一组模型查找模式时是否存在错误,这些模型基本上是建立在排除模式的理论之上的?或者这只是一个想法,如何将研究同一问题不同方面的两个模型组合成一个更强大的模型?

    • 当你在这个网站上用关键词“ARIMA”搜索时,你会找到 15 页的主题,而 TAR 只有一个。另外,为什么人们停止应用 AR?为什么不将这个想法扩展到更复杂的模型(如 ARIMA)?是因为 TAR 没有比 AR 提供预期的改进吗?

  3. 我知道 MCMC 方法和其他机器学习的东西目前正在与统计模型混合使用。我个人也是隐马尔可夫模型和条件随机场的忠实粉丝。你知道这些方法与统计模型的任何混合吗?

1个回答

关于问题 1,时间序列不主要处理随机游走。平稳时间序列具有在例如 ARMA 模型中建模的相关结构。时间序列分析还着眼于周期性效应和趋势(我们称这些时间序列是非平稳的)。在数据中寻找模式与统计并不矛盾,只要认识到存在模式+随机分量并且在分析中必须考虑随机分量。关于问题 2,我不明白您为什么将 TAR 称为机器学习和统计的混合体。我认为它只是一个更复杂的时间序列模型,其中包括一个阈值参数和 2 个 AR 模型。我想我也没有看到机器学习和统计之间有很大的区别。我将机器学习视为属于多元分析领域的统计模式识别/分类的一部分。在我看来,TAR 可以很容易地扩展到为 ARMA 模型设置阈值。我不知道它是否已经尝试过,或者为什么它可能没有被开发出来。也许使用这类时间序列模型的人可以回答这个问题。