通过对时间序列进行差分,它会失去记忆,从而失去预测能力,这是一个有效的说法吗?

机器算法验证 时间序列 预测 有马 计量经济学 金融
2022-02-11 05:16:28

Marcos Lopez de Prado似乎是金融领域的知名机器学习专家。我离他的水平还很远,因为我还没有读完经济学博士,只有应用水平的统计知识。我遇到了Lopez de Prado 的一篇被广泛引用的论文我不能说我完全理解所有的数学部分。但是论文中有一些主张,似乎与我迄今为止在统计学和经济学方面学到的东西完全矛盾,或者至少对我来说似乎不合逻辑。举一个具体的例子,请参阅Pitfall #4Solution #4部分下的论文建议,通过对时间序列进行差分以使它们对于经典统计模型(ARIMA 等)是静止的,从而消除了序列的记忆,从而使它们失去了预测能力:

结论是,几十年来,大多数实证研究都在处理记忆被不必要地抹去的系列。这是一种危险做法的原因是,拟合无记忆序列可能会导致虚假模式,错误发现。顺便说一句,时间序列的这种过度微分可以解释为什么有效市场假说在学术界仍然如此盛行:没有记忆,序列就无法预测,研究人员可能会得出市场不可预测的错误结论。

在经济学中,确实有一个关于股票收益的简化理论模型,它假定它是一种无记忆的白噪声,价格(综合收益)遵循随机游走。但从经验的角度来看,据我了解,回报的无记忆属性仅与单个数据点本身有关,而不是整个系列。一个差异化的系列仍然应该有一个“集体”的记忆放在一起,它的信息与集成版本几乎相同,只是缺少一个恒定的值。所以它也应该具有相同的预测能力,不是吗?还是我,缺乏理解?

4个回答

这试图回答最初的问题,而不是进入马科斯的论文等。如果您认为变量的级别(比如对数价格)有信息,那么对系列进行差分(以获得回报),就会抛出信息。如果您认为该级别没有信息,那么差分就可以了。Engle 和 Granger 在他们 1987 年的计量经济学论文中展示了如何通过使用 ECM 来考虑两个系列(X 和 Y)之间关系的水平和变化。但这并不意味着不存在不关心级别而只对变化感兴趣的情况(反之亦然)。

另一方面,这里有一条建议。每当您阅读有关金融策略、技术和方法的任何内容时,都不要过分重视它们,因为如果作者真的有这样的东西,他-她无论如何都不会泄露它。您阅读的大多数内容都会故意含糊不清和笼统,除非您知道该人实际所做的事情的细节,否则不会非常有用。这并不是说马科斯不写有趣的论文,但他不会告诉你他实际上做了什么,所以最好记住这一点阅读他或任何人的演讲。

由于我的类似问题被标记为重复(评论中有很好的辩论!),我遇到了Simon Kuttruf 在 Medium 上的解释

对于差分的整数阶,只有(小)有限的一组过去值反映在结果差分序列中:一阶差分中的前一个值,二阶差分的两个前值等。而对于分数阶差分,所有系数取在(渐近小)非零值上,因此过去的值混合到差分系列中,直到某个选定的截止值。这种现象在这里被称为“长记忆”(或“记忆清除”)。

如果分数d=.5,然后根据递归公式计算前四个系数(查看我的计算)(参见西蒙的文章

wk=wk1(dk+1k),
前四个值是 1、-.5、-1/8 和 -1/16,导致转换

zt=yt12yt118yt2116yt3+

根据术语,“记忆被保留”是因为系数对于无限多的过去值是正的ytk.

我能想到的一个例子是真正的随机游走,第一个差异明显丢失了记忆,但没有任何明显的后果。在哪里ϵi是独立同居N(0,1)随机变量,让

y1=ϵ1,y2=ϵ1+ϵ2,y3=ϵ1+ϵ2+ϵ3,y4=ϵ1+ϵ2+ϵ3+ϵ4.
那么第一个区别y4y3=ϵ4损失全部y4的信息ϵ1,,ϵ3,而分数差分变换将包含所有 epsilon 的一部分。并不是说他们会帮助您进行预测。

“记忆”很重要的另一个可能更深刻的例子是Eric Sims 在这些笔记的第 11 页中描述的综合时间序列回归问题。在那里,取两个协整随机游走的一阶差分会导致估计阶段出现偏差,因为差异与差异回归中的误差包括一个校正项,以使事情符合长期关系。如果您通过差分摆脱了长期协整关系,您将遭受偏见。

此类问题的信号处理方法可能更容易理解。除其他事项外,股票的信噪比(SNR) 可能高到难以检测信号,但仍有许多现成的算法可以提高信噪比,这可能更令人感兴趣给你。这样的算法可能会牺牲一些信号(有损算法)来实现降噪。最容易理解的算法可能是加法。例如,如果趋势是低频(长期),则通过平均减少高频噪声(读) 相邻时间信号或在短时间内平均“窗口”将倾向于比低频信号更能降低高频噪声,从而提高 SNR。在频域中,这称为低通滤波器。

关于这个问题,加法和减法会减少信息,因为当创建平均值或差异时,人们会丢失关于数字在组合之前是什么的信息。例如,给定一个5结果可能来自61,105或无数个其他数对。

关于信息内容,这些事情取决于上下文。如果我们假设噪声不包含信息,并且只有信号具有信息内容,那么信号处理的目标就是以尽可能少的信号损失隔离信号,同时将无记忆噪声降低到零。另一方面,如果上下文是信号和噪声都包含信息,那么显然降噪会严重降低信息量。

关于预测,如果噪声不包含任何信息,则可以建立界限或包含噪声的“包络”。这并不完全是与相同意义上的预测y=f(t),但是当与低通信号结合时,仍然可以提供预测范围。

在现实世界中(假设金钱是真实的),高频数据包含的信息较少(但仍然有一些),而低频数据则相对较多。尽管如此,信号处理可能还是有用的。例如,在频域中检查数据可能会发现在数据本身中不明显的重复出现,并且这样的过程(傅里叶变换)是无损的。

这是解释性和预测性建模之间众所周知的权衡。

现在我们并没有真正做到这一点,但是当您尝试拟合模型时,一开始的目标非常重要。

我可以拥有有史以来最好的预测模型和无意义系数估计,或者拥有一个非常好的解释模型,但预测效果很差。

所以基本上当你对你的系列进行区分时,你更多的是在解释案例而不是预测,所以你牺牲了一点预测能力来获得质量更好的模型。或者至少你准备好牺牲,但我认为不能证明它总是会产生松散的预测能力,也许 95% 的案例基于个人经验。