主成分分析可以用于股票价格/非平稳数据吗?

机器算法验证 时间序列 主成分分析 参考 协方差 平稳性
2022-03-06 10:05:48

我正在阅读《黑客机器学习》一书中给出的示例。我将首先详细说明示例,然后谈谈我的问题。

示例

获取 10 年 25 股价格的数据集。对 25 个股票价格运行 PCA。将主成分与道琼斯指数进行比较。观察到 PC 和 DJI 非常相似!

据我了解,这个例子更像是一个玩具,可以帮助像我这样的新手了解 PCA 工具的有效性!

但是,从另一个来源阅读,我发现股价是非平稳的,对股价运行 PCA 是荒谬的。我读到的资料完全嘲笑为股价计算协方差和 PCA 的想法。

问题

  1. 这个例子如何运作得如此好?股价与大疆的主成分分析非常接近。并且数据是2002-2011年股价的真实数据。

  2. 有人可以指出一些很好的资源来阅读固定/非固定数据吗?我是电脑程序编制员。我有很好的数学背景。但我已经有 3 年没有认真做数学了。我又开始阅读诸如随机游走之类的东西了。

2个回答

这篇文章部分回答了原始问题以及对@JonEgil 答案的评论中提出的一些问题。

财务(对数)回报*约为 i.i.d.(尽管通常存在一些条件异方差)——而价格大约是随机游走。在假设下i.i.d.观察,主成分分析将直接从样本推广到总体(即样本主成分将估计总体主成分),但这可能不适用于非i.i.d.观察 - 看到这个线程这就是为什么在(对数)回报而不是价格上运行 PCA 是有意义的。

Ruey S. Tsay 主张对金融时间序列的计量经济学模型的残差运行 PCA,因为残差通常被假设为i.i.d.我认为这个想法可能包含在他的“使用 R 和金融应用程序的多变量时间序列分析”教科书中的某个地方(他亲自向我解释了这个想法,所以我不确定它写在哪里)。

* 价格的对数回报Pt定义为r:=log(Pt)log(Pt1)=logPtPt1. 为方便起见,使用对数回报代替百分比回报r:=PtPt1Pt1. 对数回报的方便特点是你可以总结h单个对数回报以获得总对数回报h期间,而这不适用于百分比回报。对于相对较小的百分比回报(这在金融中很常见),对数回报大约等于回报百分比,因为对数的单位斜率大约在 1 左右。

我专业地运行这些类型的分析,并且可以确认它们确实有用。但请确保您分析的是回报而不是价格。Slender Means 中的批评也强调了这一点:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

我们分析中的一个典型用例是量化市场中的系统性风险。市场上的共同运动越多,你在投资组合中真正拥有的多元化就越少。例如,这可以通过第一主成分描述的方差量来量化。这与第一个特征值的值相同。

对于财务数据,通常会检查一段时间内的移动窗口。某种形式的衰减因子会降低旧观测值的权重是有用的。对于每日数据,从 20 到 60 天不等,对于每周数据,可能是 1-2 年,这一切都取决于您的需求。

请注意,对于全球金融市场,数以万计的资产价格不断变化,通常无法运行 100K 与 100K 的协方差矩阵。相反,典型的用例是按国家、按部门或其他更有意义的组运行分析。或者,通过一组潜在因素(价值、规模、质量、信用......)分解回报,并对这些因素进行 PCA/协方差分析。

一些不错的文章包括 Attilio Meucci 关于有效投注数的讨论: http ://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

,还有 Ledoit 和 Wolf's Honey 我缩小了样本协方差矩阵 http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

对于以财务为导向的平稳性介绍,为什么不从 Investopedia 开始。它不严谨,但传达了主要思想。

祝你好运!

编辑:这是一个 3 只股票的例子,显示了苹果、谷歌和道琼斯在 2015 年的每日回报。上三角显示回报的相关性,下三角显示价格的相关性。

上三角收益相关,下三角价格相关

可以看出,苹果与道琼斯指数的价格相关性(左下 0.76)高于回报相关性(右上 0.66)。我们可以从中学到什么?不多。谷歌与苹果 (-0.28) 和道琼斯指数 (-0.27) 的价格均呈负相关。再一次,没有太多可以从中学到的东西。然而,回报相关性告诉我们,苹果和谷歌都与道琼斯指数具有相当高的相关性(分别为 0.66 和 0.53)。这告诉我们一些关于投资组合中资产的联动(价格变化)的信息。这是有用的信息。

要点是,虽然价格相关性可以很容易地计算出来,但它并不有趣。为什么?因为股票的价格本身并不有趣。然而,价格变化非常有趣。