大小不等的两个变量之间的相关性

机器算法验证 时间序列 相关性 缺失数据 金融
2022-03-16 07:26:46

在我正在处理的一个问题中,我有两个随机变量 X 和 Y。我需要弄清楚它们两者之间的相关性如何,但它们的维度不同。X的行空间的秩是4350,而Y的行空间的秩要大得多,有几万。X 和 Y 的列数相同。

我需要衡量两个变量之间的相关性,而 Pearson 的 r 要求 X 和 Y 具有相同的维度(至少 R 要求两个 rv 是)。

我是否有希望在这两者之间建立关联,或者我应该找到某种方法来修剪 Y 的观察结果?

 EDIT

从评论中添加信息,这应该在问题中。

我想我忘了提这个。X 和 Y 是股票价格。X 公司上市的时间比 Y 短得多。我想说明 X 和 Y 的价格之间的相关性。我绝对可以得到 X 和 Y 都存在的时间段的相关性。我想知道如果知道 X 不存在的 Y 的额外几年的股票价格是否能给我带来任何额外的信息。

4个回答

再多的插补、时间序列分析、GARCH 模型、插值、外推或其他花哨的算法都不会做任何事情来创建不存在的信息(尽管它们可以创建这种错觉 ;-)。X 上市之前 Y 的价格历史对于评估它们随后的相关性是无用的。

有时(通常是为 IPO 做准备)分析师使用内部会计信息(或私人股票交易记录)来追溯重建 X 股票上市前的假设价格。可以想象,此类信息可用于增强对相关性的估计,但鉴于此类回溯的极端试探性,我怀疑这种努力是否会有所帮助,除非最初只有几天或几周的 X 价格可用。

所以问题是缺少数据之一(并非所有 Y 都有对应的 X,其中对应是通过时间点操作的)。我认为除了扔掉没有 X 的 Y 并计算完整对的相关性之外,没有什么可做的。

您可能想阅读金融时间序列,尽管我目前没有很好的参考资料(想法,有人吗?)。股票价格经常表现出随时间变化的波动性,这可以通过例如GARCH来建模。可以想象,您的两个时间序列 X 和 Y 在低波动期间表现出正相关(当经济增长时,所有股票价格都趋于上涨),但在整体波动高时呈现负相关(9/11,航空公司在资金流向更安全的投资)。因此,仅计算整体相关性可能过于依赖您的观察时间范围。

更新:我想你可能想看看VAR(向量自回归)模型。

@Jeromy Anglim 正确指定了这一点。当只有一个时间序列存在时,拥有额外的信息在这里没有任何价值。原则上,应同时对数据进行采样,以便使用传统的相关性度量使其有意义。

作为一个更普遍的问题,我要补充一点,有一些技术可以处理不规则间隔的时间序列数据。您可以搜索“不规则间隔的时间序列相关性”。最近的一些工作已经使用高频数据 完成了“已实现的波动性和相关性” (Andersen、Bollerslev、Diebold 和 Labys 1999)。

鉴于您评论中的额外信息,我建议您查看两个相关性。第一个是两家公司都存在的共同时间段。因此,如果一个是大约 2 年前的数据,您只需删除该数据并查看其余数据。第二个是相对时间段。在第二个中,您不是关联实际时间,而是关联自公司上市以来测量的时间。

前者将受到同一时期内共享的一般经济力量的强烈影响。后者将受到公司共享财产的影响,因为它们在 IPO 后发生了变化。