金融时间序列的简单距离度量

机器算法验证 时间序列 金融 距离
2022-03-29 09:20:10

我有大量的金融交易系统,我认为它们是高度重复的,这意味着我相信大量的交易系统本质上是相同的。

我正在寻找一种方法来衡量每个交易系统之间的差异。一种简单的方法是每日回报的相关性,尽管这将我限制在线性关系和 100k x 100k 的相关矩阵中,这并不是真正有用。

我可以使用哪些方法来测量时间序列之间的差异,然后将它们聚集在一起,最终目标是删除高度相似的交易系统?

我是新手,所以如果我遗漏了相关信息,请告诉我,我会修改这个问题。

谢谢。

样本数据如下:

StratID SystemID Date   Daily Simple Return
1   1   1/25/2011   0.04
1   1   1/26/2011   0.49
1   1   1/27/2011   -0.02
1   1   1/28/2011   0.76
1   1   1/31/2011   0.61
1   2   1/3/2011    1.37
1   2   1/4/2011    -0.02
1   2   1/5/2011    -0.52
1   2   1/6/2011    0.16
1   2   1/7/2011    0.85
1   2   1/10/2011   -0.14
4个回答

考虑计算每个每日收益的平方差,并取所有收益的平均值(均方误差)。您可以将每个每日收益视为高维空间和用户标准聚类技术中的一个轴,例如 k-means 是最容易理解和实现的,它可能足以满足您的需求,尽管我曾一度被告知 k -means 对于高维空间可能不是一个好的选择(但我没有数据支持这一点 - 我个人会尝试作为第一步)。

作为记录,这是一个正在进行的研究课题。这是最近对这个问题的评论以及来自学术文献的一些方法。

你可以看看聚类分析本质上将每个策略+系统视为一个对象,您的目标是将彼此相似的对象聚集在同一个集群中。

您可以使用的相似性度量是使用给定策略+系统将给出的回报的距离。因此,两个对象之间的距离将是对应于两个对象的返回之间的欧几里德距离(或等效的绝对差)。

作为第一个切入点,您可能想要使用层次聚类wiki(见链接)不仅描述了这种集群方法的工作原理,还提供了一些关于使用各种软件工具的程序的建议。

如果我不理解这个问题,请原谅我,但我相信您的“系统”是正在回测或实施的“策略”。我不能直接回答你的问题,因为我不确定它到底是什么,所以我会试着回答我认为你问的问题。

首先,让我给你一些观察。如果您正在查看 100k x 100k,那么您有一个庞大的模型集。如果是这样的话,我假设你做了某种形式的组合解决方案。忽略计算问题,这在许多层面都是有问题的。

我对资本市场进行了广泛的研究,数据集非常小,因为数据点之间并不是相互独立的。他们共享大量信息。事实上,由于市场参与者的竞争性质,必须不断更新相对估值。任何忽略潜在非价格信息的策略尝试都是高度可疑的,并将导致高错误发现率。

第二个问题是模型选择的最佳选择是贝叶斯模型选择,但是,在这种情况下,你的策略规模超过了你的自由度,借用频率论的想法。如果一个公司被认为是一个信息流,那么你在你的集合中的任何时候都不能有比你最小数量的独立公司更多的策略。事实上,由于令人讨厌的参数,您需要的更少。

您面临的一个重要问题是您不能使用平方距离。可以证明积分在每个概念投资组合的概率分布上发散。您可以使用平均绝对偏差。在泰尔回归下也有理论支持。

您的最终挑战将是流动性成本。如果您的数据不是真实的投资组合,其流动性成本已被做市商承担,那么您需要对这些成本进行建模。我会使用 Ashok Abbott 在The Valuation Handbook中的章节来模拟这些。这也将分离您的投资组合。

我正在考虑如何进行探索性分析以区分投资组合。有了这么多,速度很重要,而贝叶斯方法很慢。我首先将投资组合的价值与其先前的价值进行回归,并针对市场关闭进行调整。我可能会使用普通最小二乘法我会忽略,因为在最小二乘风格算法中log(vt+1i)log(vti)αα

然后我会找到具有中值斜率的投资组合,如果是平局,则在平局中找到中值我会使用这个投资组合作为我的标准投资组合。然后,我将使用这个投资组合作为剩余投资组合的预测指标。我会 ) 。任何可以被这个标准投资组合显着预测的投资组合都应该在那个集群中,任何不能被这个标准投资组合预测的投资组合应该在另一个集群中。αlog(vt+1k)log(vti)

然后我会采用那些没有显着预测的人并重复这个过程,创建新的集群。

我不会在回归中使用回报,只使用投资组合值。返回不是数据,它们是数据的转换。

如果由于某种原因,您选择不取值数据的对数,则需要使用 Theil 回归方法,否则使用普通最小二乘法会得到不正确的结果。

这种方法与简单地查看最终值的不同之处在于投资组合不需要在同一日期开始,尽管您的标准投资组合确实需要长期存在,并且它更好地解释了单一的特殊冲击。

不是一个规范的解决方案。

这应该允许您创建一小组隔离投资组合,然后您可以使用其他分析单独分析这些投资组合。

请注意,我对这种方法有很多保留意见,我希望它会受到很多批评,因为我没有花很多时间思考这个问题。你的问题是是比率的翻译,所以你有一个比率分布。如果您假设基础价格的评估是正态的,那么您就有一个柯西分布,它必须被截断为 -100%。vt+1vt1

这不会产生均值或方差,从而排除了大多数解决方案。对数解决方案为您提供了一个有偏差的解决方案,但该偏差在投资组合中可能是一致的,并且比 Theil 回归更快。

另一个问题是统计显着性的分界点将决定集群的数量,并且您无法确定错误发现率。

运气好的话,有人会把这个答案撕成碎片。