如果我不理解这个问题,请原谅我,但我相信您的“系统”是正在回测或实施的“策略”。我不能直接回答你的问题,因为我不确定它到底是什么,所以我会试着回答我认为你问的问题。
首先,让我给你一些观察。如果您正在查看 100k x 100k,那么您有一个庞大的模型集。如果是这样的话,我假设你做了某种形式的组合解决方案。忽略计算问题,这在许多层面都是有问题的。
我对资本市场进行了广泛的研究,数据集非常小,因为数据点之间并不是相互独立的。他们共享大量信息。事实上,由于市场参与者的竞争性质,必须不断更新相对估值。任何忽略潜在非价格信息的策略尝试都是高度可疑的,并将导致高错误发现率。
第二个问题是模型选择的最佳选择是贝叶斯模型选择,但是,在这种情况下,你的策略规模超过了你的自由度,借用频率论的想法。如果一个公司被认为是一个信息流,那么你在你的集合中的任何时候都不能有比你最小数量的独立公司更多的策略。事实上,由于令人讨厌的参数,您需要的更少。
您面临的一个重要问题是您不能使用平方距离。可以证明积分在每个概念投资组合的概率分布上发散。您可以使用平均绝对偏差。在泰尔回归下也有理论支持。
您的最终挑战将是流动性成本。如果您的数据不是真实的投资组合,其流动性成本已被做市商承担,那么您需要对这些成本进行建模。我会使用 Ashok Abbott 在The Valuation Handbook中的章节来模拟这些。这也将分离您的投资组合。
我正在考虑如何进行探索性分析以区分投资组合。有了这么多,速度很重要,而贝叶斯方法很慢。我首先将投资组合的价值与其先前的价值进行回归,并针对市场关闭进行调整。我可能会使用普通最小二乘法在我会忽略,因为在最小二乘风格算法中log(vit+1)log(vit)αα
然后我会找到具有中值斜率的投资组合,如果是平局,则在平局中找到中值。我会使用这个投资组合作为我的标准投资组合。然后,我将使用这个投资组合作为剩余投资组合的预测指标。我会在 ) 。任何可以被这个标准投资组合显着预测的投资组合都应该在那个集群中,任何不能被这个标准投资组合预测的投资组合应该在另一个集群中。αlog(vkt+1)log(vit)
然后我会采用那些没有显着预测的人并重复这个过程,创建新的集群。
我不会在回归中使用回报,只使用投资组合值。返回不是数据,它们是数据的转换。
如果由于某种原因,您选择不取值数据的对数,则需要使用 Theil 回归方法,否则使用普通最小二乘法会得到不正确的结果。
这种方法与简单地查看最终值的不同之处在于投资组合不需要在同一日期开始,尽管您的标准投资组合确实需要长期存在,并且它更好地解释了单一的特殊冲击。
这不是一个规范的解决方案。
这应该允许您创建一小组隔离投资组合,然后您可以使用其他分析单独分析这些投资组合。
请注意,我对这种方法有很多保留意见,我希望它会受到很多批评,因为我没有花很多时间思考这个问题。你的问题是是比率的翻译,所以你有一个比率分布。如果您假设基础价格的评估是正态的,那么您就有一个柯西分布,它必须被截断为 -100%。vt+1vt−1
这不会产生均值或方差,从而排除了大多数解决方案。对数解决方案为您提供了一个有偏差的解决方案,但该偏差在投资组合中可能是一致的,并且比 Theil 回归更快。
另一个问题是统计显着性的分界点将决定集群的数量,并且您无法确定错误发现率。
运气好的话,有人会把这个答案撕成碎片。