在前面,请指出您始终必须考虑潜在混杂因素的可能性。这些导致两个随机变量随机依赖而没有因果依赖。它们没有被测量(这就是为什么它们被称为潜在的或有时隐藏的),但几乎总是存在并且通常会搞砸你的数据。因此,如果您不能排除潜在混杂因素,则必须使用允许潜在混杂因素的方法。众所周知(格兰杰本人已经知道),不幸的是,格兰杰因果关系无法处理这种混淆。
接下来,关于数据的一些考虑(我会坚持两个时间序列的情况,但下面的方法也适用于两个以上的时间序列):如果你想区分的较旧部分的因果影响比较的较新部分的影响,也许反过来,您将不得不考虑一个时间序列(如您所描述的那样聚合的数据)。否则,如果您不关心新旧影响之间的差异,我只建议考虑两个随机变量和,将它们中的每一个在区间YXYXXYIi(它们可能比时间序列的情况更大)(和)导致一些新随机变量和。现在我们想知道和之间的因果关系。aggi(X)aggi(Y)(aggi(X),aggi(Y))XYXY
请注意,特别是在您描述的情况下,我们必须接受循环因果关系的可能性,即导致和导致:
找出因果图中的边和箭头有时被称为因果发现。因果发现可以通过改变以精心设计的方式(干预)创建数据的实验或仅通过分析提供的数据来完成。XY YXX⇄Y.
当然,前者会带来更好的结果,但通常是不可行的。因此,许多研究已经并且正在通过观察数据进行因果发现,即在您无法决定实验设计的情况下提供给您的数据。
我假设您想了解因果发现,特别是不排除循环情况和潜在混杂因素的存在。幸运的是,有很多(相对较新的)论文处理了这个问题,甚至提供了现成的实现。我引用最重要的:
- Hyttinen、Antti、Frederick Eberhardt 和 Patrik O. Hoyer。“学习带有潜在变量的线性循环因果模型。” 机器学习研究杂志 13.1 (2012): 3387-3439。
- Forré、Patrick 和 Joris M. Mooij。“具有循环和潜在混杂因素的非线性结构因果模型的基于约束的因果发现。” arXiv 预印本 arXiv:1807.03024 (2018)。
- Rantanen、Kari、Antti Hyttinen 和 Matti Järvisalo。“从干预数据中学习最优循环因果图。” 概率图形模型国际会议。PMLR,2020 年。
- Mooij、Joris M. 和 Tom Claassen。“在存在循环的情况下使用部分祖先图进行基于约束的因果发现。” 人工智能不确定性会议。PMLR,2020 年。
正如我所说,它们都带有执行力。他们都可以处理循环图和隐藏的混杂因素。第一个(Hyttinen 等人)是针对线性情况的,其他的也涵盖了非线性情况。第二个(Forre 和 Mooij)以及第三个(Rantanen 和 Hyttinen)给出了准确的结果(在某种意义上,数学证明是正确的),但它们不能很好地扩展;您将无法分析超过 8 个或 9 个节点的网络。第一个(Hyttinen 等人)和第四个(Mooij 和 Claassen)可扩展性更好(大约 50 个,有时甚至 100 个或更多节点),但不如其他两个“正确”。
这些算法,如果你不向它们提供额外的干预数据,只能发现因果图的一部分,而不是超出图的框架(即没有箭头的边缘)。对于那些,还有更多的可能性。例如,如果你愿意假设你的噪声是加性的,即你有一个 ANM(加性噪声模型),你应该阅读非常酷的论文:
- 霍耶、帕特里克等人。“使用加性噪声模型进行非线性因果发现。” 神经信息处理系统的进展 21 (2008)。
这篇论文以及引用这篇论文的许多较新的论文让您了解如何继续指导您的优势。