机器算法验证 - 在 DAG 中使用“时间”作为因果变量是否合适？ - 吾爱随笔录

在 DAG 中使用“时间”作为因果变量是否合适？

机器算法验证因果关系哲学的达格

2022-01-24 14:10:25

这个问题可能更适合Philosophy.SE，但我将首先在此处发布，因为它涉及本网站用户最容易理解的技术方面。标题问题问，在 DAG 中使用“时间”作为因果变量是否合适？更具体地说，如果我们有不同时间段的数据，将时间索引用作 DAG 中的变量是否合适，因果箭头从该变量指向其他变量？

在我看来，这提出了一个哲学问题，即“时间”是否可以被认为对其他变量有因果影响，或者相反，时间是否是因果关系概念的内在组成部分（因此不能引入作为因果变量）。除了这个哲学问题之外，它还提出了有关在 DAG 中适当处理时间索引的实际统计问题。在涉及在不同时间测量的数据的大多数统计应用程序中，有一些混杂因素也会随着时间而变化。在这种情况下，可以使用“时间”作为其他混杂因素规范的替代品吗？

4个回答

作为对这个问题的部分回答，我将提出一个论点，即时间本身不能成为适当的因果变量，但使用代表特定自然状态发生的“时间”变量是合法的或存在于指定的时间段内（实际上是一个状态变量）。这些问题是问题本身的推动力，因为我的直觉告诉我，因果模型中的“时间”必须是某种状态变量的一种代理。

时间本身不能是一个因果变量

时间已经是因果概念的一个组成部分：第一个障碍是因果概念涉及动作，并且动作随着时间而发生。因此，“时间”已经融入了因果关系的概念。因此，人们可能会将其视为一个概念，其中时间作为该概念中的一个参数变量是先验的，是不可接受的。断言时间是结果的原因需要承认时间既是断言的因果变量，也是因果关系本身的必要概念。（我们将在下面看到更多的效果。）

如果时间造成任何事情，它就会导致一切：第二个障碍是因果关系通常被认为需要一个反事实条件在时间被断言为因果变量的情况下，这会变得微不足道。如果我们说“前置条件 X 导致动作 Y”，则相关的反事实条件是：（1）前置条件 X 的存在/出现意味着动作 Y 将发生；(2) 在没有其他原因的情况下，没有前提条件 X 意味着动作 Y 不会发生。但是由于“将发生”的意思是“将随着时间的推移而发生”，因此使用“时间”作为因果变量不会对第一个要求增加任何内容，而使第二个要求成为重言式。如果前置条件 X 是“时间的运动”，则（1）归约为“时间的运动意味着动作 Y 将发生”，逻辑上归结为“动作 Y 将发生”；(2) 简化为“仅随时间发生）。在因果关系的这种反事实解释下，一个动作的时间因果性的断言在逻辑上等同于一个断言该动作将会发生。因此，我们必须要么得出结论，这个条件太弱而不能构成因果关系（即时间不是任何事物的原因），要么是时间是一切事物的原因。

纯时间因果性在形而上学上等同于随机性：当我们遇到“时间”是唯一断言的因果变量的情况（即，在纯时间因果性的情况下）时，就会出现另一个障碍。问题是，如果变量随时间发生任何变化，在非时间变量没有因果关系的情况下，这传统上被认为是偶然随机性的定义——即非因果关系。因此，断言时间是结果的唯一原因就是从形而上学中完全摒弃非因果性（随机性）的概念，并用一个基本的“原因”代替它，如果没有其他原因，这个原因总是存在的。或者，人们可以合理地断言时间因果关系的主张是等价的对于随机性的断言——即，它断言除了时间的流逝之外没有任何原因导致变化。如果是这种情况，那么在 DAG 中作为因果变量的“时间”的存在等同于它的缺失（因此简约建议将其排除在外）。此外，该领域的历史建议保留现有的“随机性”术语。

将时间作为因果变量的因果演算问题：我要提到的另一个最后障碍（可能还有更多）是在因果演算中很难将“时间”作为因果变量来处理。在标准因果演算中，我们有一个运算符，它对因果变量进行操作，以反映对系统的干预，以将该变量更改为可能与被动观察下的值不同的选定值. 在不违反其他哲学或统计原则的情况下，是否可以对时间变量进行“干预”，这一点并不完全清楚。人们当然可以争辩说，等待 $\text{do}(\cdot)$ 是一种改变时间的干预（仅向前），但即使这样解释，它也无法与被动性区分开来，因此可以说它与被动性观察没有区别。有人可能会争辩说，我们可以在不同时间记录大量数据，然后“干预”将选择哪些时间值包含在数据中进行分析。这确实会涉及时间段的选择（在可用数据上），因此它似乎构成了一种干预，但这是一种认知干预，而不是一种形而上学的干预。（这也引起了未能使用所有可用数据的次要问题。）

随时间累积的状态变量可以是因果变量

DAG 可以包括表示在规定时间内发生的自然状态的变量：有许多合法的因果变量表示在规定时间段内某种状态或某些事件的发生。一个简单的例子（向卡洛斯致敬在下面的答案中）是随着时间的推移进行的金钱投资，这会产生利息。在这种情况下，产生利息的原因是资金是在一段时间内投资的，投资期限越长，产生的利息就越高。在这种情况下，有一个“时间”变量是合法的，它代表投资的选定时间段，并且该变量将对应计利息产生直接的因果影响。同样，一个人的“年龄”变量是一种“时间”变量（AdamO在下面的答案中），表示该人已经在指定的时间段内活着。这些变量中的每一个都是可以包含在 DAG 中的合法因果变量。这些变量并不代表时间本身的进展——它们代表了在特定时间段内存在某种自然状态的事实。在许多情况下，将这样的变量标记为“时间”是一种有用的简写，但重要的是要记住它代表一段时间内的特定状态，而不是时间本身的进展。

从某种意义上说，每个变量都属于这种类型：由于每个可能的事件或自然状态都发生在特定时间点或一段时间内，因此每个变量都涉及一些（通常是隐含的）时间规范。然而，有一些变量，例如“年龄”或“投入的时间”，它们与时间有更直接的联系，因为该变量表示获得特定状态的时间累积量。

在 DAG 中使用“时间”是随时间累积的状态变量的简写：如果上述论点是正确的，那么在 DAG 中使用“时间”变量似乎必须是表示发生的变量的简写特定事件或特定自然状态在特定时间段内的存在。时间进程本身不受控制或干预，并且由于上述原因不能成为因果变量。但是，特定自然状态在一段时间内的普遍性当然可以是一个合法的因果变量，可以包含在 DAG 中。

这些点给出了为什么使用“时间”作为因果变量是有问题的一些基本概念，以及将“时间”添加到 DAG 意味着什么。正如你所看到的，我的观点是时间本身不能是一个因果变量，但你可以有一个“时间”变量，它实际上代表一个事件或自然状态在一段时间内发生或存在。我愿意被说服相反，但在我看来，这似乎是解决这个问题的明智之举。

我认为这没有问题。物理学中的一个简单示例：假设您对模拟一杯水的温度的 DAG 感兴趣。它可能看起来像：

在此处输入图像描述

时间确实会导致温度发生变化。中间有调解员，但从这 10,000 英尺的角度来看，这并不重要。从这个 DAG 来看，正如预期的那样，将时间作为变量包含在回归模型中是合乎逻辑的。

当我画这个的时候，我在想“我可以包括任何有趣的时间和温度混杂因素吗？” - 但不，因为没有什么，AFAIK，导致时间。

谈到解释的问题，这更棘手，可能归结为您是否遵循 Hernan 的“没有操纵就没有因果关系”与 Pearl 的“任何事情都可以”的态度。查看他们最近关于该主题的一些论文，包括肥胖会缩短寿命吗？肥胖会缩短寿命吗？还是苏打水？关于不可操纵的原因。

“时间”是否是模型中的适当变量取决于您正在建模的现象。因此，正如您提出的那样，您的问题是关于模型错误指定，而不是关于因果建模本身的基本问题。在某些模型中，“时间”（或“年”或“以秒为单位的持续时间”）将是“适当的”变量，而在其他模型中可能不是。

为了具体说明我的观点，既然你认为时间不能是一个因果变量，我会给你一个简单的反例，其中时间（持续时间）是一个适当的因果变量——储蓄账户中的收入模型作为您将资金投入的时间的函数。

让是你的收入，是初始投资，让是“时间”，或者更准确地说，你将钱投资在储蓄账户中的时间（例如，以月为单位）。那么，是的一个合适的结构方程，而你将钱留在银行多长时间确实会决定你会赚多少钱。动作 $Y$ $I$ $T$ $Y = f(I, T)$ $Y$ $do(T = 6)$ 在这个模型中也有明确的含义（即把投资的钱留6个月，不考虑其他因素）。总之，通过这个模型，我们可以回答有关收入时间影响的干预性和反事实问题（您希望从因果模型中得到什么），并且该模型确实具有清晰（且简单）的现实世界解释。

您可能会争辩说并不是“真正”的“时间”。但是，您需要将“真正”的时间定义为特定因果模型上下文中的变量。如果不定义“时间”代表什么，正在建模什么现象，以及模型将用于什么（干预预测？），我们无法判断“时间”是否是一个合适的变量，或者它是否正在建模得当。 $T$

附录：关于变量作为原因

本质上，因果关系是对（某些）机制的修改，同时保持其他机制不变。因此，如果我们想要准确，我们需要描述一个动作发生和不发生变化的所有机制。对于大多数实际目的来说，这要求太高了，既要完整地描述动作，又要描述所有动作的后果。因果模型通过根据事件或变量建模因果关系来抽象出这种复杂性。

那么说变量 “导致”变量什么意思呢？这是一个捷径，而不是用它改变的一切来描述一个动作，用它的直接效果来描述它。例如，是表示“导致事件所需的扰动改变了到的分布”的捷径，我们定义了这个新的分布。因此，当我们说“时间”导致某事时，这是对过程的更复杂描述的抽象。以投资期限为例， $X$ $Y$ $P(Y|do(X =x))$ $X=x$ $Y$ $P^*(Y)$ $P^*(Y):= P(Y|do(X =x))$ $do(T = t)$ 真正代表“在 t 单位时间内维持特定过程”。

时间几乎必然是任何因果分析中的一个因素。事实上，我会说大多数 DAG 都包含它，而统计学家没有真正明确地考虑过它。最常见的是年龄。年龄是从出生开始的时间。我们都同意这会导致死亡。我们还没有考虑将年龄和其他因素之间的相互作用模型作为一种调整形式：累积吸烟年数、端粒长度、教育成就、家庭收入、婚姻状况、左心室肥大等。

是的，年龄是时间的一种形式。您也可以有日历年，特别是当时间序列出现中断时，您会发现大量形式的时间混淆，因为提供了某种干预或政策，这些干预或政策会严重破坏计划的分析，尤其是当治疗以阶梯式分配时 -楔形、交叉或其他非平行方式。

即使在临床试验中，研究时间也反映在许多重要措施中。一些药物在首次给药时可能会产生毒性作用，而另一些药物则会累积地克服肝脏或肾脏的代谢能力并最终导致器官衰竭。由于学习或习惯了研究环境，霍桑效应对测量的安全性和有效性结果的影响会逐渐减弱。这也说明了对每个方案和意向治疗效果建模的问题，其中不遵守者和不响应者从分析集中被删除，您可能会说以他们的结果为条件，您可以估计一个“原始” 在理想环境中的治疗效果，患者依从并适当地响应治疗。

这些只是年龄、时期和队列效应：统计学家在分析中必须考虑的三种时间形式。正如我们在时间序列建模中所了解的那样，当缺乏平稳性时，我们不能假设随着时间的推移重复采取的措施与同时采取的许多措施相同。统计学家必须识别和解释因果估计，并以适当的因果方式解释时间。

其它你可能感兴趣的问题

上一篇使用 R 计算逻辑回归中的系数下一篇为什么 GLM 与具有转换变量的 LM 不同