在匹配后如何或最好的方法是应用倾向得分?

机器算法验证 t检验 物流 倾向评分
2022-03-31 05:59:37

我最近对倾向得分产生了兴趣。我一直在使用 F. Thoemmes 博士创建的 SPSS 工具来计算使用双变量“治疗”变量(例如抑郁症)和几个协变量(例如年龄、性别、家庭成员)的倾向得分。然后我得到一个结果倾向得分,但我想知道如何处理它。

我已经读过,典型的做法是匹配倾向得分几乎相同的两个人(例如,两个人的组号为“17”),但他们的治疗变量(例如抑郁症)实际上不同,然后进行配对基于组数和因变量(例如家庭收入)的 t 检验。在此示例中,我们将看到具有相同倾向(例如,年龄、性别、家庭成员)但在您的治疗变量上不同的两个人实际上在您的受抚养人上是如何不同的。

这个想法对我来说很有意义,但是该软件实际上并没有根据倾向得分进行匹配,而且我不知道如何使用 SPSS 或 Excel 来匹配它们,我目前不想费心去学习如何这样做在另一种程序/语言(例如,R)中。这种懒惰,姑且称之为,迫使我做更多的研究。

两位作者指出:“匹配完成后,匹配的样本可能会通过非配对 t 检验进行比较。(“匹配”错误地表明应将结果数据视为匹配对进行分析。处理和未处理的样本应然而,被认为是独立的,因为没有理由相信匹配个体的结果以任何方式相关)。” (谢弗和杭,2008)。其他研究似乎表明人们经常在他们感兴趣的自变量旁边输入逻辑回归中的倾向得分,并查看自变量如何在“倾向”受到控制的情况下进行预测。

尽管这一研究方向很有趣,但我必须承认,在倾向得分计算之后,在进行定量分析方面,哪些方法是可能的/最好的,我有点迷茫。任何有关此事的指导将不胜感激。我可能还会有后续问题!

编辑:我想强调的是,在我为每个人计算出倾向得分后,我担心要进行哪些类型的推理分析。例如,也许我可以根据协变量(年龄、家庭人数、吸烟、性别、州)计算抑郁倾向得分(是,否)。该程序计算倾向得分作为每个人的新变量。在此之后,我有兴趣查看抑郁症是否与家庭收入相关,同时“控制”/“考虑”/“匹配”(可能根据您建议的方法选择单词)与倾向相关的影响。

3个回答

这是一个复杂的问题。简单的最近邻匹配将治疗组中的每个观察结果与对照组中具有相似倾向得分的单个人配对。然后计算每对的结果的差异,然后计算对之间的平均差异。这就是你的治疗效果。但是,也可以将每个接受治疗的人与多个未接受治疗的人进行匹配。使用额外的最近邻进行匹配会增加偏差,因为下一个最佳匹配必然是更差的匹配,但会降低方差,因为更多的信息被用于为每个被处理的人构建反事实。不同的匹配估计器在计算这种差异时对邻居加权的方式不同。Y

一个重要的问题是,您是否可以将同一个对照组的人与不止一个接受治疗的人配对,基本上是回收他们。如果与处理过的观测值相当的比较观测值的数量很少,则没有替换的匹配可能会产生非常糟糕的匹配。它以潜在偏差为代价保持低方差,而与替换匹配以更大的方差为代价保持低偏差,因为您一遍又一遍地使用相同的信息。这是另一个权衡。

但我离题了。以下是一些进行倾向得分匹配的方法,按照复杂度递增的顺序:

  1. 最简单的匹配形式是仅使用一个具有最接近倾向得分(有或没有替换)的控制人,并计算所有对的平均差。
  2. 另一种策略是将分成个桶或间隔。例如,假设您有一些介于 0.3 和 0.4 之间的经过处理的观察值。然后你把所有分数在 0.30 到 0.4 之间的对照组的人都拿来,然后用他们的平均作为反事实。总治疗效果为,其中是分数桶中所有接受治疗的例如,您可能从 10 个存储桶开始,它们不需要具有相同的宽度。请注意,一些经过处理的观察结果可能没有任何匹配项!这被称为常见的支持问题。ps(X)Sps(X)YΣs(Y¯T=1Y¯T=0)wswssPS
  3. 另一种方法是在处理单元 的固定半径内获取所有控制组成员,并将它们用作反事实。称他们为组处理效果为 这里的带宽问题采取选择半径的形式。iJi1TΣi(Y¯i,T=1Y¯J)ws
  4. 内核匹配。在这里,您对在 PS 中距离较远的对照组观察值进行加权,可能根本没有。

你如何选择一种方法?所有匹配的估计量都是一致的,因为随着样本变得任意大,被比较的单元在其特征方面任意接近。在有限样本中,您选择哪一个可以产生影响。如果比较观察值很少,则不进行替换的单个最近邻匹配是一个坏主意。如果比较观测值很多且分布均匀,则多个最近邻匹配将利用丰富的比较组数据。如果比较观察结果很多但分布不均(检查两组的 PS 内核密度),内核匹配很有帮助,因为它将使用存在的附加数据,但不会在不存在的地方使用错误匹配。

一个复杂的问题是标准误差没有考虑到你估计的倾向得分(因为没有观察到真实的东西),所以它们太小了。人们要么忽略这一点,要么忽略这一点,这可能是也可能不是坏主意。

您可能需要考虑基于倾向得分的其他策略,例如将它们作为模型协变量或非常相似的概念,例如治疗的逆概率权重。这些可能适用于您不能或不想处理匹配的情况。

似乎是一个不错的概述。

不建议将 PS 作为协变量包含在结果模型中。您可能需要考虑基于 PS 层的分层分析。