随机分配的正式定义

机器算法验证 计量经济学 实验设计 因果关系 工具变量 随机分配
2022-04-21 02:10:13

我正在寻找随机分配的正式定义。

为治疗分配向量,其中每个元素为 0(未分配给治疗的单位)或 1(分配给治疗的单位)。在 JASA 的一篇文章中,Angrist、Imbens 和 Rubin (1996, 446-47)如果\对于所有\mathbf{c}\mathbf{c'}使得\iota^T\mathbf{c} = \iota^T\mathbf{c'},其中\iota是所有元素都等于 1 的列向量。ZZiPr(Z=c)=Pr(Z=c)ccιTc=ιTcι

换句话说,定义似乎是这样的:如果任何包含m个治疗分配的分配向量与包含m个治疗分配的任何其他向量一样可能,则分配Zi是随机的mm

这个定义似乎不能令人满意。如果我先验地决定要排除特定的分配向量,并随机选择剩余的向量之一怎么办?这种做法不满足 AIR 定义,但仍是随机分配。

这是一个例子。想象一下对两个受试者中的每一个进行治疗的二元分配。Z为处理分配的向量。那么Z有四个可能的值:{0, 0}、{0, 1}、{1, 0} 和 {1, 1}。根据 AIR 定义,仅当\Pr(\mathbf{Z} = \{1, 0\}) = \Pr(\mathbf{Z} = \{0, 1\})时分配是随机的Pr(Z={1,0})=Pr(Z={0,1})但是为什么这应该是随机分配的定义,甚至是它的必要条件呢?如果我只是决定要排除 {0, 1} 并从剩余的三个向量中随机选择会怎样?这种做法似乎与对随机分配的传统理解一致,但与 AIR 定义不一致。

那么:是否有一个正式的随机分配定义包含实验者可以先验地排除一些分配向量的想法?

3个回答

虽然 Michael Chernick 给出了一个很好的答案,但我不认为参与治疗效果估计的人会考虑有限人群和基于随机化的推理。经济学家(Angrist 和 Imbens 是著名的计量经济学家)通常不会;如果 OP 来自相同的传统,那就是这个问题的中心问题。

相反,经济学家有一个模型的观点,其中有一个概念总体,从中提取单位,并且存在某种隐含的排列不变性,或“标签无关紧要”,对这些抽样单位做出假设。正是这种排列不变性在 OP 给出的定义中被表征和量化。然而,在有限的人群中,每个单位都被假定为唯一的,并且在随机化机制中拒绝对其进行某种处理会产生不可估量的处理效果。从基于模型的推理切换到基于随机化的推理非常困难;这可能已经在引用的论文中完成,但不是很清楚。

随机分配的这种定义似乎是以相等的概率进行分配。分配 0 权重,任何可能的分配都可能产生偏差,任何定义都应将其视为非随机分配。然而,使用不相等的非零权重进行抽样可能是一种可接受的程序(例如,与规模成比例的随机抽样或每层样本不等的分层随机抽样是调查抽样的例子)。它们符合随机抽样的更一般定义。如果要估计平均值,则可以使用加权平均值来获得总体平均值的无偏估计。通过排除可能的结果,您改变了总体,并且对您选择不从中抽样的大量总体进行推断是不合适的。

您会在 AIR 论文中注意到的一件事是它们不以协变量为条件。您可以通过这样做来概括 AIR 说明。X

成为受试者是否为男性的指标。还假设您希望男性比女性更有可能接受治疗。你可以有并且在这种情况下仍然满足随机分配。例如,这将证明分层抽样的合理性。X

Pr(z=cX=1)=Pr(z=cX=1)
Pr(z=cX=0)=Pr(z=cX=0),
Pr(z=cX=1)>Pr(z=cX=0)

这种概括与仅排除任意向量的概括之间的区别在于,此处特定阶层中的每个人都具有相同的接受治疗的概率,而您的建议将针对不太可能接受治疗的特定人群。如果您可以根据观察的可观察特征以系统的方式执行此操作,例如在分层情况下,那么您将很清楚,但是对某些人群的非系统性阻碍可能会使您的结果产生偏差。