我有一个调查实验,其中治疗组收到了对照组没有的特定提示。
我还有一堆人口统计变量,我想检查对照组和治疗组之间的平衡。我见过的一种常见技术是比较两组的 t 检验。但是,如果我的样本量很大,无论我的两组之间的基本平衡如何,这是否会使 t 检验更具统计意义?
如果这是真的,是否有比 t 检验更好的平衡检验?
我有一个调查实验,其中治疗组收到了对照组没有的特定提示。
我还有一堆人口统计变量,我想检查对照组和治疗组之间的平衡。我见过的一种常见技术是比较两组的 t 检验。但是,如果我的样本量很大,无论我的两组之间的基本平衡如何,这是否会使 t 检验更具统计意义?
如果这是真的,是否有比 t 检验更好的平衡检验?
你研究中的人被随机分配到各个组。因此,除非随机化失败,否则我们根据定义知道人口统计数据在人群中是相同的。
测试人口统计数据是否不同是没有意义的。仅有的两种可能性是你得到了一个不重要的结果/做出了正确的决定,或者你得到了一个重要的结果并因此犯了 I 类错误。
如果有理由相信人口统计数据与响应相关,您仍然可以在多元回归模型中对其进行控制。这将使您更有能力检测由于您的治疗而导致的差异。
如果您需要参考,您可以阅读:
您不能使用 t 检验来测试平衡,这被称为平衡测试谬误 - 它在 (Ho et. al, 2007) ( http://gking.harvard.edu/files/abs/matchp-abs) 中有描述。 shtml )
要点是:平衡是手头样本的特征,而不是某些总体 - 因此 p 值 < 0.05 并不意味着什么。此外,没有任何一点可以忽略不平衡,即使组间的微小差异也会转化为很大的偏差。因此,您应该始终尝试对(回归)模型中的差异进行建模,即使这些组具有几乎完美的平衡。
您的样本量问题在本文中得到了特别解决。您不能使用统计数据(在这种情况下为 t 检验)作为最小化目标!给定一个小样本,大的差异可能是微不足道的,给定一个大样本,小的差异可能是显着的。因此,通过查看变量的分布(QQ 图),直接测量平衡会更好。
统计显着性不是解释系数的唯一方法。虽然大样本量使您更有可能发现对照组和治疗组之间存在统计学上的显着差异,但您仍然需要查看系数的大小并确定它相对于手头的问题是否较大。同样,如果您测试许多变量的平衡,您可能会偶然发现一些显着不同的变量。
Repmat 是正确的。
如果您没有人口统计平衡,那么您的 t 检验不仅仅测试治疗效果,而是测试(治疗效果 + 演示差异)的综合效果。“演示差异” = 偏见。
如果不平衡持续存在,样本量无助于缓解这种情况。
如果您遇到不平衡的数据,没有原则性的方法来合法地清理/子集您的数据以获得平衡的、有代表性的样本,那么模型构建是控制不平衡的必要条件。