GLM 关于不平衡设计

机器算法验证 回归 线性模型 不平衡类 平方和
2022-03-25 14:56:38

我有一个包含 200 名男性和 250 名女性的数据集,我正在测试他们对 X 和 Y 之间关系的反应。

X 和 Y 是连续的,X1(性别)是分类的。

我正在使用 SPSS 中的一般线性模型来测试主效应和交互作用。

据我了解,这是一个“不平衡”的设计,因为两组(男性和女性)的大小不一样。

问题

  1. 在这种情况下使用平方和(类型 III)是否合适?
  2. 我有什么替代方法来分析这些数据?
2个回答
  1. 回归模型允许您跨预测变量定义的组显式借用信息。具有平衡设计仅意味着所有此类组具有以相同精度估计的效果(在回归假设下:正确的均值模型,同方差)。这对于证明统计模型的合理性很少(如果有的话)是必要的。传统上,考虑平衡设计有两个原因:评估随机化在临床试验中是否真正随机化,以及证明某些研究设计与简单随机样本之间的差异。事实上,只要研究人员遵守他们的抽样协议,不平衡设计通常更有效、更有效。为了澄清 SSIII 点,这基本上是主要影响的 F 检验,这是一个明智的检验。

  2. 假设您在 GLM 中使用线性链接来获得连续结果,那么还有其他选择。但是,我觉得您当前的方法似乎很可靠,除非我不知道数据中存在任何严重的困难。对连续数据的一种传统考虑是是否需要进行转换,例如对数转换。如果您有兴趣使用 base-2 对数变换来估计 X 单位差异的 Y 差异的“比率”(即受试者在相差 1 'X' 的那些中的“Y”的 2 倍)感兴趣,这将是一个选择. 还有一些排名统计数据我觉得很难解释,但可能是对严重偏斜数据的敏感性分析。

顺便说一句:如果您在“表 1”中显示此数据,我建议您不要显示 p 值以保持平衡。它可能会误导认为您的设计依赖于这些特征的审阅者和/或读者。您只需要明确说明您的抽样方法,否则此模型听起来像是一种有效的方法。

正常的 GLM 方法在不平衡设计上工作得很好(前提是你没有使用为平衡情况而简化的表达式——体面的软件可以正常工作)。不平衡设计的功率比平衡设计要小,但 250 与 200 的效果不会那么大。