SPSS中多元回归的多重插补问题

机器算法验证 spss 多重回归 数据转换 多重插补
2022-03-27 05:42:23

我目前正在使用估算数据运行多元回归模型,并且有几个问题。

背景:

使用 SPSS 18。我的数据似乎是 MAR。案例列表删除只剩下 92 个案例,多重插补留下 153 个案例进行分析。满足所有假设 - 转换一个变量对数。9 IV 的 5 - 5 分类,3 等级,1 区间。DV 规模。使用标准多元回归的enter方法。

  • 我的 DV 是前分数和后分数测量之间的分数差异,这两个变量都缺少一些案例 - 我应该为每个变量估算缺失值,然后计算它们之间的差异来计算我的 DV (我该怎么做),或者我可以为我的 DV 估算数据吗?哪种方法最合适?
  • 我应该对转换后的数据还是倾斜的未转换数据进行插补?
  • 我应该将所有变量都输入到插补过程中,即使它们没有丢失数据,还是应该只为丢失超过 10% 案例的变量插补数据?

我已经对列表删除的案例进行了回归,并且我的 IV 对我的 DV 中的方差几乎没有影响,随后我在多重插补后对完整文件运行了回归 - 结果非常相似,因为我的 9 IV 仍然仅预测我的 DV 中大约 12% 的方差,但是,现在我的一个 IV'S 表明它正在做出重大贡献(这恰好是一个对数转换变量)......

  • 如果我的结论之间几乎没有差异,我应该报告原始数据 - 即我的 IV 对 dv 的预测不佳,还是报告完整的数据?
2个回答
  1. 您是否应该同时估算前后得分或差异得分,取决于您如何分析前后差异。您应该知道,差异分数的分析存在合理的限制(参见 Edwards,1994 年的一篇很好的评论),并且在控制前分数后分析后分数残差的回归方法可能会更好。在这种情况下,您需要估算前分数和后分数,因为这些是您的分析模型中的变量。但是,如果您打算分析差异分数,请估算差异分数,因为您不太可能希望手动计算所有估算数据集的差异分数。换句话说,无论您在实际分析模型中使用什么变量,
  2. 同样,我会用转换后的变量进行估算,因为这是您的分析模型中使用的。
  3. 向插补模型添加变量将增加插补过程的计算需求,但是,如果你有时间,更多的信息总是更好。具有完整数据的变量可能是解释 MAR 缺失的非常有用的辅助变量。如果使用所有变量导致对插补模型的时间/计算要求太高(即,如果您有一个大数据集),请为每个变量的每个案例的缺失创建虚拟变量,并查看哪些完整变量可以预测逻辑中的这些缺失变量模型——然后在你的插补模型中包含那些特定的完整案例变量。
  4. 我不会报告原始(即,按列表删除)分析。如果你的缺失机制是 MAR,那么 MI 不仅会给你增加力量,还会给你更准确的估计(Enders,2010)。因此,MI 的显着影响对于列表删除可能不显着,因为该分析的能力不足、有偏见或两者兼而有之。

参考

小爱德华兹 (1994)。回归分析作为差异分数的替代方法。管理杂志20,683-689

恩德斯,CK (2010)。应用缺失数据分析纽约,纽约:吉尔福德出版社。

以我的经验,SPSS 的插补功能很容易使用,无论是在创建数据集还是在分析和合并生成的插补数据集时。然而,它的易用性也是它的缺点。如果您在统计软件中查看类似的插补函数R(参见例如mice软件包),您会看到更多选项。请参阅Stef van Buurens 网站,以获得对一般多重插补的出色解释(使用或不使用 mouse 包)。

需要注意的是,这些附加选项并非仅适用于高级用户的“豪华”选择,这一点非常重要为了获得适当的一致性,一些是必不可少的,特定缺失变量的特定模型,特定缺失变量特定预测因子插补诊断等等,这些在 SPSS 插补函数中不可用。

至于你的问题:

  1. 当您想要保留前后分数之间的关系以及差异(如 jsakaluk 回答)时,估算前后分数并被动替换缺失的差异是合适的。在您的情况下,当您想要构建一个模型时,可能会出现这种情况,其中前后得分的差异作为结果/因变量,基线(前得分)作为(其中一个)预测变量/独立变量。
  2. 任何用于替换缺失值的模型都应遵守其假设。这意味着要替换连续变量,您需要遵守线性回归模型的假设(在最简单的情况下)。对于线性回归和大多数其他回归模型,预测变量不需要是正态分布的,但是模型的残差必须是!因此,如果是后者,则可能需要进行一些转换。
  3. 请参阅 jsakaluk 的回答。但是请注意,SPSS 使用大量插补,这基本上意味着所有输入的变量都用于替换带有缺失案例的变量。如果您只有一个变量缺失,这没有问题。但是,如果您有多个,这意味着缺少的变量也用于完成其他缺少的变量。这可能不是问题,但在某些情况下,这会产生反馈循环,使您的最终插补值产生偏差。必须通过在整个插补迭代中寻找趋势来检查这一点,而不是“稳定”替换值。
  4. 我同意 jsakaluk 对此的回答。如果您因为怀疑选择性缺失而决定“不信任”您的完整数据,并通过使用多重插补技术(我认为这确实是偏差最小)来解决或部分补救,那么您的多重插补结果应该是您的主要结果显示。遗憾的是,经验表明,审稿人或其他感兴趣的人有时也确实希望看到完整的案例分析(所以请随身携带)。