机器算法验证 - 基于可用的非缺失响应（即个人平均插补）计算尺度均值的适当性 - 吾爱随笔录

基于可用的非缺失响应（即个人平均插补）计算尺度均值的适当性

机器算法验证秤缺失数据

2022-03-15 09:20:56

这个问题是在咨询环境中提出的，我对你的想法很感兴趣。

语境

在 SPSS 语言中，在计算尺度平均值时处理偶尔丢失数据的一种策略如下所示：

COMPUTE depmean =  mean.4(dep1, dep2, dep3, dep4, dep5, dep6).
EXECUTE.

即，通过取六个项目的平均值来计算抑郁症等心理量表的平均值。如果参与者有四个或更多非缺失项，则返回非缺失项的平均值。如果参与者有三个或更少的非缺失项目，则返回缺失。

当然，量表中的项目数和用于计算平均值的阈值项目数可能会有所不同。

问题

一般来说，在什么情况下，您认为这种处理缺失数据的方法是合适的？
如果您认为它不合适，您会推荐什么替代程序？

3个回答

几年前，我认为在项目无响应的情况下应用人均值插补（人均值替换或案例均值插补）可能是一个好主意。然而，如今，在我看来，这种方法似乎很明显假设所有量表项目都具有相似的特征（相似的方差、标准差、项目难度等）。换句话说，如果一些受访者不回答困难/敏感/......项目，我会担心。

Bono et al (2007: 7)不太关心这种方法：

“个人平均插补需要用个人所有已完成项目的平均值替换那些未在给定规模上完成的项目。这与项目平均不同，其中对项目做出响应的整个样本的平均响应被替换. 个人均值插补可能会导致对每个缺少项目的人进行不同的替换。从好的方面来说，因为它没有替换一个常数值，所以它不会人为地减少测量的可变性，并且不太可能削弱相关性。缺点是随着缺失项目数量的增加，它往往会夸大可靠性估计。但是，当有缺失项目或在量表内缺失项目的受访者数量为 20% 或更少时，项目均值插补和个人均值插补都提供了对测量可靠性的良好估计。”

您可能还想检查

Craig K. Enders (2010)：应用缺失数据分析。（谷歌图书链接）
Downey RG, King C. (1998)：李克特评级中的缺失数据：替代方法的比较。

具有最小项目阈值的个人平均插补是一种简单的策略，用于在参与者错过偶尔反应的情况下保留量表分数。

一些一般原则

如果缺失数据很少（例如，在 10 项量表中，少于 5% 的参与者缺失一项），处理缺失数据的方法不太可能对实质性结论产生影响。
从第一原则的角度来看，插补方法应该提供对缺失项目响应的更稳健的估计，因为它们将项目和个人特征结合到估计缺失响应中。
设计研究以避免零星的项目缺失数据。

个人均值插补更合理的条件：

项目手段都差不多
相对于量表中的项目总数，缺失项目的阈值数量较低（例如，要求 20 个项目中的 19 个比 20 个项目中的 10 个更合适）
一般很少有缺失数据；在极端水平上，没有缺失数据，person-mean imputation 根本不会改变数据
丢失数据的原因是由于随机过程，例如意外跳过项目，没有明确指示响应等。
需要一个简单且标准化的规则来计算量表平均值（例如，测试手册可能需要一个规则，该规则可以以标准化方式应用于研究和样本）

避免量表项目的零星缺失数据

在更广泛的层面上，项目响应的个人平均估算是对使用各种研究设计策略通常可以避免的问题的响应：

问卷的计算机化管理可以防止（在道德允许的情况下）参与者跳过或丢失项目。
如果问卷是在纸上和亲自进行的，实验者可以在参与者离开房间之前查看问卷小册子以检查缺失的数据。

还有一条建议：确保完整的 6 项综合量表是可靠的，并且所包含的项目都不会降低量表的可靠性。如果不满足这些条件，即使在数据完整的情况下也不应该对它们进行平均。如果满足这些条件，那么对缺少数据的案例使用项目子集不会使您的结果产生偏差（假设您正在平均或添加项目的 z 分数转换，正如您在形成聚合李克特量表时始终应该做的那样） ; 它只会使它变得比应有的嘈杂（b / c您依赖的项目更少，因此消除了与每个项目相关的随机测量误差）。（不过，最好的解决方案是多重插补，再次假设复合尺度是可靠的。）

其它你可能感兴趣的问题

上一篇测试正态性下一篇带 LASSO 的 Cox 模型