对单个分量表项目或分量表分数进行多重插补?

机器算法验证 spss 缺失数据 数据插补 结构方程建模
2022-04-02 07:42:34

最近我正在研究菲律宾的动机/态度变量(加德纳模型)与英语语言能力之间的关系。我遇到了一个问题:缺少值。我在研究中使用了 160 个项目的量表,由大约 10 个子量表组成,其中每个项目都有一个 7 点的李克特类型响应集,值从 1 到 7。一些受访者没有回答一些项目。

我想尝试使用 SPSS 18 进行“多重插补”。但我有一些问题,希望您能帮忙:

  1. 例如,变量“对外语的兴趣”采用 10 项 (Q1-Q10) 量表来衡量,但有些受访者留下了一些未回答的问题。同样,“对讲英语的人的态度”是通过 8 项(例如,Q11-Q18)量表来衡量的。我想知道我是否可以在具有变量名称的数据集上估算缺失值,例如“ID、性别、年龄、Q1、Q2、Q3、Q4、...Q18、最终成绩”?还是我真的必须先将项目相加才能在“多重插补”之前获得子量表分数?

  2. 在“多重插补”之前,我是否必须重新编码那些负面措辞的项目?例如,如果 Q1、Q3、Q5、Q7、Q9 是负面措辞,我是否必须先重新编码?

  3. 似乎 AMOS 18 无法对这些估算数据进行“计算估计”。你认为我应该只对每个缺失数据的五个估算值进行平均以获得一个新值,我可以从中构建一个新数据集,这样 AMOS 18 将只需要处理一个完整的数据集,而不是五个估算数据集加上原来的?平均五个估算值是“池化”的正确方法吗?

3个回答

我基本上同意wolf.rauch在这里所说的一切,并想讨论一些您可能可以使用的替代方案。

我的理解是,在被 IBM 收购之前,AMOS 已经拥有连续数据的 FIML(完整信息最大似然)至少十年——请参阅http://www.smallwaters.com/amos/faq/faqa-missdat.html,这是 2000 年左右离开该项目的原始开发人员之一的常见问题解答。如果您愿意忽略项目的序数性质,则可以使用此方法,而无需费心计算多重插补。

如果您不喜欢此解决方案,并且希望保留数据的分类性质,则需要找到带有序数链接的链式方程方法(如果 SPSS 有的话)。如果 SPSS 仅从多元正态分布中提取数据,那么您将回到忽略数据序数性质的情况,并且没有比 AMOS 的 FIML 更好的情况。(我不知道 SPSS 中有什么可用的,你必须弄清楚。最后,如果 AMOS 不支持多重插补,一切都将徒劳无功——再说一次,我不知道。)

如果您愿意考虑使用 Stata,那么您就有机会在其中进行分析,使用Patrick Roystonice或官方对序数数据进行多重插补的所有花里胡哨mi,然后是新sem套件。或者,您可以运行gllamm以获取序数数据的 FIML 估计值(尽管可能需要很长时间才能收敛)。

Q1:我想你不是在问变量是否与插补有关。我想您是在询问是否对原始数据或“尺度”进行多重插补,这意味着假定测量相同结构的原始数据变量的总得分。

鉴于您关心正确的方法(这很好),那么在对丢失的数据做任何事情之前,您想如何计算量表分数?答:您需要使用原始数据。

Q2:多重插补的工作原理是根据数据集中其他变量的值估计缺失值(这是非技术性解释)。因此,是否重新编码变量并不重要,如果重新编码意味着将关系的符号从一个变量更改为其他变量。我仍然建议在插补之前重新编码,以免之后您感到困惑。

Q3:我不知道为什么 AMOS 不计算估算值。我不太了解 AMOS,但用户指南似乎说它应该能够计算多重插补数据集的估计值。但无论如何都有一个一般性的答案:多重插补的全部意义在于您获得点估计,但还包含插补过程引入的额外变化。

这意味着:您不应使用单个“平均”数据集。相反,您使用所有估算的数据集。首先,您通过为每个数据集运行模型(我假设是结构方程模型)并获取点估计的平均值来获得模型参数的点估计,然后通过组合插补间方差(插补数据集之间的参数估计方差)与插补内方差(来自不同模型的估计标准误差的平均值)。请参阅有关多重插补的任何文本。一个简短的免费教程在这里:http ://rhowell.ba.ttu.edu/Enders-MissingHancock.pdf

有一篇很棒的文章比较了 Craig Enders 和同事的项目级和规模级插补(见这里;遗憾的是,需要机构访问)。

基本上,作者得出结论,项目级和量表级插补在量表估计中引入的偏差水平相似,但效率(例如功效)确实不同,量表级插补在力量。