可以有效地减少已发布的李克特量表中的项目数量吗?

机器算法验证 心理测量学 可靠性 李克特
2022-03-08 13:20:49

[根据反馈进行的编辑-谢谢:-)]

嗬!更多编辑!对不起!

你好-

我正在做一些相当粗略和现成的数据收集,并使用已发布的有关士气和其他此类问题的量表向医护人员发送调查。

唯一的问题是,调查中的所有其他内容的量表都相当长,我想通过将每个子量表切成两半并只使用一半的项目来减小它的大小。我的直觉是这很好,因为分量表是相互关联的,虽然它对于出版标准的研究并不理想,但对于一些组织内的事实发现来说还可以。

我想知道是否有人对这样做的有效性、陷阱或其他任何事情有任何想法。特别感谢参考文献,因为我的同事需要一些说服力!

非常感谢,克里斯 B

编辑——

是的,它是一个经过验证的量表,具有已知的心理测量特性。

它是一维的,并且有子尺度,如果这是正确的表达方式的话。

我将在子量表和总水平上工作,而不是在项目水平上工作。

30个项目,大概40-60个人。

干杯!

4个回答

虽然仍然缺少一些信息(每个分量表的个人和项目数),但这里有一些关于缩减规模的一般提示。此外,由于您是在问卷级别工作,我不明白为什么它的长度如此重要(毕竟,您只会提供汇总统计数据,例如总分或平均分)。

我将假设(a)你有一组 K 项衡量与士气相关的一些结构,(b)你的“一维”量表是一个二阶因素,可以细分为不同的方面,(c)你想将您的量表减少到 k < K 项,以便在保持量表的内容效度的同时,以足够准确的方式总结受试者的总量表分数。

关于这个经过验证的量表的内容/结构效度: 项目的数量肯定是为了最好地反映感兴趣的结构而选择的。通过缩短问卷,您实际上是在减少结构覆盖率。当只考虑一半的项目时,最好检查因子结构是否保持不变(毕竟这也可能影响您选择它们​​的方式)。这可以使用传统的 FA 技术来完成。您有责任以与作者相似的精神解释量表。

关于分数可靠性:虽然它是一个依赖于样本的度量,但随着项目数量的减少,分数的可靠性会降低(参见Spearman-Brown 公式);另一种观察方式是测量标准误差 (SEM) 会增加,但请参阅Leo M Harvill的 An NCME Instructional Module on Standard Error of Measurement不用说,它适用于依赖于项目数量的每个指标(例如,可用于估计一种形式的可靠性,即内部一致性的 Cronbach 阿尔法)。希望这不会影响基于原始分数的任何组间比较。

所以,我的建议(最简单的方法)是:

  1. 选择您的项目以最大化构建覆盖范围;用 FA 检查维数,用单变量响应分布检查覆盖率;
  2. 将平均项目间相关性与先前报告的相关性进行比较;
  3. 计算全尺寸和复合材料的内部一致性;检查它们是否与原始量表上公布的统计数据一致(无需测试任何东西,这些是依赖于样本的测量);
  4. 测试原始分数和降低(子)分数之间的线性(或多变量,或等级)相关性,以确保它们具有可比性(即,潜在特征上的个体位置在很大程度上没有变化,如通过原始分数客观化​​的那样);
  5. 如果您有一个特定于主题的外部变量(例如,性别、年龄或与士气相关的最佳衡量标准),请比较两种形式之间的已知组有效性。

困难的方法是依靠项目响应理论来选择那些携带最大潜在特征信息的项目——规模缩减实际上是其最佳应用之一。在此线程验证问卷中部分描述了多头项目的模型

第二次更新后更新

  1. 忘记任何 IRT 模型,用于具有如此少主题的多分项。
  2. 因子分析也将受到如此低的样本量的影响;你会得到不可靠的因子载荷估计。
  3. 30 个项目除以 2 = 15 个项目(很容易了解总分相应 SEM 的增加),但如果考虑子量表,它肯定会变得更糟(这实际上是我的第二个问题——No. items每个分量表,如果有的话)

我想您的问题没有明确的“是/否”答案。如果您随意从子量表中删除项目以创建原始问卷的简短形式,您将失去长形式的心理测量验证。可以改变的是问卷的因子结构、子量表的可靠性、项目与总相关性等(你会注意到我习惯于经典的测试理论思维,而不是 IRT)。另外,您不能使用原始问卷的任何标准化。这就是为什么简短形式的既定问卷必须经过单独的验证阶段。

但是,根据您的要求,一切都不会丢失。您可能不需要标准化,因为您可能只想比较样本中的结果而不对参考人群做出“绝对”判断。恕我直言,如果您有机会至少为您小组的子样本验证简短表格与原始表格,那将是一个加分项。这可以让您查看结果是否相似。

但总的来说,问卷的结果可能对其项目组成非常敏感。人们不会自动填写问卷,而是会做出各种隐性假设和认知推断:“这到底是关于什么的?”、“我希望在这里报告什么?”、“他们真正想知道什么?”。这可能会受到项目给定上下文的严重影响,参见。Schwarz, N. 1996。认知与交流:判断偏差、研究方法和对话逻辑。新泽西州马瓦:劳伦斯·厄尔鲍姆。

我要补充一点。

注意组(例如,比较组平均值随时间变化)和个人水平测量(例如,将量表上的分数与个人水平上的其他量表相关联)之间的区别。

可靠性以不同的方式应用于这两个级别。也许以下简化会有所帮助:

  • 组级测量的可靠性很大程度上受参与者数量和组级真正可变性程度的影响。
  • 个人水平测量的可靠性很大程度上受您拥有的项目数量和个人真正变化的程度的影响。