从这个问题开始:想象一下,您想在一个 5 点李克特项目(例如,对生活的满意度:不满意到满意)上测试两组(例如,男性和女性)的集中趋势差异。我认为 t 检验对于大多数目的来说足够准确,但是对组均值之间的差异进行引导测试通常会提供更准确的置信区间估计。你会使用什么统计测试?
5 点李克特项目的组差异
Clason & Dormody 讨论了李克特项目的统计检验问题(分析由单个李克特类型项目测量的数据)。我认为当两个分布看起来相似(钟形和等方差)时,自举测试是可以的。然而,分类数据的测试(例如趋势或 Fisher 检验,或序数逻辑回归)也会很有趣,因为它允许检查项目类别之间的响应分布,请参阅 Agresti 的分类数据分析书(第 7 章关于Logit 模型多项式响应)。
除此之外,您可以想象如果两组之间的响应分布严重不平衡,则 t 检验或任何其他非参数检验将失败的情况。例如,如果 A 组中的所有人都回答 1 或 5(比例相同),而 B 组中的所有人都回答 3,那么您最终会得到相同的组内平均值,并且测试根本没有意义,尽管在这种情况下同方差性假设在很大程度上被违反。
根据相关数据集的大小,置换测试可能比引导测试更可取,因为它可能能够提供对假设的精确测试(和精确的 CI)。
恕我直言,您不能对李克特量表使用 t 检验。李克特量表是有序的,仅“知道”变量值的关系:例如,“完全不满意”比“有点不满意”更糟糕。另一方面,t 检验需要计算均值等,因此需要区间数据。您可以将李克特量表分数映射到区间数据(“完全不满意”为 1 等),但没有人保证“完全不满意”与“不知何故不满意”的距离与“不知何故不满意”与“既不也不”的距离相同。顺便说一句:“完全不满意”和“有点不满意”有什么区别?因此,最后,您将对序数数据的编码值进行 t 检验,但这没有任何意义。
如果问卷中的每一项都是序数,我认为这一点没有争议,因为无法知道“非常同意”和“同意”之间的数量差异是否与“之间的数量差异相同”强烈不同意”和“不同意”,那么为什么所有这些序数水平尺度的总和会产生一个共享真实区间水平数据属性的值?
例如,如果我们从抑郁量表中解释结果,那么(至少对我而言)说得分为“20”的人的抑郁程度是得分为“的人的两倍是没有意义的。 10"。这是因为问卷中的每个项目都不是衡量抑郁程度的实际差异(假设抑郁是一种稳定的、内在的、器质性的疾病),而是衡量个人对特定陈述的主观评价。当被问到“你会说你的情绪在 1-4 的范围内有多沮丧,1 表示非常沮丧,4 表示完全不沮丧”,我怎么知道一位受访者的主观评分 1 与另一位受访者的主观评分相同? 或者我怎么知道 4 和 3 之间的差异是否与 3 和 4 的差异在人方面相同' s 当前的抑郁水平。如果我们不能知道这些,那么将所有这些序数项的总和视为区间水平数据是没有任何意义的。即使数据确实形成正态分布,我认为如果通过将所有对 likert-items 的响应相加来计算得分之间的差异,则将其视为区间水平数据是不合适的。数据的正态分布仅意味着响应可能代表更大的人口;这并不意味着从清单中获得的值具有区间水平数据的重要属性。如果通过将所有对likert-items的响应相加来计算得分之间的差异,则认为将得分之间的差异视为区间水平数据是合适的。数据的正态分布仅意味着响应可能代表更大的人口;这并不意味着从清单中获得的值具有区间水平数据的重要属性。如果通过将所有对likert-items的响应相加来计算得分之间的差异,则认为将得分之间的差异视为区间水平数据是合适的。数据的正态分布仅意味着响应可能代表更大的人口;这并不意味着从清单中获得的值具有区间水平数据的重要属性。
在行为科学中,我们需要小心我们如何使用统计数据来说明我们正在研究的潜在变量,因为由于没有直接的方法来测量这些假设的结构,所以当我们试图量化它们时会出现重大问题到参数测试。同样,仅仅因为我们为一组响应分配了值并不意味着这些值之间的差异是有意义的。