必须满足哪些标准才能得出“天花板效应”正在发生的结论?

机器算法验证 分布 方差 心理测量学 测量
2022-03-24 23:15:34

根据SAGE 社会科学研究方法百科全书……

[a] 当一项措施具有明显的潜在反应上限并且大量参与者得分达到或接近该上限时,就会出现天花板效应。尺度衰减是一个方法问题,只要以这种方式限制方差,就会出现这种问题。……例如,在衡量态度时可能会出现天花板效应,其中高分表示良好的态度,而最高的反应未能获得最积极的评价。…天花板效应问题的最佳解决方案是试点测试,这样可以及早发现问题如果发现天花板效应,[并且]结果衡量标准是任务绩效,则可以使任务变得更加困难,以增加潜在响应的范围。1[重点补充]

似乎有很多建议问题这里)处理分析数据,这些数据显示出类似于上面引用中描述的天花板效应。

我的问题可能很简单或幼稚,但是如何实际检测到数据中存在天花板效应?更具体地说,假设创建了心理测试并怀疑会导致天花板效应(仅视觉检查),然后修改测试以产生更大范围的值。如何证明修改后的测试已经从它生成的数据中消除了天花板效应?是否有测试表明数据集a存在天花板效应但数据集b没有天花板效应?

我幼稚的方法是只检查分布偏斜,如果没有偏斜,则得出没有天花板效应的结论。是不是过于简单化了?

编辑

再举一个更具体的例子,假设我开发了一种仪器来测量一些潜在的特征x,它随着年龄的增长而增加,但最终趋于平稳并在老年时开始下降。我制作了第一个版本,其范围为 1-14,进行了一些试验,发现似乎可能存在天花板效应(在 14 或接近 14 时的大量响应,最大值.. 我得出的结论是查看数据。但是为什么呢?有没有严格的方法来支持这种说法?

然后我将度量值修改为 1-20 的范围并收集更多数据。我看到趋势更符合我的预期,但我怎么知道测量范围足够大。我需要再次修改它吗?从视觉上看,它似乎没问题,但是有没有办法测试它来证实我的怀疑?

在此处输入图像描述

我想知道如何在数据中检测到这种天花板效应,而不仅仅是查看它。图表代表实际数据,而非理论数据。扩大仪器的范围创造了更好的数据传播,但这是否足够?我该如何测试呢?


1 Hessling, R.、Traxel, N. 和 Schmidt, T. (2004)。天花板效应。在 Michael S. Lewis-Beck、A. Bryman 和 Tim Futing Liao (Eds.),SAGE 社会科学研究方法百科全书(第 107 页)。加利福尼亚州千橡市:Sage Publications, Inc. doi:10.4135/9781412950589.n102

3个回答

首先,我想说这两个图表都为我提供了明确的证据,证明存在天花板效应。只要观察的重要部分位于仪器范围的上限附近,我将如何尝试测量这种效果而不仅仅是视觉上的观察。通常来说,只要有重要部分的应试者在考试中获得最高分,就会始终存在天花板效应。

然而,话虽如此,测试分析技术已经取得了长足的进步,因为我们需要根据正确的分数直接解释仪器上的分数。我们现在可以使用项目反应理论来估计单个项目的项目参数,并使用这些项目来识别主题能力。当然,如果我们让测试变得过于简单,测试仍然会产生天花板效应。然而,由于项目反应理论的力量,我们应该能够在工具中放置至少几个足够高难度的项目,以便仅防止一小部分人口达到上限。

谢谢你的问题。这很有趣!

我想一个粗略且现成的方法就是随着规模的增加来测量方差。如果这显示减少,那么这就是天花板效应的证据,如果不是,则没有天花板效应。您可以制作方差图的同质性。Levene 的检验可能有助于确定方差在量表上的不同点是否存在差异。

决定围绕最高点或最低点的聚类是否是由于天花板/地板效应的关键问题是案例的值是否实际上“代表”了该值。当天花板/地板效应确实发生时,尽管假设最大值或最小值,某些情况实际上高于/低于最大值或最小值(想象一个成年人和一个孩子都完成了一个旨在测量的极其简单的数学测试一个人的数学能力,并且都得分 100%)。在这里,数据被审查。

当我们使用有界量表(例如具有固有上限和下限的 Likert 类量表)时,另一种情况也是可能的。完全有可能得分最高的人确实值得那个分数,并且所有得分最高的人之间不存在差异(例如上面的数学示例)。在这种情况下,数据在限制处被截断,而不是被审查。

基于上述推理,我认为应该设计一种程序来适应任何给定数据集的数据截断和数据审查。如果审查模型最适合数据,我认为可以得出结论,即存在天花板/地板效应。