当我将分级响应模型应用于“Hunting of the Snark”数据集时,我在测量什么?

机器算法验证 心理测量学 可靠性 协议统计
2022-04-10 13:03:24

另一个问题中,我询问了 StackExchange 的“Hunting of the Snark”数据集的统计有效性,以及我们是否可以从其结果中得出任何结论。我测量了一些可靠性系数以更好地理解它们;现在,根据Andy W. 的建议,我正在尝试创建一个项目响应模型。

首先,警告:我不是任何学科的合格统计学家。自从我出于任何目的进行统计分析以来已经有好几年了,当时我还不是很擅长。尽管如此,这很有趣。我很乐意运行我可以在 R 中合理完成的任何分析。

数据集可在此处获得。我截断了除最后 20 列之外的所有列。我还稍微清理了数据。在某些情况下,“不友好”被拼写为“UIfriendly”。在第 4352 行中,19 和 20 两个受访者用“0”代替了回答。鉴于数据集其余部分的组织方式,我假设这是空数据,因此我将这两个响应设为空。

在阅读了序数数据建模的这个例子(特别是第 3.2 节)这个关于 R 中“ltm”包的演示文稿之后,我得出结论我的结果是多分的,我需要一个分级响应模型。我首先收集了数据集的描述性统计数据。他们的建议不足为奇:“中性/不清楚”是最常见的回答;没有评论是普遍友好的;有些人普遍不友好;受访者的中立回答频率差异很大(请参阅我的另一个问题,了解一些受访者同意的衡量标准)。

然后我的消息来源建议使用Kendall 的 tau计算数据的非参数相关系数,我在这里已经完成了(您需要切换文本换行) 。如果我正确阅读了这些结果,我相信它们暗示了受访者之间存在某种关联。

最后,我运行了分级响应模型。我的一个消息来源建议同时拟合“受约束”和“不受约束”模型,并将两者与 ANOVA 测试进行比较。完整结果链接到它们各自的模型,如下所示。我在这里粘贴了摘要行,以及 ANOVA 的结果:

受约束的 GRM:

Model Summary:
    log.Lik      AIC    BIC
    -96657.64 193401.3 193696

不受约束的 GRM:

Model Summary:
    log.Lik      AIC    BIC
    -96141.05 192406.1 192831

方差分析:

Likelihood Ratio Table
          AIC    BIC   log.Lik     LRT df p.value
fit1 193401.3 193696 -96657.64                   
fit2 192406.1 192831 -96141.05 1033.18 19  <0.001

如果我正确地阅读了 ANOVA LRT,看起来无约束模型更适合,所以让我们绘制它。每个人都喜欢图表。在我可以发布的众多帖子中,我选择了四个:20 位受访者的组合项目信息曲线,以及“友好”(类别 1)、“中立/不清楚”(类别 2)和“不友好”(第 3 类)。我很高兴发布任何其他可能有用的信息。它们分别是:

情节1: 组合IIC

情节2: 第 1 类——“友好”

情节3: 第 2 类——“中性/不清楚”

情节4: 第三类——“不友好”

我缺乏解释这些结果的培训,所以我希望有人可以。我测量了什么,如果有的话,我可以得出什么结论?

1个回答

您所做的分析有些不合常规。使用 GRM,您通常希望找到关于潜在一维特征的每条评论,从不友好到友好。因此,人们会使用几个多分,这些项是潜在特征的指标。在您的分析中,您将不同的评分者视为“项目”。

图 1为您提供项目(即评估者)信息曲线:曲线越高,特征相应区域的可靠性越好。这意味着,偏红的评分者擅长区分友好和不友好的评论,但在区分中性评论方面不太好。偏绿色的评分者通常在区分评论方面更差(他们的曲线总体较低),尤其是友好的评论。

接下来的三个图(这些是 ICC 图)为您提供与第一个图基本相同的信息:ICC 图中的曲线越陡峭,获得的信息越多。

有趣的是,似乎有两种类型的评估者:宽松的和苛刻的。绿色的评分者相当宽松:他们在友好中立之间以及中立不友好之间的界限向右移动(如图2-4所示)。这意味着,当评论将潜在特征从友好变为不友好时,他们稍后会将类别切换为中性和不友好。