Joel Spolsky 的“Hunting of the Snark”发布了有效的统计内容分析吗?

机器算法验证 可靠性 协议统计 方法
2022-01-16 15:15:18

如果您最近一直在阅读社区公告,您可能已经看过StackExchange 网络首席执行官Joel Spolsky 在 StackExchange 官方博客上的一篇文章The Hunting of the Snark 。他讨论了对 SE 评论样本进行的统计分析,以从外部用户的角度评估他们的“友好度”。这些评论是从 StackOverflow 中随机抽取的,内容分析师是亚马逊 Mechanical Turk 社区的成员,这是一个工作市场,将公司与以负担得起的费用完成小型、短期任务的工人联系起来。

不久前,我还是一名政治学研究生,我上的一门课是统计内容分析这门课的最后一个项目,实际上是其全部目的,是对《纽约时报》的战争报道进行详细分析,以测试美国人对战争期间新闻报道所做的许多假设是否准确(剧透:证据表明他们是不是)。这个项目很大而且很有趣,但到目前为止,它最痛苦的部分是“培训和可靠性测试阶段”,它发生在我们进行全面分析之前。它有两个目的(有关详细说明,请参阅链接论文的第 9 页,以及内容分析统计文献中对编码器间可靠性标准的参考):

  1. 确认所有编码人员,即内容的读者,都接受过相同定性定义的培训。在 Joel 的分析中,这意味着每个人都会确切地知道该项目是如何定义“友好”和“不友好”的。

  2. 确认所有编码人员都可靠地解释了这些规则,即我们对样本进行了抽样,分析了子集,然后在统计上证明了我们在定性评估上的成对相关性非常相似。

可靠性测试很痛苦,因为我们不得不做三四次。在 -1- 被锁定并且 -2- 显示出足够高的成对相关性之前,我们对全面分析的结果是值得怀疑的。它们无法被证明有效或无效。最重要的是,我们必须在最终样本集之前进行可靠性试点测试。

我的问题是:Joel 的统计分析缺乏试点可靠性测试,也没有建立任何“友好”的操作定义。最终数据是否足够可靠,足以说明他的结果的统计有效性?

从一个角度来看,请考虑这本关于编码器间可靠性和一致操作定义价值的入门书。从同一来源的更深处,您可以阅读有关试点可靠性测试的信息(列表中的第 5 项)。

根据 Andy W. 在他的回答中的建议,我正在尝试使用 R 中的这个命令系列(在计算新统计数据时更新)计算数据集的各种可靠性统计数据,这些数据可在此处获得。

描述性统计在这里

百分比一致性 (公差 = 0):0.0143

百分比一致性(公差 = 1):11.8

Krippendorff的 alpha: 0.1529467

我还在另一个问题中尝试了针对此数据的项目响应模型。

2个回答

百分比一致性(公差 = 0):0.0143

百分比一致性(公差 = 1):11.8

Krippendorff 的 alpha:0.1529467

这些一致性度量表明实际上没有明确的一致性——每个编码员都有自己的内部分界点来判断评论是“友好”还是“不友好”。

如果我们假设三个类别是有序的,即:不友好 < 中立 < 友好,我们还可以计算类内相关性作为另一种一致性度量。在 1000 条评论的随机样本中,ICC (2,1) 为 0.28,ICC (2,k) 为 0.88。这意味着,如果您只选择 20 位评估者中的一位,结果将非常不可靠(0.28),如果您取 20 位评估者的平均值,结果是可靠的(0.88)。采用三个随机评分者的不同组合,平均信度在 0.50 到 0.60 之间,仍然会被认为太低。

两个编码器之间的平均双变量相关性为 0.34,这也是相当低的。

如果这些一致性度量被视为编码员的质量度量(他们实际上应该表现出良好的一致性),那么答案是:他们不是优秀的编码员,应该接受更好的培训。如果这被视为“随机人之间的自发协议有多好”的衡量标准,那么答案也是:不是很高。作为基准,身体吸引力评级的平均相关性约为 0.47 - 0.71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000)。美的格言还是神话?元分析和理论综述。心理公报,126, 390–423。doi:10.1037/0033-2909.126.3.390

分数的可靠性经常用经典测试理论来解释。这里有一个真实分数,X但是您在任何特定结果中观察到的不仅是真实分数,而且是带有一些错误的真实分数(即Observed = X + error)。理论上,通过对同一个基础测试进行多次观察测量(对这些测试的误差分布做出一些假设),然后可以测量未观察到的真实分数。

请注意,在此框架中,您必须假设您的多个观察到的度量正在测量相同的基础测试。然后经常将测试项目的低可靠性作为观察到的测量没有测量相同的基础测试的证据。这只是该领域的惯例,但可靠性差本身并不能证明(在任何统计意义上)这些项目没有测量相同的结构。因此可以说,通过采取许多观察到的措施,即使是非常不可靠的测试,也可以得出对真实分数的可靠测量。

还值得一提的是,经典测试理论不一定是解释此类测试的唯一方法,许多学者会争辩说,潜在变量和项目反应理论的概念总是比经典测试理论更合适。


经典测试理论中类似的隐含假设是当人们说可靠性太高时。它没有说明特定项目是否测量某些基础测试的有效性,但是当可靠性太高时,研究人员将其作为测试之间的错误不独立的证据。

我不太确定您为什么如此热衷于不进入并自己计算可靠性。为什么不能这样做,然后根据这些额外信息解释分析?