如果您最近一直在阅读社区公告,您可能已经看过StackExchange 网络首席执行官Joel Spolsky 在 StackExchange 官方博客上的一篇文章The Hunting of the Snark 。他讨论了对 SE 评论样本进行的统计分析,以从外部用户的角度评估他们的“友好度”。这些评论是从 StackOverflow 中随机抽取的,内容分析师是亚马逊 Mechanical Turk 社区的成员,这是一个工作市场,将公司与以负担得起的费用完成小型、短期任务的工人联系起来。
不久前,我还是一名政治学研究生,我上的一门课是统计内容分析。这门课的最后一个项目,实际上是其全部目的,是对《纽约时报》的战争报道进行详细分析,以测试美国人对战争期间新闻报道所做的许多假设是否准确(剧透:证据表明他们是不是)。这个项目很大而且很有趣,但到目前为止,它最痛苦的部分是“培训和可靠性测试阶段”,它发生在我们进行全面分析之前。它有两个目的(有关详细说明,请参阅链接论文的第 9 页,以及内容分析统计文献中对编码器间可靠性标准的参考):
确认所有编码人员,即内容的读者,都接受过相同定性定义的培训。在 Joel 的分析中,这意味着每个人都会确切地知道该项目是如何定义“友好”和“不友好”的。
确认所有编码人员都可靠地解释了这些规则,即我们对样本进行了抽样,分析了子集,然后在统计上证明了我们在定性评估上的成对相关性非常相似。
可靠性测试很痛苦,因为我们不得不做三四次。在 -1- 被锁定并且 -2- 显示出足够高的成对相关性之前,我们对全面分析的结果是值得怀疑的。它们无法被证明有效或无效。最重要的是,我们必须在最终样本集之前进行可靠性试点测试。
我的问题是:Joel 的统计分析缺乏试点可靠性测试,也没有建立任何“友好”的操作定义。最终数据是否足够可靠,足以说明他的结果的统计有效性?
从一个角度来看,请考虑这本关于编码器间可靠性和一致操作定义价值的入门书。从同一来源的更深处,您可以阅读有关试点可靠性测试的信息(列表中的第 5 项)。
根据 Andy W. 在他的回答中的建议,我正在尝试使用 R 中的这个命令系列(在计算新统计数据时更新)计算数据集的各种可靠性统计数据,这些数据可在此处获得。
百分比一致性 (公差 = 0):0.0143
百分比一致性(公差 = 1):11.8
Krippendorff的 alpha: 0.1529467
我还在另一个问题中尝试了针对此数据的项目响应模型。