这是一个很好的问题,很高兴看到 StackExchange 进行的分析受到了其专家的严格要求!然而,“从学术角度”评估博客文章有点困难,因为博客文章的严谨程度与学术界已发表的学术作品有很大不同。
作为一般意见,我首先要指出的是,博文中的分析不如我在学术论文中所期望的那样严谨,并且研究和分析的许多方面没有具体说明。这不一定是不合理的,因为博客文章通常不是针对有关该主题的学术论文的详细程度和严谨性。博客文章通常针对非专业受众,不能假定他们具有任何统计知识或培训,因此为简洁起见,将详细统计分析中的信息类型剥离并不一定是不合理的。他们收集的数据在我看来是一个庞大而令人印象深刻的项目,所以我的总体印象是好的。
另一个需要注意的重要事情是区分探索性数据分析和验证性数据分析很重要。该项目似乎属于前一类,因为它不寻求检验预先存在的假设。鉴于此,必须小心为假设提供正式的统计检验。特别是,如果假设是通过查看探索性数据形成的,那么使用相同数据对这些假设进行的正式测试将偏向于接受假设。在 EDA 中,通常最好避免正式的假设检验,除了在查看数据之前合理要求的差异的一般检验。
话虽如此,如果作者能够支持这篇博文,更详细地阐述他们的研究机制和建模(例如,在已发表的论文中,或者甚至只是一篇更详细的针对统计学家)。为了达到让统计学家信服的水平,他们需要在某些领域提供更多细节,特别是在抽样机制和建模方面。如果他们共享基础数据——适当地匿名——这样其他人可以对数据进行建模,那就更好了!就本文的缺点而言,我认为需要加强一些主要问题才能使其成为更严格的介绍。
不明确的抽样机制:从帖子中抽取评论并将其呈现给参与者的机制尚不清楚。是给定时间段内的所有评论都提交审查,还是只是一个样本?如果是后者,它是一个随机样本,还是由研究人员自行决定选择的?
群体效应与问题效应的界限不明确:博客文章中显示的指标都是每个用户的度量,没有任何调整来考虑该用户的评论。目前尚不清楚不同用户评分的评论类型是否存在系统差异,是否可以通过统计方法过滤掉。我们被告知,总体组差异是“......对于比较显示相同评论、评分相同数量的评论和其他分析方法的组非常有效。” 然而,后一种分析没有显示或描述。
不确定性度量:该帖子显示了每组的平均评级,图表直观地展示了每个参与者的平均评级分布。然而,除了以图形方式呈现的那些之外,没有估计“真实”组均值/中值的统计度量(例如,置信区间等)。也没有显示单个参与者的评分差异的相对大小,以及不同参与者的中位数评分的分布。
假设检验:在该分析中省略正式检验可能是积极的,因为它似乎是一项探索性研究,而不是对预先存在的假设的验证性分析。从他们观察到的数据中,作者指出“[o]ur 项目表明,个人与 Stack Overflow 的联系越深(作为员工或版主),他们就越有可能在此类评论中看到问题。” 由于 Tukey 在他对 EDA 和 CDA 的分析中详细阐述的原因(例如,参见Behrens 1997),我认为这个“结论”实际上应该被视为通过观察数据形成的探索性假设,因此应该用后续研究中的新数据。
作为最后的评论,我想重申,上述问题只是从试图进行更严格分析的角度来看的缺点- 就外行观众的博客文章而言,他们的遗漏可能是完美的合理的。博文的作者都是具有统计分析背景的数据科学家,所以我相信他们已经意识到这些问题,如果他们决定将博文写成更严谨的论文,他们会相应地处理这些问题.