向不同受众介绍高级统计数据的策略

机器算法验证 咨询
2022-02-15 07:05:04

我主要与医学、社会科学和教育等领域的非统计学家合作。

无论我是在咨询研究生、帮助研究人员撰写文章还是为期刊审阅文章,我经常遇到这样的问题,即某人(客户、作者、论文委员会、期刊编辑)想要使用一些相对知名的技术,但要么完全不合适或存在更好但鲜为人知的方法时。通常,我会解释替代技术,但随后会被告知“每个人都以另一种方式做事”。

我会对其他人如何处理这种困难感兴趣。

补充

@MichaelChernick 建议我可以分享一些故事,所以我会

目前,我正在与一个正在复制以前的论文并添加一个自变量以查看它是否有帮助的人一起工作。坦率地说,之前的论文很糟糕。它将依赖数据视为独立的;它非常过拟合,还有其他问题。然而,他(我的客户)提交了一个较早的版本作为论文,不仅获得了学位,而且因其研究而受到广泛赞誉。

很多次我都试图说服人们不要将变量二分法。这在医学中经常出现。我耐心地指出,将(例如)出生体重分为低体重和正常体重(通常为 2,500 克)意味着将 2,499 克的婴儿视为 1,400 克的婴儿;但对待这个 2,501 克的婴儿却完全不同。临床医生同意我的观点,这是愚蠢的。然后说要那样做。

很久以前我有一个研究生客户,他的委员会坚持进行聚类分析。学生不理解方法,方法没有回答有用的问题,但这是委员会想要的,所以这就是他们得到的。

整个统计图形领域对于许多人来说,“这就是爷爷的做法”就足够了。

然后有些人似乎只是按下按钮。我记得有一个演示文稿(不是我帮助过的人!),他做了整份问卷并对其进行了因素分析。她包括的变量之一是身份证号码!

哦。

4个回答

这是一个棘手的问题!

首先,关于为什么会发生这种情况的一些想法。我在一个确实(或至少应该)广泛使用统计数据的领域工作,但大多数从业者不是统计专家。因此,人们看到很多“我将一个向量放入 excel 的 t-test 函数中,这个数字掉出来了。因此,我的论文得到了统计数据的支持。”

我看到这种情况发生的主要原因是缺乏统计知识始于高层。如果你的审稿人和论文委员会没有及时了解统计技术,那么你需要证明使用任何“非常规”的东西是合理的。例如,在一篇论文中,我选择使用小提琴图而不是箱线图来显示分布的形状。使用这种技术需要在论文中提供大量文件,以及在我的辩护中进行长时间的讨论,所有委员会成员都想知道这个奇怪的情节意味着什么,尽管文本中的描述和对源材料的引用. 如果我只是使用了一个箱线图(它显示严格较少在这种情况下的信息,并且很容易在分布的形状上欺骗观察者,如果它是多模态的)没有人会说什么,我的辩护会更容易。

关键是,在非统计领域,从业者面临一个艰难的选择:我们可以阅读然后使用正确的方法,这需要我们上级都不感兴趣的一堆工作;或者我们可以顺其自然,在我们的论文和论文上盖上橡皮图章,继续使用不正确但传统的方法。

现在,回答你的问题:

我认为一个好的方法是强调未能使用正确技术的后果。这可能需要:

  • 举一个真实世界的例子,说明他们所在领域的某个人如何经历推理不力的后果。这在某些领域比其他领域更容易。职业生涯受损的例子尤其好。

  • 解释做不正确的分析会使你的结果不太可能转移到现实世界,这可能会造成伤害(例如,在我的领域,如果你的 AI 系统原型在统计上看起来比竞争对手好,但实际上是同样,然后花费接下来的 6 个月来构建一个完整的实现是一个非常糟糕的主意。

  • 选择可以节省用户大量时间的技术。有足够的时间让他们可以把省下来的钱花在向上级解释这些技术上。

站在一个只懂一点统计学的心理学家的角度说:介绍方法的同时,也要介绍工具。如果你告诉我这个领域的大多数研究人员一个关于一个伟大的新方法的长篇故事,他们会一直担心重点是“你所要做的就是复习你的微积分,然后再学两遍一周的培训课程!” (或“购买 2000 美元的统计数据包!”或“适应 5000 行 Python 和 R 代码!”)。然而,如果在他们已经使用的 stats 包中,或者在具有易于理解的 GUI 的免费软件中提供了该方法的实现,并且他们可以在一两天内加快速度,他们可能愿意提供试一试。

我知道这种方法看起来很贪婪且不科学,但是当人们担心资助和出版物时,很容易陷入这种情况,并且认为学习大量数学不可能帮助他们保住工作。

感谢彼得提出这个好问题。我在一家医学研究机构工作,与从事研究并在医学期刊上发表文章的医生打交道。通常,他们对发表论文更感兴趣,而不是“完全正确地进行统计”。所以当我提出一种不熟悉的技术时,他们会指着一篇类似的论文说“看他们是这样做的,结果发表了”。

当发表的论文真的很糟糕并且有错误时,我认为有一个问题。即使我有很高的声誉,也很难争论。有些医生自负很大,认为他们几乎可以学到任何东西。因此,他们认为自己理解统计数据,但他们不理解并且可以坚持。它可能会令人沮丧。当它在测试中并且 Wilcoxon 更合适时,我让他们进行 Wilk Shapiro 测试,如果正态性被拒绝,我们将两种方法都包括在内并解释为什么 Wilcoxon 更好。有时我可以说服他们,而且他们经常依赖我的统计数据,所以我比一般顾问更有影响力。

我还遇到了一种情况,我为他们做了 Kaplan-Meier 曲线,我们使用了对数秩检验,但 Wilcoxon 给出了不同的结果。我很难做出决定,在这种情况下,我认为最好同时介绍这两种方法并解释它们为何不同。对于生存曲线使用 Peto vs Greenwood 置信区间也是如此。解释 Cox 比例风险假设可能很困难,而且他们经常误解优势比和相对风险。

没有简单的答案。我在这里有一位老板,他是心脏病学的顶级医学研究员,他有时是期刊的审稿人。他正在查看一篇关于诊断并使用 AUC 作为衡量标准的论文。他以前从未见过 AUC 曲线,他来找我看我是否认为它是有效的。他有疑问。结果证明是合适的,我尽我所能向他解释。

我曾尝试向医生讲授生物统计学,并在公共卫生学校教授生物统计学。我试图比其他人做得更好,并在 2002 年与一位流行病学家合着了一本健康科学专业入门课程的书。威利现在要我做第二版。2011 年,我出版了一本更简洁的书,我试图只涵盖要点,以便忙碌的 MD 可以花时间阅读和参考它。我就是这样处理它的。也许你可以和我们分享你的故事。

这里已经有一些很好的评论,但我会投入我的 2 美分。我将首先说我假设我们正在谈论一种情况,即使用传统的“罐头”技术会破坏分析得出的实质性结论。如果不是这种情况,那么我认为有时进行过于简单化的分析是可以原谅的,因为目标受众是外行时,为了简洁和易于理解。当类内相关性为 0.02 时假设独立性或当真相为 .02 时假设线性是否真的是犯罪?log(x); x(1,2)? 我会说不。


在我的职业生涯中,我进行了大量跨学科研究,并在不同时期与药物滥用研究人员、流行病学家、生物学家、犯罪学家和医生密切合作。这通常涉及数据分析,其中通常的“固定”方法会因各种原因而失败(例如,有偏抽样和聚类、纵向和/或空间索引数据的某种组合)。我还花了几年时间在研究生院兼职咨询,在那里我与来自各个领域的人一起工作。所以,我不得不考虑很多。

我的经验是,最重要的是解释为什么通常的罐头方法是不合适的,并吸引人们做“好科学”的愿望。由于不恰当的统计分析,没有一位受人尊敬的研究人员愿意发表在其结论中公然误导的东西。我从来没有遇到过这样的人说“我不在乎分析是否正确,我只是想让这个发表”,尽管我确信这样的人存在——我的回应是尽可能结束职业关系。作为统计学家,如果一个真正知道他们在谈论什么的人碰巧阅读了这篇论文,我的声誉可能会受到损害。

我承认说服某人某个特定的分析是不合适的可能具有挑战性,但我认为作为统计学家,我们应该(a)拥有必要的知识,以准确了解“罐装”方法可能出现的问题,并且(b)拥有解释它的能力是一种合理理解的方式。除非您是统计学或数学教授,否则您工作的一部分将是与非统计学家一起工作(有时即使您是统计学/数学教授)。

关于(a),如果统计学家没有这方面的知识,他们为什么不鼓励罐头方法?如果统计学家说“使用随机效应模型”,但无法解释为什么假设独立性是一个问题,那么他们难道不会像客户一样屈服于教条吗?任何评论者,无论是否是统计学家,都可以对统计建模方法进行迂腐的批评,因为,让我们面对现实吧——所有模型都是错误的。但是,它需要专业知识才能确切知道可能出现的问题。

关于(b),我发现可能出现问题的图形描述通常最“命中”。例子:

  • 在 Peter 给出的关于对连续数据进行分类的示例中,说明为什么这是一个坏主意的最佳方法是以连续形式绘制数据并将其与分类形式进行比较。例如,如果您将响应变量设为二进制,则绘制连续变量与连续变量的关系图。x,并且,如果它看起来不像阶跃函数,那么您就知道离散化丢失了有价值的信息。如果这种差异不是很大或导致实质性结论发生任何变化,您也可以从图中看到这一点。

  • 当建议的模型“形式”(例如线性)不合适时。例如,如果回归函数“高原”像y=x为了x(0,1)y=1为了x>1那么线性拟合的斜率将太浅,并且根据数据,这可能会推动p- 值低于显着性,尽管两者之间存在明显的关系xy.

  • 另一个常见的情况(彼得也提到过)是解释为什么假设独立是一个坏主意。例如,您可以用图表显示正自相关通常会产生更“聚集”的数据,因此方差会被低估,从而直观地了解为什么朴素标准误差往往太小。或者,您还可以使用假定独立的拟合曲线绘制数据,并且可以直观地看到集群如何以独立数据中不存在的方式影响拟合(有效降低样本量)。

还有一百万个其他示例,但我在这里处理空间/时间限制:) 当图片由于任何原因(例如显示为什么一种方法功率不足)根本不起作用时,那么模拟示例也是我采用的一个选项时。