所有模型都没用吗?是否有任何确切的模型可能——或有用?

机器算法验证 机器学习 最大似然 造型 非参数 目标最大似然
2022-02-03 07:52:01

这个问题在我的脑海里酝酿了一个多月。2015 年 2 月的Amstat News包含伯克利教授 Mark van der Laan的一篇文章,该文章谴责人们使用不精确的模型。他指出,通过使用模型,统计学成为一门艺术而不是一门科学。据他说,人们总是可以使用“确切的模型”,而我们不这样做会导致“缺乏严谨性……我担心我们在数据科学中的代表性正在被边缘化。”

我同意我们有被边缘化的危险,但威胁通常来自那些声称(听起来很像范德兰教授,似乎)他们没有使用某种近似方法,但实际上他们的方法要少得多的人比仔细应用的统计模型更严格——甚至是错误的统计模型。

我认为公平地说,范德兰教授相当鄙视那些重复 Box 经常使用的名言的人,“所有模型都是错误的,但有些模型是有用的。” 基本上,当我读到它时,他说所有模型都是错误的,而且都是无用的。现在,我有什么资格不同意伯克利教授的观点?另一方面,他是谁如此漫不经心地否定了我们这个领域真正巨头之一的观点?

van der Laan 博士在详细阐述时指出,“说所有模型都是错误的完全是一派胡言……例如,不做任何假设的统计模型总是正确的。” 他继续说:“但通常,我们可以做得比这更好:我们可能知道数据是独立相同实验的结果。” 除了非常狭窄的随机抽样或受控实验设置外,我看不出人们如何知道这一点。作者指出了他在目标最大似然学习和目标最小基于损失的学习方面的工作,“整合了机器学习/数据自适应估计的最新技术、因果推理、审查数据、效率和经验方面的所有令人难以置信的进步过程理论,同时仍然提供正式的统计推断。”n

也有一些我同意的说法。他说,我们需要认真对待我们的工作、我们作为统计学家的角色以及我们的科学合作者。听听!如果人们经常使用逻辑回归模型或其他模型,而没有仔细考虑它是否足以回答科学问题或是否适合数据,这当然是个坏消息。我确实在这个论坛上发布的问题中看到了很多这样的滥用行为。但我也看到了不精确模型的有效和有价值的用途,甚至是参数模型。与他所说的相反,我很少“被另一个逻辑回归模型无聊到死”。这就是我的天真,我猜。

所以这是我的问题:

  1. 使用完全不做任何假设的模型可以做出哪些有用的统计推断?
  2. 是否存在案例研究,在使用目标最大似然时具有重要的真实数据?这些方法是否被广泛使用和接受?
  3. 所有不精确的模型真的没用吗?
  4. 除了琐碎的情况外,是否有可能知道您拥有确切的模型?
  5. 如果这太基于意见,因此离题,可以在哪里讨论?因为van der Laan 博士的文章确实需要一些讨论。
4个回答

引用的文章似乎是基于担心统计学家“不会成为科学团队的内在组成部分,科学家们自然会对所使用的方法产生怀疑”,并且“合作者会将我们视为他们可以引导获得的技术人员”他们的科学成果发表了。” 我对@rvl 提出的问题的评论来自一位非统计学家生物科学家的观点,在过去几年中,当我从基准研究转向转化/临床研究时,他被迫应对日益复杂的统计问题。现在这个页面上的多个答案清楚地回答了问题 5;我将从那里以相反的顺序进行。

4) 是否存在“精确模型”并不重要,因为即使存在,我也可能负担不起研究费用。在讨论的背景下考虑这个问题:我们真的需要包括“所有相关的预测变量”吗?即使我们可以识别“所有相关的预测变量”,仍然存在收集足够数据以提供将它们可靠地整合到模型中的自由度的问题。这在对照实验研究中已经够难了,更不用说回顾性或人口研究了。也许在某些类型的“大数据”中这不是一个问题,但对我和我的同事来说是这样。正如@Aksakal 在该页面上给出的答案一样,总是需要“对此保持聪明”

公平地说,van der Laan 教授在引用的文章中没有使用“精确”一词,至少在目前可从链接在线获得的版本中。他谈到了“现实”模型。这是一个重要的区别。

再一次,范德兰教授抱怨说“统计学现在是一门艺术,而不是一门科学”,这对他来说有点不公平。考虑一下他建议与合作者合作的方式:

...我们需要认真对待数据、我们作为统计学家的身份以及我们的科学合作者。我们需要尽可能多地了解数据是如何生成的。一旦我们提出了一个现实的统计模型,我们需要从我们的合作者那里提取最能代表他们感兴趣的科学问题的答案的估计值。这是很多工作。这很难。它需要对统计理论有合理的理解。是一家当之无愧的学术企业!

将这些科学原理应用于现实世界的问题似乎需要大量的“艺术”,就像在任何科学企业中的工作一样。我认识一些非常成功的科学家,还有更多做得好的科学家,还有一些失败的。以我的经验,差异似乎在于追求科学目标的“艺术”。结果可能是科学,但过程更多。

3)同样,部分问题是术语;“精确”模型与 van der Laan 教授寻求的“现实”模型之间存在很大差异。他的主张是,许多标准统计模型非常不切实际,无法产生“不可靠”的结果。特别是:“在诚实统计模型中定义的估计量的估计量不能基于参数模型进行合理估计。” 这些是测试的问题,而不是意见。

他自己的工作清楚地认识到,精确的模型并不总是可能的。在缺少结果变量的情况下考虑这份关于目标最大似然估计器 (TMLE) 的手稿。它基于随机缺失结果的假设,在实践中可能永远无法测试:“......我们假设缺失......与结果之间的关系没有未观察到的混杂因素。” 这是包含“所有相关预测变量”困难的另一个例子。然而,TMLE 的一个优势在于,它似乎确实有助于评估数据中足够支持的“积极性假设”,以便在这种情况下估计目标参数。目标是尽可能接近数据的真实模型。

2) TMLE 之前已经在 Cross Validated 上讨论过。我不知道真实数据的广泛使用。谷歌学术今天显示了 258 次似乎是最初报告的引用,但乍一看似乎没有一个是在大型真实世界数据集上。Journal of Statistical Software 关于相关 R 包的文章今天仅显示 27 次 Google Scholar 引用。然而,这不应被视为 TMLE 价值的证据。它专注于获得对感兴趣的实际“估计”的可靠无偏估计,这通常是从标准统计模型派生的插件估计的问题,似乎确实具有潜在价值。

1)声明:“不做任何假设的统计模型总是正确的”似乎是一个稻草人,一个重言式。数据就是数据。我假设宇宙的法则每天都保持一致。TMLE 方法可能包含有关搜索空间中凸性的假设,并且如上所述,它在特定上下文中的应用可能需要额外的假设。

即使是范德兰教授也会同意一些假设是必要的。我的感觉是,他希望尽量减少假设的数量,并避免那些不切实际的假设。正如他似乎声称的那样,这是否真的需要放弃参数模型是关键问题。

也许我没有抓住重点,但我认为你必须退后一点。

我认为他的观点是在没有进一步知识的情况下滥用易于访问的工具。这对于简单的 t 检验也是如此:只需将您的数据提供给算法,得到 p<0.05 并认为您的论文是正确的。完全错误。当然,您必须更多地了解您的数据。

再往后退一步:没有什么比得上一个精确的模型(这里是物理学家)。但有些人非常同意我们的测量结果。唯一准确的就是数学。与现实或模型无关其他一切(以及现实的每个模型)都是“错误的”(经常被引用)。

但是什么是“错误”和有用的?自己判断:

我们目前所有的高科技(计算机、火箭、放射性等)都是基于这些错误的模型。甚至可能通过使用“错误”模型的“错误”模拟来计算。
-> 更多地关注“有用”而不是“错误”;)

更明确地回答您的问题:

  1. 不知道,对不起!
  2. 是的。一个例子:在粒子物理学中,你想检测某些粒子(比如电子、质子等)。每个粒子都会在检测器中留下特征痕迹(因此也会留下数据),但即使对于相同的粒子(根据其性质)也会有所不同。今天,大多数人使用机器学习来实现这个目标(这是一个巨大的简化,但它几乎是这样的),与手工统计相比,效率提高了 20%-50% 。
  3. 没有人真正声称这一点!不要下错误的结论!(a:所有模型都是不精确的,b:有些是有用的。不要混淆事物)
  4. 没有任何东西可以作为精确模型(数学除外,但在统计学中并非如此,因为点恰好一条直线上并通过它“拟合”一条线可能是精确的......但这是一个无趣的特殊情况,永远不会发生) .
  5. 不知道 :) 但是恕我直言,我更多地将其视为“只是因为每个孩子都可以使用它,而不是每个人都应该使用它”并且不要盲目地过度使用它。

在经济学中,关于理解“数据生成过程”的说法很多。我不确定“精确”模型究竟是什么意思,但在经济中它可能与“正确指定”模型相同。

当然,您想在尝试模型之前尽可能多地了解生成数据的过程,对吗?我认为困难来自a)我们可能对真实的DGP一无所知,b)即使我们知道真实的DGP,也可能难以建模和估计(出于多种原因。)

因此,您做出假设以简化问题并减少估算要求。你能知道你的假设是否完全正确吗?您可以获得有利于他们的证据,但 IMO 在某些情况下很难确定。

我必须根据既定理论和实用性来过滤所有这些。如果您做出与理论一致的假设,并且该假设可以为您带来更好的估计性能(效率、准确性、一致性等),那么我认为没有理由避免它,即使它使模型“不精确”。

坦率地说,我认为这篇文章旨在激励那些使用数据工作的人更加努力地思考整个建模过程。很明显,范德兰在他的工作中做出了假设事实上,在这个例子中,van der Laan 似乎抛弃了对精确模型的任何关注,而是使用混杂的程序来最大化性能。这让我更有信心,他提出 Box 的报价是为了防止人们使用它来逃避理解问题的艰巨工作。

让我们面对现实吧,世界上充斥着滥用和滥用统计模型的情况。人们盲目地应用他们知道如何做的任何事情,更糟糕的是,其他人经常以最理想的方式解释结果。这篇文章很好地提醒我们要小心,但我认为我们不应该把它走极端。

以上对您的问题的影响:

  1. 我同意这篇文章中其他人将模型定义为一组假设的观点。有了这个定义,没有假设的模型就不是真正的模型。 即使是探索性数据分析(即无模型)也需要假设。 例如,大多数人假设数据是正确测量的。
  2. 我本身不了解 TMLE,但在经济学中有许多文章使用相同的基本哲学来推断对未观察到的反事实样本的因果影响。然而,在这些情况下,接受治疗并不独立于模型中的其他变量(与 TMLE 不同),因此经济学家广泛使用建模。有一些结构模型的案例研究,例如作者说服一家公司实施他们的模型并发现了良好结果的案例研究。
  3. 我认为所有模型都不精确,但同样,这个术语有点模糊。IMO,这是 Box 报价的核心。我将以这种方式重申我对 Box 的理解:“没有模型可以捕捉到现实的确切本质,但有些模型确实捕捉到了感兴趣的变量,所以从这个意义上说,你可能会用到它们。”
  4. 我在上面谈到了这一点。简而言之,我不这么认为。
  5. 我不知道。我喜欢这里。

这篇文章在我看来是一篇诚实但政治性的文章,一篇真诚的论战因此,它包含许多充满激情的段落,这些段落是科学无意义的,但这可能会有效地激发有用的对话和对重要事项的审议。

这里有很多很好的答案,所以让我引用文章中的几行来表明 Laan 教授在他的工作中肯定没有使用任何类型的“精确模型”(顺便说一句,谁说“精确模型”是等同于实际数据生成机制的概念?)

引号(我的重点是粗体)

“一旦我们提出了一个现实的统计模型,我们需要从我们的合作者那里提取最能代表他们感兴趣的科学问题的答案的估计值。

评论: “现实”与“精确”之间的距离就像火星与地球之间的距离一样。不过,它们都围绕太阳运行,因此出于某些目的,选择哪个行星并不重要。对于其他目的,它确实很重要。“最好”也是一个相对概念。“确切”不是。

“在诚实的统计模型中定义的估计量的估计量不能基于参数模型进行合理的估计......

评论:诚实确实是最好的政策,但肯定不能保证“准确”。此外,如果使用“精确模型”,“合理估计”似乎是一种非常稀释的结果。

为了尽可能解决这些困难的估计问题,我们开发了一种通用的统计方法……

评论:好的。我们正在“尽我们所能”。因为几乎每个人都在考虑自己。但“我们能做到的最好”并不“准确”。