这个问题在我的脑海里酝酿了一个多月。2015 年 2 月的Amstat News包含伯克利教授 Mark van der Laan的一篇文章,该文章谴责人们使用不精确的模型。他指出,通过使用模型,统计学成为一门艺术而不是一门科学。据他说,人们总是可以使用“确切的模型”,而我们不这样做会导致“缺乏严谨性……我担心我们在数据科学中的代表性正在被边缘化。”
我同意我们有被边缘化的危险,但威胁通常来自那些声称(听起来很像范德兰教授,似乎)他们没有使用某种近似方法,但实际上他们的方法要少得多的人比仔细应用的统计模型更严格——甚至是错误的统计模型。
我认为公平地说,范德兰教授相当鄙视那些重复 Box 经常使用的名言的人,“所有模型都是错误的,但有些模型是有用的。” 基本上,当我读到它时,他说所有模型都是错误的,而且都是无用的。现在,我有什么资格不同意伯克利教授的观点?另一方面,他是谁如此漫不经心地否定了我们这个领域真正巨头之一的观点?
van der Laan 博士在详细阐述时指出,“说所有模型都是错误的完全是一派胡言……例如,不做任何假设的统计模型总是正确的。” 他继续说:“但通常,我们可以做得比这更好:我们可能知道数据是独立相同实验的结果。” 除了非常狭窄的随机抽样或受控实验设置外,我看不出人们如何知道这一点。作者指出了他在目标最大似然学习和目标最小基于损失的学习方面的工作,“整合了机器学习/数据自适应估计的最新技术、因果推理、审查数据、效率和经验方面的所有令人难以置信的进步过程理论,同时仍然提供正式的统计推断。”
也有一些我同意的说法。他说,我们需要认真对待我们的工作、我们作为统计学家的角色以及我们的科学合作者。听听!如果人们经常使用逻辑回归模型或其他模型,而没有仔细考虑它是否足以回答科学问题或是否适合数据,这当然是个坏消息。我确实在这个论坛上发布的问题中看到了很多这样的滥用行为。但我也看到了不精确模型的有效和有价值的用途,甚至是参数模型。与他所说的相反,我很少“被另一个逻辑回归模型无聊到死”。这就是我的天真,我猜。
所以这是我的问题:
- 使用完全不做任何假设的模型可以做出哪些有用的统计推断?
- 是否存在案例研究,在使用目标最大似然时具有重要的真实数据?这些方法是否被广泛使用和接受?
- 所有不精确的模型真的没用吗?
- 除了琐碎的情况外,是否有可能知道您拥有确切的模型?
- 如果这太基于意见,因此离题,可以在哪里讨论?因为van der Laan 博士的文章确实需要一些讨论。