统计直觉/数据感

机器算法验证 参考 哲学的
2022-01-19 20:04:48

我是一名二年级本科生,正在学习数学,我一直在与我的一位教授谈论数学能力和统计能力之间的区别。他提出的一个关键区别是“数据意识”,他将其解释为技术能力的结合,同时在一组我非正式地称之为“常识约束”的范围内操作,即在很多理论。这是我正在谈论的一个例子,它出现在 Gowers 的博客上:

在英国的几个地方,警方收集了交通事故发生地点的统计数据,确定了事故黑点,在那里放置了测速摄像头,并收集了更多的统计数据。安装测速摄像头后,这些黑点的事故数量明显呈下降趋势。这是否最终表明测速摄像头可以改善道路安全?

在谈判游戏中主张随机策略的同一个人,基本上已经知道了这个问题的答案。他说不,因为如果你挑选出极端情况,那么如果你再次进行实验,你会认为它们不会那么极端。我决定从这个问题快速开始,因为没有太多要说的了。但我告诉人们我有一个计划,那就是做一个虚假的心灵感应实验。我会让他们猜测 20 次抛硬币的结果,我会尝试通过心灵感应向他们传送。然后我会选择表现最好的三个和最差的三个,然后再次掷硬币,这一次请最好的帮我把答案传给最差的。人们可以很容易地看到,性能有望得到改善,而这与心灵感应无关。

我要问的是如何通过有关该主题的任何出版物(如果存在)或通过其他用户发现有助于开发此技能的内容来更多地了解这种“数据意识” 。如果这个问题需要澄清,我很抱歉;如果是这样,请发布您的问题!谢谢。

4个回答

我首先要说的是,我们不应该轻视数学。它是统计理论发展的重要工具,统计方法得到理论证明。理论还告诉你哪里出了问题以及哪些技术可能更好(例如更有效)。所以我认为数学知识和思维对于成为一名优秀的统计学家很重要(几乎是必要的)。但这绝对是不够的。我认为评论中引用的书籍很好。让我给其他一些。

理解数据:探索性数据分析和数据挖掘的实用指南

理解数据 II:数据可视化、高级数据挖掘方法和应用的实用指南

统计思维:提高业务绩效

统计在商业和工业中的作用

统计职业:超越数字

Hahn 和 Snee 的书特别有价值和有趣,因为他们都是具有数学技能和实践经验的著名工业统计学家。

在您提到的示例中,核心问题是因果推理。开始进行因果推理的一个好地方是Andrew Gelman 的三本书评论,以及其中评论的书籍。除了学习因果推理,你还应该了解探索性数据分析、描述和预测的价值。

通过听到社会科学家在发表的作品、博客、研讨会和个人对话中互相批评彼此的研究,我学到了很多东西——有很多学习方法。关注此站点和 Andrew Gelman 的博客。

当然,如果你想要数据感知,你需要练习使用真实数据。有一般的数据感知技能,但也有特定于问题领域的数据感知,或者更具体地说,特定于特定数据集的数据感知。

Chance News Wiki是一个不错的免费资源它有许多从真实例子中提取的例子,以及人们如何解释数据和统计数据的好坏点的讨论。通常也有讨论问题(该视线的部分动机是为统计学教师提供真实世界的示例以与学生讨论)。

+1 提出一个好问题!(到目前为止,对所有回答者 +1。)

我认为非常有数据感知之类的东西,但我不认为它有什么神秘之处。我将使用的类比是驾驶。当您在路上行驶时,您只知道其他汽车发生了什么。例如,你知道你前面的那个人正在寻找他应该转弯的路牌,即使他没有使用他的转向信号。您会自动识别出速度缓慢、过于谨慎的驾驶员,并预测他们在不同情况下的反应。你可以发现那个只想尽可能快地比赛的少年。你对所有汽车在做什么有一种基于识别的感觉这与数据感知完全相同。它来自经验,很多的经验。如果您对理论有足够的了解,您只需要开始使用真实的数据集即可。您可能有兴趣探索像DASL这样的网站。但是,一个条件是,您不应该只是在加载数据集、运行测试和获取 p 值方面获得经验。您将需要探索数据,可能以不同的方式绘制数据,拟合一些模型,并考虑发生了什么。(请注意,EDA 一直是这里的共同话题。)

关于这个过程的一个可能不明显的事实是,数据感知可以定位到给定的主题区域。例如,您可以获得大量使用实验数据和 ANOVA 的经验,但在查看时间序列数据或生存数据时不一定对正在发生的事情有很好的感觉。

让我再添加一个我发现非常有用的策略:我认为值得您花时间学习一点(统计)编程。你不必非常擅长它(我以编写“滑稽低效”的代码而闻名)。但是,一旦您可以编写一些基本的程序代码(例如在 中R),您就可以模拟. 我很难过分强调即使是非常简单的模拟也能起到多大的帮助作用。您可以使用它的一件事是,在学习过程中,您阅读了一些可以探索的属性。例如,如果您(抽象地)知道很难凭经验确定 logit 模型还是 probit 模型更适合数据集,您可以编写此代码的简单模拟并与他们一起玩以更全面地理解这个想法。这也将为您提供经验,但类型略有不同,还将帮助您培养数据意识。