今天有哪些探索性数据分析的好例子?

机器算法验证 数据可视化 数据挖掘 数据转换 描述性统计 探索性数据分析
2022-04-03 09:26:36

是否发表了一些论文来说明 EDA 用于解决大量数据问题?我特别在寻找实际(当前)数据示例,其中已经绘制了图表并计算了统计数据,以揭示数据中我们无法通过其他方式或模型检测到的内容。这里有几个我感兴趣的例子。这两个例子都展示了通过绘制图表在数据中发现的东西。我也会对通过粗略计算得出的发现感兴趣,就像 Tukey 过去所做的那样,例如中值抛光。不是来自需要大量假设的拟合模型。

这是一个古老的例子,来自一个关于餐馆小费的数据集,完整的例子参见ggobi book 的介绍,

在此处输入图像描述

观察到“许多食客将小费四舍五入到最接近的 1 美元和 50 美分”。具有小带宽的直方图中的峰值以规则的间隔出现,这不是偶然的。当客户在英国购买汽油时, Hand 等人在挖掘大型信用卡数据集时发现了类似的行为。他通过建立一个具有多个组件的模型来跟进这一发现,一个具有舍入行为,另一个遵循更规则的分布。

有关最近发布的失业统计数据,请参阅Hyndsight 博客这是关键图片:

在此处输入图像描述

随着观察,“今年的八月有些不同。” 最合理的解释是收集失业救济金的方式发生了变化。

2个回答

我喜欢的一个例子(并且是一个简单的例子)是迈克尔马尔茨关于分析警察机构提供给联邦调查局的统一犯罪报告的工作。看:

马尔茨,医学博士(2010 年)。先看再分析:刑事司法中的数据可视化在皮克罗,A. . 和 Weisburd, D.,编辑,《定量犯罪学手册》,第 3 章,第 25-52 页。施普林格纽约,纽约,纽约。

对于某些背景,联邦调查局没有标准化的方法来报告缺失或不完整的报告(他们每月收集数据,因此机构可以报告几个月而不是全年)。因此,不加批判的人会观察到特定管辖区的零或非常低的数字,而不是假定丢失的数据,例如,参见Parker & Pruitt (2000)中佛罗里达州的数字。因此,在犯罪学文献中有相当多的先例,即在没有发现此类错误的情况下对这些数据进行建模。


以下是讨论已发表论文的博客中的一个很好的例子:

  • Uri Simonsohn 在Data Colada 博客上Felix Schönbrodt在心理学上的失败复制以及仪器的天花板效应如何不是问题。以下是来自 Data Colada 博客的原始和复制 ECDF 的图像:

原来的 复制

这个网站上也有一些很好的例子。我认为我在这里有一个很好的例子,但我真正喜欢的其他一些例子是:

我意识到这些没有发表,但我认为仍然是说明性的。我相信你也可以在这个网站上收集更多内容。

我们的神经科学家和同事 Trejo 博士在他的作品“特定成人海马神经源性亚群对行为习得和持久能力的影响”(在同行评审中,因此仍无法提供详细信息)中,成功地将探索性数据分析应用于成人神经发生。

我建议您联系 Trejo 博士并与他聊天他真的很合作,所以我相信他会更详细地解释他的案子。

他们在他的实验室面临的问题有两个:

  1. 他们的数据只显示了他们关于神经结构和学习记忆过程之间关系的原始假设的“趋势”。

  2. 他们花了数周时间手动寻找与经典统计包的相关性。

(自动)探索性数据分析帮助他们找到了一些暗示,这些暗示可能是涉及关系的关键变量。当然,随后进行了进一步的确认工作。