是否发表了一些论文来说明 EDA 用于解决大量数据问题?我特别在寻找实际(当前)数据示例,其中已经绘制了图表并计算了统计数据,以揭示数据中我们无法通过其他方式或模型检测到的内容。这里有几个我感兴趣的例子。这两个例子都展示了通过绘制图表在数据中发现的东西。我也会对通过粗略计算得出的发现感兴趣,就像 Tukey 过去所做的那样,例如中值抛光。不是来自需要大量假设的拟合模型。
这是一个古老的例子,来自一个关于餐馆小费的数据集,完整的例子参见ggobi book 的介绍,

观察到“许多食客将小费四舍五入到最接近的 1 美元和 50 美分”。具有小带宽的直方图中的峰值以规则的间隔出现,这不是偶然的。当客户在英国购买汽油时, Hand 等人在挖掘大型信用卡数据集时发现了类似的行为。他通过建立一个具有多个组件的模型来跟进这一发现,一个具有舍入行为,另一个遵循更规则的分布。
有关最近发布的失业统计数据,请参阅Hyndsight 博客。这是关键图片:

随着观察,“今年的八月有些不同。” 最合理的解释是收集失业救济金的方式发生了变化。

