Anscombe-like 数据集具有相同的盒子和胡须图(平均值/标准/中值/MAD/最小值/最大值)

机器算法验证 回归 描述性统计 曲线拟合 估计者
2022-02-07 04:18:48

编辑:由于这个问题被夸大了,所以总结一下:找到具有相同混合统计数据(均值、中值、中值及其相关的离散度和回归)的不同有意义且可解释的数据集。

Anscombe 四重奏(请参阅高维数据可视化的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和四个上)和相同的OLS线性拟合,回归和残差平方和,以及相关系数类型的统计数据(边际和联合)因此是相同的,而数据集则完全不同。xyxyR22

安斯科姆四重奏

编辑(来自 OP 评论)除了小数据集大小之外,让我提出一些解释。集合 1 可以看作是与分布噪声的标准线性(仿射,准确地说是仿射)关系。第 2 组显示了一种清晰的关系,这可能是更高程度拟合的极致。第 3 组显示了具有一个异常值的明显线性统计依赖性。第 4 组更棘手:的尝试似乎注定要失败。的设计可能会出现值范围不足的滞后现象、量化效应(可能被过度量化)或用户切换了因变量和自变量。yxxx

所以摘要特征隐藏了非常不同的行为。Set 2 可以更好地处理多项式拟合。具有异常值抵抗方法(或类似方法)的第 3 组,以及第 4 组。人们可能想知道其他成本函数或差异指标是否可以解决,或者至少可以改善数据集区分。编辑(来自 OP 评论):博客文章Curious Regressions指出:21

顺便说一句,有人告诉我,弗兰克·安斯科姆从未透露他是如何得出这些数据集的。如果您认为获得所有汇总统计数据和回归结果相同是一件容易的事,那就试试吧!

为类似于 Anscombe 的 quartet 目的而构建的数据集中,给出了几个有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混合统计数据的混合。

我的问题是: -type 统计信息之外,是否存在类似 Anscombe 的数据集2

  • 之间的关系,就好像人们在寻找测量之间的规律一样,xy
  • 它们具有相同的(更稳健的)边际属性(相同的中位数和绝对偏差的中位数),1
  • 它们具有相同的边界框:相同的最小值、最大值(因此类型的中间范围和中间跨度统计)。

这样的数据集将在每个变量上具有相同的“盒须”图摘要(具有最小值、最大值、中值、中值绝对偏差/MAD、平均值和标准差),并且在解释上仍然会有很大不同。

如果数据集的一些最小绝对回归相同(但也许我已经要求太多了),那将更加有趣。在谈论稳健回归与非稳健回归时,它们可以作为一个警告,并帮助记住 Richard Hamming 的名言:

计算的目的是洞察力,而不是数字

编辑(来自 OP 评论)类似问题在使用相同统计但不同图形生成数据、Sangit Chatterjee 和 Aykut Firata、美国统计学家、2007 或克隆数据:生成具有完全相同的多元线性回归拟合的数据集,J。澳大利亚。N.-Z。统计。J. 2009。

在 Chatterjee (2007) 中,目的是从初始数据集生成具有相同均值和标准差的新对,同时最大化不同的“差异/相异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法 (GA)。重要的步骤在于正交归一化,这与保留均值和(单位)方差非常一致。论文的图形(论文内容的一半)叠加了输入和 GA 输出数据。我的观点是 GA 输出失去了很多原始的直观解释。(x,y)

从技术上讲,中值和中值都没有被保留,并且论文没有提到将保留统计数据的重整化过程。21

1个回答

具体来说,我正在考虑创建两个数据集的问题,每个数据集都暗示一种关系,但每个数据集的关系不同,但也大致相同:

  • 平均x
  • 平均_
  • 标准差×
  • 标准
  • 中位数x
  • 中位数y
  • 最小x
  • 最小y
  • 最大x
  • 最大y
  • 中位数与x中位数的绝对偏差
  • 中位数与y中位数的绝对偏差
  • yx的简单线性回归的系数

也许这是作弊,但使这个问题变得更容易的一种方法是使用一个数据集,其中最佳拟合线是x轴, . 然后我们可以垂直翻转数据以获得明显不同的分布,但保留上述所有统计数据。meany=0miny=maxy

例如,考虑

x019293949596979891y11201211120121

它有一个向上的 V 形图,如下所示:

图形

替换为,您会得到一个向下的 V,其统计数据相同,不仅是近似值,而且是准确的。yy