编辑:由于这个问题被夸大了,所以总结一下:找到具有相同混合统计数据(均值、中值、中值及其相关的离散度和回归)的不同有意义且可解释的数据集。
Anscombe 四重奏(请参阅高维数据可视化的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和四个上)和相同的OLS线性拟合,回归和残差平方和,以及相关系数。类型的统计数据(边际和联合)因此是相同的,而数据集则完全不同。
编辑(来自 OP 评论)除了小数据集大小之外,让我提出一些解释。集合 1 可以看作是与分布噪声的标准线性(仿射,准确地说是仿射)关系。第 2 组显示了一种清晰的关系,这可能是更高程度拟合的极致。第 3 组显示了具有一个异常值的明显线性统计依赖性。第 4 组更棘手:从的尝试似乎注定要失败。的设计可能会出现值范围不足的滞后现象、量化效应(可能被过度量化)或用户切换了因变量和自变量。
所以摘要特征隐藏了非常不同的行为。Set 2 可以更好地处理多项式拟合。具有异常值抵抗方法(或类似方法)的第 3 组,以及第 4 组。人们可能想知道其他成本函数或差异指标是否可以解决,或者至少可以改善数据集区分。编辑(来自 OP 评论):博客文章Curious Regressions指出:
顺便说一句,有人告诉我,弗兰克·安斯科姆从未透露他是如何得出这些数据集的。如果您认为获得所有汇总统计数据和回归结果相同是一件容易的事,那就试试吧!
在为类似于 Anscombe 的 quartet 目的而构建的数据集中,给出了几个有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混合统计数据的混合。
我的问题是: -type 统计信息之外,是否存在类似 Anscombe 的数据集:
- 和 之间的关系,就好像人们在寻找测量之间的规律一样,
- 它们具有相同的(更稳健的)边际属性(相同的中位数和绝对偏差的中位数),
- 它们具有相同的边界框:相同的最小值、最大值(因此类型的中间范围和中间跨度统计)。
这样的数据集将在每个变量上具有相同的“盒须”图摘要(具有最小值、最大值、中值、中值绝对偏差/MAD、平均值和标准差),并且在解释上仍然会有很大不同。
如果数据集的一些最小绝对回归相同(但也许我已经要求太多了),那将更加有趣。在谈论稳健回归与非稳健回归时,它们可以作为一个警告,并帮助记住 Richard Hamming 的名言:
计算的目的是洞察力,而不是数字
编辑(来自 OP 评论)类似问题在使用相同统计但不同图形生成数据、Sangit Chatterjee 和 Aykut Firata、美国统计学家、2007 或克隆数据:生成具有完全相同的多元线性回归拟合的数据集,J。澳大利亚。N.-Z。统计。J. 2009。
在 Chatterjee (2007) 中,目的是从初始数据集生成具有相同均值和标准差的新对,同时最大化不同的“差异/相异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法 (GA)。重要的步骤在于正交归一化,这与保留均值和(单位)方差非常一致。论文的图形(论文内容的一半)叠加了输入和 GA 输出数据。我的观点是 GA 输出失去了很多原始的直观解释。
从技术上讲,中值和中值都没有被保留,并且论文没有提到将保留、和统计数据的重整化过程。