机器算法验证 - Anscombe-like 数据集具有相同的盒子和胡须图（平均值/标准/中值/MAD/最小值/最大值） - 吾爱随笔录

Anscombe-like 数据集具有相同的盒子和胡须图（平均值/标准/中值/MAD/最小值/最大值）

机器算法验证回归描述性统计曲线拟合估计者

2022-02-07 04:18:48

编辑：由于这个问题被夸大了，所以总结一下：找到具有相同混合统计数据（均值、中值、中值及其相关的离散度和回归）的不同有意义且可解释的数据集。

Anscombe 四重奏（请参阅高维数据可视化的目的？）是四个 -数据集的著名示例，具有相同的边际均值/标准偏差（分别在四个和四个上）和相同的OLS线性拟合，回归和残差平方和，以及相关系数。类型的统计数据（边际和联合）因此是相同的，而数据集则完全不同。 $x$ $y$ $x$ $y$ $R^2$ $\ell_2$

编辑（来自 OP 评论）除了小数据集大小之外，让我提出一些解释。集合 1 可以看作是与分布噪声的标准线性（仿射，准确地说是仿射）关系。第 2 组显示了一种清晰的关系，这可能是更高程度拟合的极致。第 3 组显示了具有一个异常值的明显线性统计依赖性。第 4 组更棘手：从的尝试似乎注定要失败。的设计可能会出现值范围不足的滞后现象、量化效应（可能被过度量化）或用户切换了因变量和自变量。 $y$ $x$ $x$ $x$

所以摘要特征隐藏了非常不同的行为。Set 2 可以更好地处理多项式拟合。具有异常值抵抗方法（或类似方法）的第 3 组，以及第 4 组。人们可能想知道其他成本函数或差异指标是否可以解决，或者至少可以改善数据集区分。编辑（来自 OP 评论）：博客文章Curious Regressions指出： $\ell_2$ $\ell_1$

顺便说一句，有人告诉我，弗兰克·安斯科姆从未透露他是如何得出这些数据集的。如果您认为获得所有汇总统计数据和回归结果相同是一件容易的事，那就试试吧！

在为类似于 Anscombe 的 quartet 目的而构建的数据集中，给出了几个有趣的数据集，例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混合统计数据的混合。

我的问题是： -type 统计信息之外，是否存在类似 Anscombe 的数据集 $\ell_2$ ：

和之间的关系，就好像人们在寻找测量之间的规律一样， $x$ $y$
它们具有相同的（更稳健的）边际属性（相同的中位数和绝对偏差的中位数）， $\ell_1$
它们具有相同的边界框：相同的最小值、最大值（因此类型的中间范围和中间跨度统计）。 $\ell_\infty$

这样的数据集将在每个变量上具有相同的“盒须”图摘要（具有最小值、最大值、中值、中值绝对偏差/MAD、平均值和标准差），并且在解释上仍然会有很大不同。

如果数据集的一些最小绝对回归相同（但也许我已经要求太多了），那将更加有趣。在谈论稳健回归与非稳健回归时，它们可以作为一个警告，并帮助记住 Richard Hamming 的名言：

计算的目的是洞察力，而不是数字

编辑（来自 OP 评论）类似问题在使用相同统计但不同图形生成数据、Sangit Chatterjee 和 Aykut Firata、美国统计学家、2007 或克隆数据：生成具有完全相同的多元线性回归拟合的数据集，J。澳大利亚。N.-Z。统计。J. 2009。

在 Chatterjee (2007) 中，目的是从初始数据集生成具有相同均值和标准差的新对，同时最大化不同的“差异/相异”目标函数。由于这些函数可以是非凸的或不可微的，因此它们使用遗传算法 (GA)。重要的步骤在于正交归一化，这与保留均值和（单位）方差非常一致。论文的图形（论文内容的一半）叠加了输入和 GA 输出数据。我的观点是 GA 输出失去了很多原始的直观解释。 $(x,y)$

从技术上讲，中值和中值都没有被保留，并且论文没有提到将保留、和统计数据的重整化过程。 $\ell_2$ $\ell_1$ $\ell_\infty$

1个回答

具体来说，我正在考虑创建两个数据集的问题，每个数据集都暗示一种关系，但每个数据集的关系不同，但也大致相同：

平均x
平均_
标准差×
标准差
中位数x
中位数y
最小x
最小y
最大x
最大y
中位数与x中位数的绝对偏差
中位数与y中位数的绝对偏差
y对x的简单线性回归的系数

也许这是作弊，但使这个问题变得更容易的一种方法是使用一个数据集，其中最佳拟合线是x轴，和 . 然后我们可以垂直翻转数据以获得明显不同的分布，但保留上述所有统计数据。 $\operatorname{mean} y = 0$ $\min y = -\max y$

例如，考虑

\begin{array}{ccccccccccc} x & 0 & \frac{1}{9} & \frac{2}{9} & \frac{3}{9} & \frac{4}{9} & \frac{5}{9} & \frac{6}{9} & \frac{7}{9} & \frac{8}{9} & 1 \\ y & - 1 & - \frac{1}{2} & 0 & \frac{1}{2} & 1 & 1 & \frac{1}{2} & 0 & - \frac{1}{2} & - 1 \end{array}

$\begin{array}{ccccccccccc} x & 0 & \tfrac{1}{9} & \tfrac{2}{9} & \tfrac{3}{9} & \tfrac{4}{9} & \tfrac{5}{9} & \tfrac{6}{9} & \tfrac{7}{9} & \tfrac{8}{9} & 1 \\ \hline y & -1 & -\tfrac{1}{2} & 0 & \tfrac{1}{2} & 1 & 1 & \tfrac{1}{2} & 0 & -\tfrac{1}{2} & -1 \end{array}$

它有一个向上的 V 形图，如下所示：

将替换为，您会得到一个向下的 V，其统计数据相同，不仅是近似值，而且是准确的。 $y$ $-y$

其它你可能感兴趣的问题

上一篇层次模型中的 Fisher 信息下一篇在稀疏数据矩阵上运行的聚类算法