为类似于 Anscombe 的四重奏的目的而构建的数据集

机器算法验证 回归 数据可视化 数据集
2022-01-28 20:41:58

我刚刚遇到了Anscombe 的四重奏(四个数据集具有几乎无法区分的描述性统计数据,但在绘制时看起来非常不同),我很好奇是否有其他或多或少知名的数据集被创建来证明某些方面的重要性的统计分析。

3个回答

作为流行误解*的反例的数据集确实存在——我自己在各种情况下构建了很多,但我敢肯定,它们中的大多数对你来说不会感兴趣。

*(这是 Anscombe 数据所做的,因为它是对人们在误解下操作的回应,即可以从您提到的相同统计数据中辨别模型的质量)

我将在此处包括一些可能比我生成的大多数内容更有趣的内容:

1) 一个(相当多的)示例是我构建的一些示例离散分布(以及数据集),以反驳零三矩偏度意味着对称的常见断言。(肯德尔和斯图尔特的高级统计理论提供了一个更令人印象深刻的连续族。)

这是其中一个离散分布示例:

x415P(X=x)2/63/61/6

(因此,示例案例中反例的数据集很明显:4,4,1,1,1,5

如您所见,此分布不是对称的,但其三阶矩偏度为零。类似地,对于第二个最常见的偏度度量,即第二个Pearson 偏度系数( ),人们可以很容易地为类似的断言构建反例。3(meanmedianσ)

事实上,我还提出了两种度量符号相反的分布和/或数据集——这足以反驳偏度是一个单一的、易于理解的概念,而不是我们并不真正理解的有点滑的想法在许多情况下知道如何适当地测量。

2) 在这个答案中,按照 Choonpradub & McNeil (2005) 的方法构建了一组数据,用于多峰分布的盒须图,该方法显示了具有相同箱线图的四个外观截然不同的数据集。

在此处输入图像描述

特别是,对称箱线图的明显偏态分布往往会让人们感到惊讶。

3)为了回应人们对直方图的过度依赖,我构建了另外几个反例数据集,尤其是只有几个 bin 并且只有一个 bin 宽度和 bin 原点;这导致对分布形状的错误自信断言。这些数据集和示例显示可以在这里找到

这是那里的一个例子。这是数据:

  1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62

这里有两个直方图:

偏斜与钟声

这就是上述两种情况下的 34 个观察值,只是具有不同的断点,一个具有 binwidth,另一个具有 binwidth这些图在 R 中生成如下:10.8

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

4) 我最近构建了一些数据集来证明 Wilcoxon-Mann-Whitney 检验的不传递性——也就是说,表明人们可能会拒绝三对或四对数据集 A、B 和C,(以及四个示例中的 D)使得一个结论是(即得出结论 B 往往大于 A),同样对于 C 对 B , 和 A 对 C(或 D 对 C 和 A 对 D 对于 4 个样本案例);每一个往往比循环中的前一个更大(从某种意义上说,它有更大的机会变大)。P(B>A)>12

这是一个这样的数据集,每个样本中有 30 个观察值,标记为 A 到 D:

       1     2     3     4     5     6     7     8     9    10    11    12
 A  1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 B  3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 C  6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50

      13    14    15    16    17    18    19    20    21    22    23    24
 A  1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 B  3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 C  6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65

      25    26    27    28    29    30
 A  1.42  2.56 16.73 17.01 18.86 19.98
 B  3.44  4.13  6.00 20.85 21.82 22.05
 C  6.57  7.58  8.81  9.08 23.43 24.45
 D 10.29 11.48 12.19 13.09 14.68 15.36

这是一个示例测试:

> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)

    Wilcoxon rank sum test

data:  adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
      -Inf -1.336372
sample estimates:
difference in location 
             -2.500199 

如您所见,单向测试拒绝了空值;来自 A 的值往往小于来自 B 的值。相同的结论(在相同的 p 值下)适用于 B 与 C、C 与 D 和 D 与 A。这种拒绝循环本身不会自动成为问题,如果我们不将其解释为它没有的意思。(用相似但更大的样本获得更小的 p 值是一件简单的事情。)

当您计算位置偏移的(在这种情况下为一侧的)间隔时,这里出现了更大的“悖论”——在每种情况下,都排除了 0(每种情况下的间隔都不相同)。这使我们得出结论,当我们在数据列中从 A 移动到 B 到 C 到 D 时,位置向右移动,但当我们移回 A 时,同样的情况再次发生。

使用这些数据集的较大版本(值的分布相似,但数量更多),我们可以在显着较小的显着性水平上获得显着性(一个或两个尾),因此可以使用 Bonferroni 调整,并且仍然得出每个group 来自一个从下一个上移的分布。

除其他外,这向我们展示了 Wilcoxon-Mann-Whitney 的拒绝本身并不能自动证明位置转移的主张是正当的。

(虽然这些数据并非如此,但也可以构建样本均值恒定的集合,而上述结果适用。)

在以后的编辑中添加:关于此的非常有用和有教育意义的参考是

布朗 BM 和 Hettmansperger TP。(2002)
Kruskal-Wallis,多个comaprisons 和Efron 骰子。
Aust&N.ZJ 统计 , 44 , 427–438。

5)这里出现了另外几个相关的反例-方差分析可能很重要,但所有成对比较都不是(在那里解释了两种不同的方式,产生了不同的反例)。


因此,有几个反例数据集与人们可能遇到的误解相矛盾。

正如你可能猜到的那样,我经常合理地构建这样的反例(就像许多其他人一样),通常是在需要时。对于其中一些常见的误解,您可以将反例描述为可以随意生成新的反例(尽管更常见的是涉及一定程度的工作)。

如果您可能对某些特定类型的事物感兴趣,我可能会找到更多这样的集合(我的或其他人的),或者甚至可以构建一些。


生成具有所需系数的随机回归数据的一个有用技巧如下(括号中的部分是 R 代码的大纲):

a) 设置您想要的无噪声系数 ( y = b0 + b1 * x1 + b2 * x2)

b) 生成具有所需特征的误差项 ( n = rnorm(length(y),s=0.4)

c) 在相同的 x ( nfit = lm(n~x1+x2))上建立噪声回归

d) 将残差添加到 y 变量 ( y = y + nfit$residuals)

完毕。(整个事情实际上可以在几行 R 中完成)

关于为类似目的生成(例如,您自己的)数据集,您可能对以下内容感兴趣:

至于仅用于演示统计中棘手/违反直觉的现象的数据集,有很多,但您需要指定要演示的现象。例如,关于演示辛普森悖论伯克利性别偏见案例数据集非常有名。

有关最著名的数据集的精彩讨论,请参阅:“鸢尾花”数据集的哪些方面使其作为示例/教学/测试数据集如此成功

在论文“Let's Put the Garbage-Can Regressions and Garbage-Can Probits Where They Belong”(C. Achen,2004 年)中,作者创建了一个具有非线性的合成数据集,旨在反映数据时的真实案例可能在测量过程中遇到编码错误(例如,将数据分配给分类值时出现失真,或量化过程不正确)。

合成数据是从具有两个正系数的完美线性关系创建的,但是一旦应用非线性编码误差,标准回归技术将产生一个符号错误且具有统计显着性的系数(如果您引导了一个更大的合成数据集)。

尽管它只是一个小型合成数据集,但该论文对天真的“将我能想到的一切都转储在右手边”进行了很好的反驳,表明即使是微小/微妙的非线性(实际上是相当常见于编码错误或量化错误等),如果您只相信标准回归按钮分析的输出,您可能会得到非常误导的结果。