“鸢尾花”数据集的哪些方面使其作为示例/教学/测试数据集如此成功
Iris数据集当之无愧地在整个统计科学中得到广泛使用,特别是用于说明统计图形、多元统计和机器学习中的各种问题。
包含 150 个观测值,它很小但并非微不足道。
它提出的通过测量花瓣和萼片来区分三种鸢尾花的任务很简单但具有挑战性。
这些数据是真实数据,但显然质量很好。原则上和实践中,测试数据集可以是合成的,这可能是必要或有用的。然而,很少有人反对真实数据。
1936 年,著名的英国统计学家罗纳德·费舍尔使用了这些数据。(后来他被封为爵士,成为罗纳德爵士。)至少有些教师喜欢将数据集与该领域内如此知名的人联系起来的想法。这些数据最初是由具有统计学头脑的植物学家 Edgar Anderson 发表的,但更早的来源并没有削弱这种关联。
使用一些著名的数据集是我们流传下来的传统之一,例如告诉每一代新生代学生为吉尼斯工作,或者许多著名的统计学家互相争吵。这听起来像是惯性,但在比较新旧方法以及评估任何方法时,通常认为在已知数据集上尝试它们是有帮助的,从而保持我们评估方法的一些连续性。
最后但并非最不重要的一点是,Iris数据集可以与相关花卉的图片愉快地结合在一起,例如来自数据集上有用的 Wikipedia 条目。
笔记。在仔细引用有关植物时,为生物学上的正确性尽一份力。Iris setosa,Iris versicolor和Iris virginica是三个物种(不是变种,如在一些统计账户中);他们的二项式应该用斜体表示,就像这里一样;和Iris作为属名,其他表示特定物种的名称应分别以大写和小写开头。
Stebbins (1978) 对杰出的特殊植物学家安德森表示赞赏,并评论了区分鸢尾属三个物种的科学背景。Kleinman (2002) 调查了安德森的图形贡献与统计风格。
Kleinman, K. 2002。图形创新如何帮助 Edgar Anderson 在进化生物学方面的发现。 机会15(3):17-21。
斯特宾斯,GL 1978。埃德加安德森 1897--1969。
传记回忆录。华盛顿特区:美国国家科学院。
可在此处访问
数据集足够大且足够有趣,不平凡,但又足够小以“放入您的口袋”,并且不会减慢实验速度。
我认为一个关键方面是它还教导了过度拟合。没有足够的列来给出完美的分数:当我们查看散点图时,我们会立即看到这一点,它们重叠并相互碰撞。因此,任何获得满分的机器学习方法都可以被视为可疑。