在阅读了 Hadley 最近的一篇论文(链接)后,我开始思考我们所说的整洁数据是否会因应用程序而变化。例如,考虑一个样本数据集:
Food item | Carbohydrates | Fat
F1 | 10 | 12
F2 | 16 | 19
F3 | 29 | 30
F4 | 11 | 28
F5 | 23 | 21
对于可视化,一种简洁的表示方法是创建一个名为的列,该列Category采用值Fat和Calories,给出 10x2 维数据集。像这样的格式(长格式)在可视化中很有用,例如在 Tableau 中(参见此处的讨论)。
Food item | Value | Category
F1 | 10 | Carbohydrates
F2 | 16 | Carbohydrates
F3 | 29 | Carbohydrates
F4 | 11 | Carbohydrates
F5 | 23 | Carbohydrates
F1 | 12 | Fat
F2 | 19 | Fat
F3 | 30 | Fat
F4 | 28 | Fat
F5 | 21 | Fat
但是,假设我添加了一个名为 的观察列healthy,它接受值yes和no。现在,我对食品是否健康的分类问题感兴趣。
Food item | Calories | Fat | Healthy
F1 | 10 | 12 | yes
F2 | 16 | 19 | yes
F3 | 29 | 30 | no
F4 | 11 | 28 | no
F5 | 23 | 21 | no
根据 Hadley 的讨论,R 模型总是采用整洁的输入。但是,根据我的经验,R 中模型的输入在上述格式中会更直观,而不是之前的“整洁”格式(它需要变量的因子水平category、复杂的交互等)。另外,由于fat和carbohydrates是同一观察的两个属性,所以它们出现在一行中是合理的(类似于论文中关于左手和右手的示例)。
那么,对于分类问题,现在整齐的数据格式是否发生了变化?还是它一直都是这样,而可视化场景只是 Tableau 的产物?