机器算法验证 - 被认为是“整洁数据”的定义是否因应用程序而异？ - 吾爱随笔录

在阅读了 Hadley 最近的一篇论文（链接）后，我开始思考我们所说的整洁数据是否会因应用程序而变化。例如，考虑一个样本数据集：

Food item | Carbohydrates | Fat
F1        | 10            | 12
F2        | 16            | 19
F3        | 29            | 30
F4        | 11            | 28
F5        | 23            | 21

对于可视化，一种简洁的表示方法是创建一个名为的列，该列Category采用值Fat和Calories，给出 10x2 维数据集。像这样的格式（长格式）在可视化中很有用，例如在 Tableau 中（参见此处的讨论）。

Food item | Value | Category
F1        | 10    | Carbohydrates
F2        | 16    | Carbohydrates
F3        | 29    | Carbohydrates
F4        | 11    | Carbohydrates
F5        | 23    | Carbohydrates
F1        | 12    | Fat
F2        | 19    | Fat
F3        | 30    | Fat
F4        | 28    | Fat
F5        | 21    | Fat

但是，假设我添加了一个名为的观察列healthy，它接受值yes和no。现在，我对食品是否健康的分类问题感兴趣。

Food item | Calories | Fat | Healthy
F1        | 10       | 12  | yes
F2        | 16       | 19  | yes
F3        | 29       | 30  | no
F4        | 11       | 28  | no
F5        | 23       | 21  | no

根据 Hadley 的讨论，R 模型总是采用整洁的输入。但是，根据我的经验，R 中模型的输入在上述格式中会更直观，而不是之前的“整洁”格式（它需要变量的因子水平category、复杂的交互等）。另外，由于fat和carbohydrates是同一观察的两个属性，所以它们出现在一行中是合理的（类似于论文中关于左手和右手的示例）。

那么，对于分类问题，现在整齐的数据格式是否发生了变化？还是它一直都是这样，而可视化场景只是 Tableau 的产物？