被认为是“整洁数据”的定义是否因应用程序而异?

机器算法验证 数据预处理
2022-04-11 23:53:36

在阅读了 Hadley 最近的一篇论文(链接)后,我开始思考我们所说的整洁数据是否会因应用程序而变化。例如,考虑一个样本数据集:

Food item | Carbohydrates | Fat
F1        | 10            | 12
F2        | 16            | 19
F3        | 29            | 30
F4        | 11            | 28
F5        | 23            | 21

对于可视化,一种简洁的表示方法是创建一个名为的列,该列Category采用值FatCalories,给出 10x2 维数据集。像这样的格式(长格式)在可视化中很有用,例如在 Tableau 中(参见此处的讨论)。

Food item | Value | Category
F1        | 10    | Carbohydrates
F2        | 16    | Carbohydrates
F3        | 29    | Carbohydrates
F4        | 11    | Carbohydrates
F5        | 23    | Carbohydrates
F1        | 12    | Fat
F2        | 19    | Fat
F3        | 30    | Fat
F4        | 28    | Fat
F5        | 21    | Fat

但是,假设我添加了一个名为 的观察列healthy,它接受值yesno现在,我对食品是否健康的分类问题感兴趣。

Food item | Calories | Fat | Healthy
F1        | 10       | 12  | yes
F2        | 16       | 19  | yes
F3        | 29       | 30  | no
F4        | 11       | 28  | no
F5        | 23       | 21  | no

根据 Hadley 的讨论,R 模型总是采用整洁的输入。但是,根据我的经验,R 中模型的输入在上述格式中会更直观,而不是之前的“整洁”格式(它需要变量的因子水平category、复杂的交互等)。另外,由于fatcarbohydrates是同一观察的两个属性,所以它们出现在一行中是合理的(类似于论文中关于左手和右手的示例)。

那么,对于分类问题,现在整齐的数据格式是否发生了变化?还是它一直都是这样,而可视化场景只是 Tableau 的产物?

0个回答
没有发现任何回复~