数据集部分的正确命名方案是什么?

机器算法验证 数据集 术语 预言
2022-03-28 21:34:46

对不起,我不会说英语,我不知道是否有任何标准的命名方案。因为我不想使用我在一些书中读过的名字,所以我会过度描述。

假设我想描述一个包含预测天气污染物数据的数据集。该数据集的每一行包含特定(当前)一天的某些天气参数的日平均值、前一天的污染物日平均值、当天的污染物日平均值(该值将被预测)

  1. 该数据集中单行的名称是什么;
  2. 单行中单个单元格的名称是什么;
  3. 将输入该模型的该数据集部分的名称是什么(在这种情况下是天气参数和前一天的污染物);
  4. 模型将根据后一点的部分预测的数据集部分的名称是什么;

我有一些猜测,但当我得到一些答案时,我会发布它们。参考书籍/文章将不胜感激。

PS。如果有人知道正确的波兰语翻译,我也会很感兴趣:)

4个回答

似乎在您的设置中,您的输入(您用于建模的数据)和您的输出(您想要预测的数据)都在同一个表中。在这种情况下,它有点复杂,因为:

  1. 行是输入/输出元组(示例;观察;数据点;基准)
  2. 单个单元格是输入特征值(或属性)或输出值
  3. 输入数据或训练集
  4. 输出或目标

或者在数学上,你会经常看到:

  1. xi,yi
  2. x_取决于您选择的列xijyi
  3. X
  4. y

值得查看有关交叉验证的 wiki 页面,以了解如何正确拆分数据集。

基于 Andrew Ng 的ml-class.org和 Tom Mitchell 的“机器学习”一书,我认为它们将被称为

  1. 训练示例
  2. 特征值
  3. 训练集
  4. 输出/目标变量

但我相信命名将取决于算法。比如说,如果您使用决策树,那么您的训练示例将成为实例,您的特征将成为属性

(1) 数据点,(2) 特征值

我认为对于回归:

(3) 回归变量、解释变量、输入变量、预测变量、(4) 回归变量、外生变量、响应变量、测量变量

分类:

(3) 特征、输入特征、输入变量 (4) 类

更笼统地回答,因为我不确定您的数据集或教科书是否总是仅限于天气数据,而不是重复上面的答案

  1. 观察或案例
  2. 我总是把它称为向量ij
  3. 自变量(通常仅在实验或准实验环境中)
  4. 因变量

我对不同学科的人有感觉。我希望我们都用相同的名字提到相同的东西。