本身由数据集组成的数据集的术语是什么?

人工智能 机器学习 参考请求 术语 数据集
2021-11-10 22:31:03

随着计算机变得越来越大、越来越快,构成单一数据的概念正在发生变化。

例如,在纸笔世界中,我们可能会随时间读取温度并获得时间序列,其中单个数据是时间、温度对。然而,现在通常希望对整个时间序列进行分类,在这种情况下,我们的整个温度时间序列将只是由大量独立时间序列组成的数据集中的单个数据点。在图像处理中,(x,y,c)三元组不是一个基准,但这样的值的整个网格是一个单一的基准。对于激光雷达数据和所有其他领域,以前被认为是数据集的东西现在最好被认为是数据

本身由数据集组成的数据集的术语是什么?

我应该认为,“元数据”一词已被占用。

是否有任何论文讨论了从数据集到数据集的转变?对数据科学家和研究人员有何影响?

1个回答

我不认为这是什么新鲜事。让我们使用您对整个时间序列进行分类的示例,例如预测单词 1 和单词 2 以进行语音识别。我们可以像处理任何其他多变量数据一样将数据写成数据框:时间 1、时间 2 等处的观察值作为预测变量,分类标签作为响应变量。

每个观察值都是您的主题在特定时间的值的向量,加上标签 - 与任何其他多元数据没有什么不同。当然,由于数据的时间序列性质,可能存在特殊的依赖结构,但您仍然可以将其编写为多变量问题。

好的,假设您使用小波变换对语音信号进行了处理,从而产生了二维数据的图像频谱图。然后只需将每个“像素”(时间-频率对)与分类标签一起视为多元问题中的一个变量。这是一个之间的某种双射m×n矩阵和Rn×m.

您也可以将此想法扩展到 3D 或 4D 数据(或更高)。只需在某种地图中展开高维张量Tm×n×Rm×n×.