具有非平凡采样数据的时间序列数据格式

数据挖掘 数据格式
2022-03-17 09:20:42

我有一个数据流,我想与一些数据科学家分享。

这是一个定期捕获的时间序列,其中一些字段是简单的标量、布尔值。自捕获开始以来,每个样本都有一个 UTC 时间和小数秒。

还捕获了一个大小不同的 3d 样条曲线。这些样条也定期采样。

此外,还有一些其他的多维字段([x,y,z,pitch,yaw,roll])。

对于简单的数据集,我通常会使用 CSV。然而,由于更复杂数据的性质,我需要更合适的格式。

对于可以轻松加载到 Matlab 或其他常见数据科学工具的格式,我有哪些选择?

1个回答

根据这篇关于数据科学中的数据格式的文章,您的问题的简短答案是:使用JSON

csv 之后的下一步似乎很自然,但实际上很有趣:

JSON 在许多编程语言中得到广泛支持,它是 Internet 标准中的有效 MIME 类型(application/json您的问题中提到的数据流),它有几个标准和非标准扩展(geoJSON二进制 json)。如果没有标准结构,JSON 可以很容易地发明你自己的结构,因为它很容易修改。

根据文章 JSON 作为 HADOOP 中的值。对于 HADOOP,它是合适的,因为当您将 JSON 视为数据项时,它基本上是纯文本。

文章还提到 JSON 比 CSV 更有效。