时间序列数据的交互式标签/注释

数据挖掘 机器学习 Python 数据 标签
2021-09-28 01:09:15

我有一组时间序列数据。我正在寻找一种注释(或标签)工具来对其进行可视化并能够以交互方式在其上添加标签,以便获得可用于监督 ML 的注释数据。

例如,输入数据是一个 csv 文件,输出是另一个格式为时间戳、标签的 csv 文件。

因此我需要这样的东西:

  1. 可视化数据
  2. 选择特定区域
  3. 输出带有时间戳的标签

举个例子:

一个例子

在 python 中构建这样的工具不会花费太长时间,但是我只是想知道其他人如何解决这个问题,也许已经有很好的操作系统工具可以做到这一点。谢谢!

4个回答

更新:我们更新了 TRAINSET 以包括上传多个系列以及应用多个标签的能力!请参阅下面的 GIF 演示。

我们在 Geocene 一次又一次遇到同样的问题,所以我们想出了这个名为 TRAINSET 的开源网络应用程序。您可以使用 TRAINSET 将标签刷到时间序列数据上。您以定义的 CSV 格式导入数据,然后标记数据,然后导出标记的 CSV。如果您真的只是想优化标签,也可以导入预先标记的 CSV。您可以在https://trainset.geocene.com上使用 TRAINSET 的托管版本,也可以按照https://github.com/geocene/trainset上的自述文件自行部署

![使用 TRAINSET 刷写和标记时间序列数据,以创建用于机器学习的训练集。

我目前正在开发一组工具来注释和检测时间序列数据中的模式:https ://github.com/avenix/WDK

检查 1-Annotation 中的 AnnotationApp

我也需要这样一个工具来注释数据但没有找到任何合适的工具。因此,我自己编写了一个小型 python 应用程序,只是滥用了 matplotlib 来完成这项任务。

我将matplotlib.use('TkAgg')SpanSelector与我自己的onselect(xmin, xmax)方法一起用于此任务。检查此代码示例:https ://matplotlib.org/gallery/widgets/span_selector.html

参加聚会有点晚了,但总比没有好。我们发布了名为 Label Studio 的时间序列数据标记工具的主要版本更新。

现在它支持可变数量的通道,每个通道都有数百万个数据点,具有缩放/平移、区域标签和实例(单个事件)标签。

它适用于不同的时间序列数据类型,例如,时间可能是浮点数或格式奇怪的日期,具有多用户支持和多标签分类。

时间序列数据标注

商业版请访问https://heartex.ai ,开源请访问 https://labelstud.io/(现在需要手动编译