数据挖掘 - 时间序列数据多类分类 - 吾爱随笔录

这是一个非常普遍的问题，因为我仍处于机器学习的学习阶段。我有一些关于有问题的仪表的实用数据。即使数据是“时间序列”，我相信我可以对数据进行多类分类（查看 3 个标签），但在我继续走这条路之前想听一些意见。

我一直在做一些特征工程来导出其他数据点来帮助分类过程（下面的例子是列“Error1”和“Error2”）。

仪表分为 2 类，估计问题 =“1”，非估计问题 =“0”。

我的数据集大致如下所示（我还有其他几个错误功能）：

 Estimated     Meter ID          Date             DaysInDuration    Error1  Error2
     0            BBA         11/19/2019               31              0       0
     0            BBA         12/19/2019               62              1       0
     0            BBA         12/19/2019               92              1       0
     1            JJL         11/2/2019               120              1       0
     1            JJL         12/2/20019              150              1       1    
     1            JJL         1/20/2020               180              2       2

我想尝试的是使用可以处理多类分类（可能是决策树）的分类模型，并产生如下输出：

 Estimated     Meter ID          Date             DaysInDuration    Error1  Error2   Classification Label   
     0            BBA         11/19/2019               31              0       0            1
     0            BBA         12/19/2019               62              1       0            1
     0            BBA         12/19/2019               92              1       0            2
     1            BBA         11/2/2019               120              1       0            3
     1            JJL         12/2/2020                30              1       1            1
     1            JJL         1/20/2020                60              2       2            1

Labels Meaning = "1" = low risk issue/ "2" = medium risk issue/ "3" = high risk issue

该模型将根据仪表在“DaysInDuration”列中的天数以及“Error1”和“Error2”中的计数错误数对“1”、“2”或“3”进行分类列。

在我看来，分类仍然有效，包括训练测试拆分，因为分类更多来自其他数据点，而不是典型时间序列问题中的实际顺序依赖性。