这是一个非常普遍的问题,因为我仍处于机器学习的学习阶段。我有一些关于有问题的仪表的实用数据。即使数据是“时间序列”,我相信我可以对数据进行多类分类(查看 3 个标签),但在我继续走这条路之前想听一些意见。
我一直在做一些特征工程来导出其他数据点来帮助分类过程(下面的例子是列“Error1”和“Error2”)。
仪表分为 2 类,估计问题 =“1”,非估计问题 =“0”。
我的数据集大致如下所示(我还有其他几个错误功能):
Estimated Meter ID Date DaysInDuration Error1 Error2
0 BBA 11/19/2019 31 0 0
0 BBA 12/19/2019 62 1 0
0 BBA 12/19/2019 92 1 0
1 JJL 11/2/2019 120 1 0
1 JJL 12/2/20019 150 1 1
1 JJL 1/20/2020 180 2 2
我想尝试的是使用可以处理多类分类(可能是决策树)的分类模型,并产生如下输出:
Estimated Meter ID Date DaysInDuration Error1 Error2 Classification Label
0 BBA 11/19/2019 31 0 0 1
0 BBA 12/19/2019 62 1 0 1
0 BBA 12/19/2019 92 1 0 2
1 BBA 11/2/2019 120 1 0 3
1 JJL 12/2/2020 30 1 1 1
1 JJL 1/20/2020 60 2 2 1
Labels Meaning = "1" = low risk issue/ "2" = medium risk issue/ "3" = high risk issue
该模型将根据仪表在“DaysInDuration”列中的天数以及“Error1”和“Error2”中的计数错误数对“1”、“2”或“3”进行分类列。
在我看来,分类仍然有效,包括训练测试拆分,因为分类更多来自其他数据点,而不是典型时间序列问题中的实际顺序依赖性。