数据挖掘 - 如何正确呈现包含分类、数字和时间序列数据的数据集？ - 吾爱随笔录

如何正确呈现包含分类、数字和时间序列数据的数据集？

数据挖掘机器学习 Python 时间序列数据集

2022-03-09 00:06:52

我有一个带有目标变量的以下玩具数据集示例repair_type

id  |  car  | mileage | repair_type | sex | age
 1  | Honda | 12000   |  engine     | 1   | 50
 1  | Honda | 12000   |  suspension | 1   | 50
 1  | Honda | 15000   |  brakes     | 1   | 50

基本上，该数据集表示某个客户id在mileage12000 处维修过发动机和悬架。过了一会儿，他回来了，并在mileage15000 修理了刹车。我清楚地理解这一点mileage，repair_type应该将其作为time series data. 我也有一个分类和数字变量。我应该重新组合数据集吗？是否应将每条客户记录转置为一条记录？在那种情况下，随着数据的混合时间，我应该尝试预测什么 ml 算法 repair_type

1个回答

如果我做对了，您的模型的应用将预测最可能的维修类型给定的特征，例如：汽车品牌、里程......

您的数据集的格式对您的分类模型应该仍然有效，但正如您所提到的，通知该汽车（属于客户）的演变也是必要的，但不要将其更改为时间序列数据（哪个采样频率？如何很多次样品？...），而是通知过去已经对汽车进行的维修。

我会尝试，保持数据集格式，是：

添加一个额外的分类属性，通知在制造新汽车时已经对汽车进行过的维修类型，以及另一个属性通知自上次维修以来经过的里程（检查它是否与其他变量高度相关等），所以你可以有就像是：

ID	车	里程	过去修复类型	mileage_since_last_repair	性别	年龄	修复类型
1	本田	12000	没有	0	1	50	引擎
1	本田	12000	没有	0	1	50	暂停
1	本田	15000	发动机和悬架	3000	1	50	刹车

对于具有混合数据类型的分类任务，基于决策树的算法应该可以正常工作，您可以尝试XGBoost，您可以查看这个已解决的示例。

其它你可能感兴趣的问题

上一篇解释一个句子并改变它的语气下一篇softmax函数，为什么？