如何正确呈现包含分类、数字和时间序列数据的数据集?

数据挖掘 机器学习 Python 时间序列 数据集
2022-03-09 00:06:52

我有一个带有目标变量的以下玩具数据集示例repair_type

id  |  car  | mileage | repair_type | sex | age
 1  | Honda | 12000   |  engine     | 1   | 50
 1  | Honda | 12000   |  suspension | 1   | 50
 1  | Honda | 15000   |  brakes     | 1   | 50

基本上,该数据集表示某个客户idmileage12000 处维修过发动机和悬架。过了一会儿,他回来了,并在mileage15000 修理了刹车。我清楚地理解这一点mileagerepair_type应该将其作为time series data. 我也有一个分类和数字变量。我应该重新组合数据集吗?是否应将每条客户记录转置为一条记录?在那种情况下,随着数据的混合时间,我应该尝试预测什么 ml 算法 repair_type

1个回答

如果我做对了,您的模型的应用将预测最可能的维修类型给定的特征,例如:汽车品牌、里程......

您的数据集的格式对您的分类模型应该仍然有效,但正如您所提到的,通知该汽车(属于客户)的演变也是必要的,但不要将其更改为时间序列数据(哪个采样频率?如何很多次样品?...),而是通知过去已经对汽车进行的维修。

我会尝试,保持数据集格式,是:

  • 添加一个额外的分类属性,通知在制造新汽车时已经对汽车进行过的维修类型,以及另一个属性通知自上次维修以来经过的里程(检查它是否与其他变量高度相关等),所以你可以有就像是:
ID 里程 过去修复类型 mileage_since_last_repair 性别 年龄 修复类型
1 本田 12000 没有 0 1 50 引擎
1 本田 12000 没有 0 1 50 暂停
1 本田 15000 发动机和悬架 3000 1 50 刹车

对于具有混合数据类型的分类任务,基于决策树的算法应该可以正常工作,您可以尝试XGBoost,您可以查看这个已解决的示例