StackExchange 上的第一篇文章。我对 ML 相当陌生,有大约 1 年的经验,所以请原谅任何无知或滥用术语。
我有一个多元时间序列数据集,我想在其中预测唯一 ObjectID 在接下来的 3 个时间段内结果为 1/0(将其视为转换)的可能性。我有一个表格,它会随时间拍摄 ObjectID 的快照,我想使用当前数据来预测 ObjectID 是否会在接下来的 3 个时间段内转换(1 或 0)。一旦 ObjectID 达到转换,它将保持原样。
有一个转折点:一些 X 变量是静态的,它们不会随时间变化。我称之为这些属性,我的数据集中有 8 个。这些本质上是有问题的 ObjectID 特征。我有 2 个随时间变化的变量,年龄(以月为单位)和一个具有 7 个级别的分类变量,ObjectID 通过这些变量进行。以下是数据的外观:
ObjID Age Time Attr1 Attr2 Att3 CurrCat Conversion
id1234 0 1/1/2019 ABC XYZ HIJ A 0
id1234 1 1/2/2019 ABC XYZ HIJ B 0
id1234 2 1/3/2019 ABC XYZ HIJ A 0
id1234 3 1/4/2019 ABC XYZ HIJ D 0 <-- current time
id6789 0 1/1/2019 CBA ZYX JIH C 0
id6789 1 1/2/2019 CBA ZYX JIH C 0
id6789 2 1/3/2019 CBA ZYX JIH D 1
id6789 3 1/4/2019 CBA ZYX JIH A 1
如何为分类或决策树模型设置此数据集?
我将在 Python 中构建模型,因此任何建议的包也会有所帮助。