传统上我们使用混合模型来建模纵向数据,即数据如下:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
我们可以为不同的人假设随机截距或斜率。然而,我试图解决的问题将涉及巨大的数据集(数百万人,每天观察 1 个月,即每个人将有 30 次观察),目前我不知道是否有包可以做这个级别的数据。
我可以访问 spark/mahout,但他们不提供混合模型,我的问题是,无论如何我可以修改我的数据,以便我可以使用 RandomForest 或 SVM 来建模这个数据集?
我可以利用任何特征工程技术来帮助 RF/SVM 解释自相关?
非常感谢!
一些潜在的方法,但我没有时间将它们写入 spark