我正在尝试使用一系列社会经济变量来预测城市的高或低犯罪率(二进制 1/0 响应变量)。我使用 17 年(2006-2016 年)300 个自治市的面板数据集进行此操作。更具体地说,我用 2006-2015 年的数据训练模型,然后用 2016 年的特征/预测变量数据进行预测。我用于预测的二进制 GAM 具有非常严重的自相关残差,这将如何影响我的预测?
我通常发现关于使用具有二进制响应变量的面板/纵向数据集通过机器学习方法(随机森林、朴素贝叶斯、K-NN)进行预测的信息非常有限,因此我也很欣赏对此的想法。
让我烦恼的一件事是如何让随机森林或 GAM 等模型注意到面板数据集的 id 和 time 维度。