二元 GAM(广义加法模型)的自相关残差有多少问题?

机器算法验证 预测模型 随机森林 面板数据 广义加法模型 纵向数据分析
2022-04-16 09:59:04

我正在尝试使用一系列社会经济变量来预测城市的高或低犯罪率(二进制 1/0 响应变量)。我使用 17 年(2006-2016 年)300 个自治市的面板数据集进行此操作。更具体地说,我用 2006-2015 年的数据训练模型,然后用 2016 年的特征/预测变量数据进行预测。我用于预测的二进制 GAM 具有非常严重的自相关残差,这将如何影响我的预测?

我通常发现关于使用具有二进制响应变量的面板/纵向数据集通过机器学习方法(随机森林、朴素贝叶斯、K-NN)进行预测的信息非常有限,因此我也很欣赏对此的想法。

让我烦恼的一件事是如何让随机森林或 GAM 等模型注意到面板数据集的 id 和 time 维度。

1个回答

自相关将影响您尝试对模型进行的任何统计推断,例如测试是否平滑非常重要。

在 GAM 中包含随机效应和时空平滑是微不足道的。您需要扩展要在此模型中包含的功能,例如:

  • 同位素空间平滑器(在坐标x和上y)加上区域特定的时间趋势都具有相同的摆动(但形状不同)将包括

    gam(y ~ s(x,y) + s(time, region, bs = 'fs'), data = foo, method = 'REML')
    
  • 各向同性空间平滑器加上具有不同摆动的区域特定时间趋势

    gam(y ~ region + s(x,y) + s(time, by = region), data = foo, method = 'REML')
    

我们可以从那里建立起来。例如,如果区域是区域数据(行政边界等),则可以将马尔可夫随机场平滑用于区域,如果您想要每个区域或主题的随机截距,则可以使用随机效应基础。(请注意,以上使用的是mgcv包中的语法。)