这个问题可能过于开放,无法得到明确的答案,但希望不会。
机器学习算法,如 SVM、GBM、随机森林等,通常有一些自由参数,超出一些经验法则指导,需要针对每个数据集进行调整。这通常通过某种重新采样技术(bootstrap、CV 等)来完成,以便拟合能够提供最佳泛化误差的参数集。
我的问题是,你能在这里走得太远吗?人们谈论进行网格搜索等等,但为什么不简单地将其视为优化问题并深入研究可能的最佳参数集呢?我在这个问题中询问了这方面的一些机制,但它并没有受到太多关注。也许这个问题被问得很糟糕,但也许这个问题本身代表了一种人们通常不会做的糟糕方法?
困扰我的是缺乏正则化。通过重新采样,我可能会发现,对于这个数据集,在 GBM 中生长的最佳树木数量是 647 棵,交互深度为 4,但我如何确定这对于新数据来说是正确的(假设新人口与训练集相同)?没有合理的价值来“缩小”(或者如果你愿意,没有信息性的先验信息)重新采样似乎是我们能做的最好的事情。我只是没有听到任何关于这个的讨论,所以这让我想知道我是否缺少一些东西。
显然,进行许多次迭代以从模型中挤出每一点预测能力会带来很大的计算成本,所以很明显,如果你有时间/精力来进行优化和每一点,你就会这样做的性能改进是有价值的。