在使用逻辑回归进行预测建模时,在逻辑回归的“标准”逻辑回归、岭回归和 LASSO 版本之间进行选择似乎相对简单——只需选择对测试数据提供最佳预测性能的方法(除非有其他考虑是否执行变量选择,LASSO 会自动执行但 ridge 不会,或者此处描述的其他考虑因素为什么 ridge 回归不能提供比 LASSO 更好的可解释性?)。
但是,如果目标不是预测性能,而是解释性建模——即确定哪些预测变量会导致响应变化,以及每个预测变量的效果有多强,那又如何呢?是否有任何理由认为这三种方法中的一种更好,或者我应该只使用提供最佳预测的一种(或者使用弹性网络回归来找到 ridge 和 LASSO 在预测性能方面的最佳混合) ?
这篇文章http://projecteuclid.org/download/pdfview_1/euclid.ss/1294167961描述了解释性建模如何旨在最小化偏差,而预测建模旨在最小化偏差和方差的某种组合。这让我认为,在预测性能方面的最佳模型在解释哪些预测变量驱动响应变化方面可能不是最好的。