在优化逻辑回归模型时,有时更多的数据会使事情变得*快*。知道为什么吗?

机器算法验证 物流 参考 优化
2022-03-17 04:18:24

我一直在玩弄各种批量优化算法(共轭梯度、牛顿拉夫森和各种拟牛顿方法)的逻辑回归。我注意到的一件事是,有时,向模型添加更多数据实际上可以使训练模型所需的时间大大减少。每次迭代都需要查看更多数据点,但是当添加更多数据时,所需的迭代总数会显着下降。当然,这只发生在某些数据集上,并且在某些时候添加更多数据会导致优化变慢。

这是一个经过充分研究的现象吗?我在哪里可以找到更多关于为什么/何时会发生这种情况的信息?

1个回答

由于数据量较少,回归输入之间的虚假相关性通常很高,因为您只有这么多数据。当回归变量相关时,似然面相对平坦,并且对于优化器,尤其是不使用完全 Hessian 的优化器(例如 Newton Raphson)来说,找到最小值变得更加困难。

这里有一些很好的图表和更多解释,以及各种算法如何针对具有不同相关性的数据执行,这里: http: //fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regression/