与不稳定的学习曲线相比,稳定/平滑的学习验证曲线通常似乎在更多的时期内不断改进。我的直觉是,降低学习率并增加产生稳定学习曲线的模型的耐心可能会导致更好的验证拟合。
相反的论点是,曲线的跳跃可能意味着模型刚刚学到了一些重要的东西,但之后它们经常跳回或拖尾。
这个比那个好吗?是否可以同时兼顾两者来改善学习?
与不稳定的学习曲线相比,稳定/平滑的学习验证曲线通常似乎在更多的时期内不断改进。我的直觉是,降低学习率并增加产生稳定学习曲线的模型的耐心可能会导致更好的验证拟合。
相反的论点是,曲线的跳跃可能意味着模型刚刚学到了一些重要的东西,但之后它们经常跳回或拖尾。
这个比那个好吗?是否可以同时兼顾两者来改善学习?
有一种机器学习方法,称为模拟退火,它改变了速率:从一个大的速率开始,随着时间的推移逐渐减小。一般的想法是,初始较大的速率将覆盖更广泛的范围,而越来越低的速率随后会产生一个不那么“不稳定”的向最大值攀升。
如果只使用低速率,则可能会陷入局部最大值,而太大的速率将找不到最佳解决方案,但最终可能会接近一个。调整费率可以让您两全其美。
如果您的损失情况不稳定,则可能导致学习曲线不稳定。因此,最好选择一个创建简单景观的更简单的功能。有时即使由于数据集分布不均匀,我们也可以观察到训练曲线中的那些跳跃/不规则。
是的,这些跳跃确实意味着它可能在景观中发现了一些重要的东西。当模型探索景观的多个局部最小值时,可能会出现这些跳跃。
在机器学习优化过程中,我们通常使用随机梯度下降和Adam等算法来找到局部最小值,而模拟退火等方法则找到全局最小值。围绕为什么使用局部最小值而不是全局最小值进行了多次讨论。一些人认为,在机器学习问题的情况下,局部最小值与全局最小值一样有用。
因此,稳定学习更可取,因为它象征着模型正在收敛到局部最小值。
您可以阅读孙世良、曹泽辉、韩朱和京兆托等人的《从机器学习的角度研究优化方法》。并阅读机器学习中常用的所有优化函数。