我正在研究 Christopher Bishop 的模式识别和机器学习。我意识到的是,他将 λ 的值定义为 ln λ。例如:
我们看到,对于 lnλ = -18 的值,过度拟合已被抑制,我们现在获得了更接近底层函数 sin(2πx) 的表示。然而,如果我们对 λ 使用太大的值,那么我们会再次获得较差的拟合,如图 1.7 所示,对于 lnλ = 0
这是什么原因?为什么他不只使用λ?
我正在研究 Christopher Bishop 的模式识别和机器学习。我意识到的是,他将 λ 的值定义为 ln λ。例如:
我们看到,对于 lnλ = -18 的值,过度拟合已被抑制,我们现在获得了更接近底层函数 sin(2πx) 的表示。然而,如果我们对 λ 使用太大的值,那么我们会再次获得较差的拟合,如图 1.7 所示,对于 lnλ = 0
这是什么原因?为什么他不只使用λ?
我可以假设,这是因为我们可以考虑正则化和对数似然函数,例如,这就是为什么使用这样的表示更方便的原因。使用对数进行计算更容易,例如,当我们想要最小化某些函数时(ln a + ln b = ln(a*b), (ln a)' = 1/a 等)