目标是否假定为机器学习中模型输出的噪声版本?

人工智能 机器学习 深度学习 统计人工智能
2021-11-10 03:08:16

我想知道以下等式(您几乎可以在每本 ML 书籍中找到它)是否指的是我们在使用机器学习时所做的一般假设:

y=f(x)+ϵ,

在哪里y是我们的输出,f是例如一个神经网络和ϵ是一个独立的噪声项。

这是否意味着我们假设y我们的训练数据集中包含的 ' 来自我们网络输出的噪声版本?

2个回答

不必要。神经网络(或您使用的其他任何东西)是您正在尝试做的事情的模型,并且通常模型无法完美地模拟现实,因为它太复杂了。噪声项通常用于表示这一点,即模型与现实世界的关系不完善。

该方程只是我们对响应变量(又名因变量之间关系的假设y和一个预测器(又名自变量x,即响应变量(目标)是未知函数f预测器的x加上一些噪音ϵ由于例如测量错误(例如由损坏的传感器引起)。所以,如果你有一个数据集D={(yi,xi)}i=1N, 你假设yi=f(xi)+ϵ,i. 然后目标(在监督学习中)是估计 f使用例如神经网络f^θ, 所以目标是找到一个函数f^θ这样f^θ(xi)=yi,所以,在实践中,你经常忽略ϵ因为这与不可约误差有关。

你可以在An Introduction to Statistical Learning一书的第 16 页找到这个方程在那里,您还将找到有关(统计)监督学习的目标以及原因的更多信息ϵ是不可约的。

所以,你的问题的答案是否定的,因为f没有神经网络,而是一个未知函数。如果你的神经网络f^等于f,那么,是的,但是,当然,在实践中,几乎永远不会发生这种情况。