如果我进行监督学习,模型将从标记的输入数据中学习。这似乎通常是一小部分人工注释数据。
说这是模型唯一的“学习”是真的吗?
看起来小数据集对模型的影响很大。使用未来的未标记数据可以做得更好吗?
如果我进行监督学习,模型将从标记的输入数据中学习。这似乎通常是一小部分人工注释数据。
说这是模型唯一的“学习”是真的吗?
看起来小数据集对模型的影响很大。使用未来的未标记数据可以做得更好吗?
这可能看起来不是微不足道的,但是是的,我们训练的模型可能会学习到他们不打算学习的各种东西。计算机视觉领域已经有一些例子。典型的卷积网络在早期层学习边缘检测、各种可能有用的掩码等内容,而在较高层学习更多高级特征,如眼睛、鼻子等。
也很合理。鉴于数据集大小适中,并且模型训练的时间足够长,足够深的网络可以学习各种隐藏表示,这些表示甚至可能不是特定于手头的任务。这就是迁移学习即使在许多不同的数据集上也能很好地工作的原因。
这是有限的,因为并非所有可学习的东西都可以用数学来描述。所以,答案是一个令人惊讶的否定。除了手头的任务之外,该模型确实学习了一些额外的东西。
PS:还有一个案例是一群研究人员训练了一个模型让机器人走路。事实证明,机器人也学会了识别面孔,并且在看到不同的面孔时会以不同的方式做出反应。不久前我在 YouTube 上看到了该视频,但无论如何都找不到在此处发布链接的确切视频。