全批 vs 在线学习 vs 小批

机器算法验证 机器学习
2022-03-21 01:29:31

这是coursera课程中的一个问题:

假设我们有一组示例,Brian 进来并复制每个示例,然后随机重新排序示例。我们现在有两倍多的示例,但没有比以前更多的关于该问题的信息。如果我们不删除重复的条目,以下哪一种方法不会受到这种变化的影响,在计算机时间(例如,以秒为单位的时间)方面,它需要接近收敛?

a) 全批学习
b) 在线学习,每次迭代我们随机选择一个训练用例
c) 小批量学习,每次迭代我们随机选择 100 个训练用例

答案是b。但我想知道为什么 c 是错误的。在线学习不是小批量的特殊情况,每次迭代只包含一个训练案例吗?

1个回答

在线学习不是小批量的特殊情况,每次迭代只包含一个训练案例吗?

这是真的,但有些无关紧要(因为问题是专门比较完整批次与批量大小 1 与批量大小 100)。

(b) 将绝对不受更改的影响(模内存使用和缓存效率问题),因为每个步骤的成本与以前相同并且相同。(嗯,根据公式,正则化常数也可能有效地减半。)

(c) 受到影响,因为当我们选择大小为 100 的批次时,我们可能会选择一些点两次,超重这些点并删除可能已在其位置的其他有用信息。因此,我们对训练数据分布的估计稍差,因此在学习模型时可能会稍微不那么有效。