我刚刚阅读了 Scott E. Fahlman 和 Christian Lebiere的 The Cascade-Correlation Learning Architecture。
我想我已经掌握了整体概念(或者至少是“级联”部分——一个 4分钟的YouTube 视频,我认为它是如何工作的):
- 从仅具有输入和输出单元的最小网络开始
- 使用标准算法学习这些权重(例如梯度下降——它们似乎使用了另一个我不太了解的训练目标,所以在论文中它是梯度上升)
- 当网络没有改善时,添加一个新的隐藏单元。该单元从之前添加的所有输入节点和所有隐藏节点获取输入。它的输出只到所有输出节点。
- 重复步骤 3
但是,我不明白第 3 步的细节:隐藏单元的输入权重被冻结(由论文中的框表示)。他们究竟什么时候被冻结?他们只是被随机初始化而根本没有学习过吗?
我也不明白这一段:
为了创建一个新的隐藏单元,我们从一个候选单元开始,该单元从网络的所有外部输入和所有预先存在的隐藏单元接收可训练的输入连接。该候选单元的输出尚未连接到活动网络。我们对训练集的示例进行了多次遍历,在每次遍历后调整候选单元的输入权重。本次调整的目标是最大化, 所有输出单元的总和 之间的相关性(或更准确地说,协方差)的大小 ,候选单元的值,和 Eo,在单元 o 观察到的残余输出误差。我们将 S 定义为
在哪里 是测量误差的网络输出,p 是训练模式。数量 和 是的值 和 所有模式的平均值。
什么是“剩余输出错误”?是 简单地激活给定模式的单元 ? 这个词是什么 意思是为什么我们要最大化它?