DNC外部存储器的使用是否有 CONSTANT 限制?像人脑一样,7 块信息?或者它是某种超参数?使用该短期记忆可以关联多少数据?
可微分神经计算机的外部存储器是否有限?
如果对人类的 7 块信息的引用是对“神奇数字七”论文的引用,即人类工作记忆,那么:
考虑 DNC 在某个时间步的高级操作。输入进来,并由 LSTM 处理以生成“接口向量”,该向量通过写入、擦除和读取操作与内存进行交互。然后执行操作,最后一层根据检索到的信息和输入产生输出。
人类“工作记忆”的类比在哪里?
1)。如果您认为工作内存是读取时检索的内容,那么有一个用于内存读取次数的超参数。这通常适用于写入和擦除以及这些都是确定接口向量大小的超参数。在论文中,他们在所有情况下都使用 1 的写入大小来控制实验。请注意,在单个操作中读取/写入的“大小”是一个单独的参数,它仅取决于问题的编码方式(请参阅本文的方法部分)。
2)。如果您将工作记忆视为外部记忆,那么这是另一个超参数。我认为将外部记忆视为短期记忆是一个概念上的错误,因为添加它和所有门控都是专门为长期存储信息而开发的,然后在需要时调用。
3)。DNC 操作的一部分在读取阶段查询链接矩阵(存储写入长期内存的内容和时间)。这可以被视为与人类工作记忆有关,因为许多行为经济学研究表明,我们回忆的内容以及我们如何处理它会受到我们刚刚看到的内容的影响。这是论文中唯一计算内存大小为 O(N^2) 的部分(尽管它们使用 O(NlogN) 方法进行近似)。这部分检索/偏向最近访问的信息可以说是有限制的,因为对于大内存,它不会随着网络的其余部分扩展,但这仍然不是恒定的。
4)。工作记忆类比 IMO 的最佳候选者可能是控制器 LSTM 的隐藏状态,因为这部分算法负责存储随着时间的推移检索所需的内容,并且它本身用于存储一段时间内的状态。在这个类比中,这是短期记忆的原因只是外部记忆是一个显式的外部记忆,这是唯一保持状态的其他地方。
所以简而言之,不,没有常数,因为几乎所有可以想象的“工作记忆”类比,整个架构都是由参数控制的。有关如何为不同实验设置参数的更多详细信息,值得查看代码和论文。
让我知道这是否有意义。