人工智能 - 可视化神经网络的损失情况：“过滤器”这个词的含义？ - 吾爱随笔录

当我读到论文Visualizing the Loss Landscape of Neural Nets中的以下短语时，我发现自己摸不着头脑：

为了消除这种缩放效应，我们使用过滤器归一化方向绘制损失函数。为具有参数的网络获取此类方向 $\theta$ ，我们首先生成一个随机的高斯方向向量 $d$ 尺寸兼容 $\theta$ . 然后，我们将每个过滤器归一化 $d$ 具有与相应过滤器相同的范数 $\theta$ . 换句话说，我们进行替换 $d_{i,j} \leftarrow d_{i,j} \| d_{i,j}\| \| \theta_{i,j}\|$

当他们提到向量的过滤器时，我完全不清楚作者指的是什么 $d$ 在权重空间。据我所知，向量 $d$ 是权重空间中的标准向量 ( $W$ ) 具有的组件数量等于网络中可变权重的数量。在我看来，可以说网络中的每一层都可以可视化为权重空间中的一个向量（ $\theta_{i}$ ）和：

θ = \sum_{i} θ_{i}

$\theta = \sum_{i}\theta_{i}$

然后也许这些向量 $\theta_{i}$ 被称为过滤器？但这与随机向量有什么关系 $d$ ，在这个空间中产生，对我来说仍然是一个完全的谜。