从论文Rethinking the inception architecture for computer vision中的 3.1 Factorization into small convolution的第二段:
这种设置通过在相邻瓦片之间共享权重,明显减少了参数数量。为了分析预期的计算成本节省,
...
通过这种方式,我们最终减少了 9+9 × 的计算,通过这种分解,得到 25 的相对增益 28%
显然,这种设计减少了参数的数量。但我不明白为什么它会降低计算成本?
对于使用 2 个 3*3 的 convnet 代替 5*5 的情况,我认为增加了 (3*3*9+3*3)/5*5 = 3.6 倍的计算成本。
我在这里想念什么?