数据挖掘 - 二值化神经网络 - 吾爱随笔录

二值化神经网络

数据挖掘神经网络

2022-02-24 19:01:44

我目前正在查看 Hubara 等人关于二值化神经网络的论文。

我一直在理解论文的算法 2。该算法使用基于移位（位移）的 AdaMax，其中 AdaMax 是 Adam 优化器的扩展。特别是，他们正在使用

m_{t} = β_{1} . m_{t - 1} + (1 - β_{1}) . g_{t}

$m_{t} = \beta_{1}.m_{t-1} + (1 - \beta_{1}).g_{t}$

v_{t} = max (β_{2} . v_{t - 1}, | g_{t} |)

$v_{t} = \max(\beta_{2}.v_{t-1}, |g_{t}|)$

θ_{t} = θ_{t - 1} - (α ⊘ (1 - β_{1}^{t})) . (m_{t} ⊘ v_{t}^{- 1})

$\theta_{t} = \theta_{t−1} − (\alpha\oslash(1−β_{1}^t)).(m_{t} \oslash v_{t}^{-1} )$

在哪里 $g_{t}$ 是梯度， $\theta_{t-1}$ 是前一个参数， $\alpha$ , $\beta_{1}$ , $\beta_{2}$ 是学习率，以及 Adam 优化器的 beta。他们表示 $\oslash$ 代表左右位移。我自己知道左移和右移，但我不确定我们如何同时拥有两者？帮助将不胜感激。谢谢你。

1个回答

我看看他们的github。

以下是相关部分：

local stepSize = lr/biasCorrection1 --math.sqrt(biasCorrection2)/biasCorrection1

stepSize=math.pow(2,torch.round(math.log(stepSize)/(math.log(2))))

并且

state.v:copy(torch.pow(2,torch.round(torch.log(state.v):div(math.log(2)))))
state.v:add(epsilon)
tmp:addcdiv(1, state.m, state.v)

似乎对于 $\alpha \oslash (1-\beta_1^t)$ , 正在做的是

2^{⌊ \log_{2} \frac{α}{1 - β_{1}^{t}} ⌋}

$2^{\lfloor \log_2 \frac{\alpha}{1-\beta_1^t} \rfloor}$

如果是左移 $\lfloor \log_2 \frac{\alpha}{1-\beta_1^t} \rfloor > 0$ 和右移如果 $\lfloor \log_2 \frac{\alpha}{1-\beta_1^t} \rfloor < 0$ .

另一方面，对于 $m_t \oslash v_t^{-1}$ , 正在做的是

\frac{m_{t}}{2^{⌊ \log_{2} v_{t} ⌋}}

$\frac{m_t}{2^{\lfloor \log_2 v_t\rfloor}}$

如果 $\lfloor \log_2 v_t\rfloor> 0$ 和左移如果 $\lfloor \log_2 v_t\rfloor < 0$ .

其它你可能感兴趣的问题

上一篇帮我选择一本 Python 中的数据科学书籍下一篇我是否需要下一个 for 循环才能获取所有值？