如果是因为我没有努力搜索,我提前道歉,但我找不到每维位数(bits/dim)的明确定义。
我发现第一次提到它的定义来自“像素递归神经网络”。但是对我来说仍然很不清楚,所以让我问一下。
的 256-softmax 输出定义为\boldsymbol{y} \in \mathbb{R}^{32 \times 32 \times 256},负对数似然,据我所知,是
- \mathbb{E}_{\boldsymbol{x}} \ln p(\boldsymbol{y}|\boldsymbol{x})。
(请注意,我们在这里假设图像是单通道的,其大小为32 \times 32 \times 1。)
根据上述论文(可能还有其他材料),在我看来,位/暗的定义是
问题。
1)上述定义正确吗?
2)或者我应该用\sum_{\boldsymbol{x}}替换 {x}} ?