我正在尝试实现VQ-VAE 模型。在那里,一个连续变量被编码在一个数组中离散潜变量每个都映射到一个嵌入向量. 这些向量可用于生成这近似于.
为了得到一个合理的生成模型,需要学习代码的先验分布. 然而,在本文或其第二版中,并不清楚学习先验的网络的输入应该是什么。是吗或者? 该文件似乎表明它是,但如果是这样的话,我不明白我应该如何编码适当地。例如,一个样本可能是一个具有离散值的矩阵和. 对我来说,使用 one-hot 编码是不合理的,也不能简单地使用离散数字,就好像它们是连续的一样,因为它们没有定义的顺序。另一方面,使用没有这个问题,因为它表示具有连续条目的矩阵,但是所需的网络会更大。
那么,先前模型的输入应该是什么?或者? 如果是,我应该如何表示呢?如果是,我应该如何实现网络?