我正在开发一个基于字符的语言生成器,大致基于TensorFlow 2.0 网站上的本教程。按照示例,我正在使用一个Embedding()
层来生成字符嵌入:我希望我的模型逐个字符地生成文本。
我的词汇表有86 个独特的字符。我应该选择什么嵌入尺寸?
我应该总是选择比词汇量更短的嵌入大小吗?上面示例中的嵌入大小比词汇量大得多,我不明白这如何建立一个有效的模型(但显然它确实如此,如果它是一个官方教程,如果有人能解释我为什么会这样非常感激)。
编辑:
我觉得令人费解的另一件事是:当我们生成词嵌入时,是因为我们想要一个词义的密集表示。让它比我们开始使用的实际 one-hot 编码向量更大是否有意义?