我经常看到(例如,在 递归神经网络的不合理有效性中),在针对诸如语言建模之类的文本训练 RNN 时,通常使用 1-hot 编码逐个字符地对文本进行特征化。
例如,文本“hello”将表示为
{h: 1, e: 0, l: 0, o: 0}
{h: 0, e: 1, l: 0, o: 0}
{h: 0, e: 0, l: 1, o: 0}
{h: 0, e: 0, l: 1, o: 0}
{h: 0, e: 0, l: 0, o: 1}
我想知道是否也可以使用文本的 ASCII 编码并逐个输入位。所以输入“你好”会像这样输入
0110100001100101011011000110110001101111
RNN 是否会更加难以弄清楚应该如何使用任意和复杂的 8 位 ASCII 编码?或者 ASCII 编码会导致与更好的 1-hot 编码大致相同的性能吗?