有没有关于如何使用带有文本作为输入的自动编码器的清晰教程

数据挖掘 喀拉斯 熊猫 lstm 自动编码器 文本
2022-01-26 23:27:19

我有一个描述寄存器某些字段的熊猫数据框。我使用了一种热编码来编码不是数字的特征向量。最后,我的数据集现在有 4000 行 * 4 列。它只包含数字。我想使用 AutoEncoders 生成相同的输入,但我没有找到任何有用的链接,我可以使用它。当我使用我的数据时,我使用的那些有一些维度问题。有人推荐任何有用的教程吗?

1个回答

关于编码,这个链接对我帮助很大。如果您尝试“使用 scikit-learn 进行热编码”部分中的代码,您将获得编码向量。您只需向它提供所有令牌的列表。因此,我将寄存器的字段提取到标记列表中。

作为一个热编码部分的输出,您将获得一个维度数组,将其提供给AutoEncoder 链接的“让我们构建最简单的自动编码器”部分的脚本

在输入向量中,您需要输入您有多少个类(而不是值 784),在我们的例子中,您指定代表唯一标记的 nd 数组的列数。

然后要比较预测的输出,您必须使用解码来直观地比较重新生成的文本。