数据挖掘 - 有没有关于如何使用带有文本作为输入的自动编码器的清晰教程 - 吾爱随笔录

有没有关于如何使用带有文本作为输入的自动编码器的清晰教程

数据挖掘喀拉斯熊猫 lstm 自动编码器文本

2022-01-26 23:27:19

我有一个描述寄存器某些字段的熊猫数据框。我使用了一种热编码来编码不是数字的特征向量。最后，我的数据集现在有 4000 行 * 4 列。它只包含数字。我想使用 AutoEncoders 生成相同的输入，但我没有找到任何有用的链接，我可以使用它。当我使用我的数据时，我使用的那些有一些维度问题。有人推荐任何有用的教程吗？

1个回答

关于编码，这个链接对我帮助很大。如果您尝试“使用 scikit-learn 进行热编码”部分中的代码，您将获得编码向量。您只需向它提供所有令牌的列表。因此，我将寄存器的字段提取到标记列表中。

作为一个热编码部分的输出，您将获得一个维度数组，将其提供给AutoEncoder 链接的“让我们构建最简单的自动编码器”部分的脚本

在输入向量中，您需要输入您有多少个类（而不是值 784），在我们的例子中，您指定代表唯一标记的 nd 数组的列数。

然后要比较预测的输出，您必须使用解码来直观地比较重新生成的文本。

其它你可能感兴趣的问题

上一篇是否有训练有素的神经网络，可以区分一本书的作者观点和他反对的观点？下一篇给定每个网页的类别，可以使用哪些分类技术对网页树进行分类