哪种类型的自动编码器为文本提供最佳结果

数据挖掘 Python 喀拉斯 自动编码器 文本
2021-10-13 09:45:14

我做了几个图像自动编码器的例子,它们工作得很好。现在我想为文本做一个自动编码器,将一个句子作为输入并返回同一个句子。但是,当我尝试使用与用于图像的自动编码器相同的自动编码器时,我得到了不好的结果。

我想这是因为我的文本很稀疏,而且我的词汇量很大,只有 50 万个单词。

  1. 您是否有 Keras 中文本自动编码器的工作示例的链接?

  2. 我看到在大多数论文中,他们使用交叉熵作为损失函数。交叉熵如何准确计算损失?即使我逐个字符自动编码器,使用交叉熵是否有意义?

1个回答

可以在此处找到用于在 Keras 中生成文本的变分自动编码器的工作示例

交叉熵损失,又称对数损失,衡量模型的性能,该模型的输出是用于分类的 0 到 1 之间的概率值。随着预测概率与实际标签的偏离,交叉熵损失会上升。在逐字符自动编码器的情况下,词汇表中的每个字符都是一个标签。

如果输入和输出的大小相同,则交叉熵起作用,即逐字符自动编码器的情况。通常在文本分析中,输入和输出序列的长度不同,因此第二项编码器损失被添加到目标函数中。