如何在 Keras 中实现模型以基于文档生成嵌入?

数据挖掘 深度学习 喀拉斯 嵌入
2022-03-07 03:46:34

我想创建一个为文档生成嵌入的模型。我可以创建模型,但我想知道如何实现一个训练方案,其中数据由两个相同或不同的文档组成,并与模型并行输入(两个实例同时运行),这将为其各自的文档创建嵌入。我想使用余弦距离来查看相似性,对于相同的文档,距离会更低。我将如何训练/实施这个?

1个回答

对于初学者,这取决于您尝试创建文档嵌入的原因。

有TF-IDF算法;它易于掌握和实现,并且有助于使用余弦距离作为度量。要并行训练,您可能可以将两个文档都输入模型,并使用同步计数器进行计算,例如词频和逆文档频率,最后您可以使用这些值来缩放 TFIDF 矩阵的元素。

或者,您可以使用此处解释的 Doc2Vec 算法它是 Word2Vec 模型的扩展,但并行训练这个模型可能更复杂。

我敢肯定还有更多方法,但这是我所知道的两种最受欢迎​​的方法。