你如何建立一个语言模型来预测两个文档之间的上下文相似性?
你如何建立一个语言模型来预测两个文档之间的上下文相似性?
人工智能
自然语言处理
语言模型
2021-11-01 11:41:37
1个回答
您可以对文本使用自动编码器。例如,您可以在此处参考此示例:https ://machinelearningmastery.com/lstm-autoencoders/
为了比较上下文相似性,您可以通过诸如均方误差之类的公式来比较距离的编码向量。
这是因为自动编码器将输入数据压缩成一个数字向量,迫使编码器和解码器学习有关文本的特定特征。这些特征人类无法理解,但具有意义。
另一种方法是使用一些词或文档嵌入,如 word2vec 或 GloVe。IT 也可能运行良好,具体取决于您的数据集大小。您需要通过不同的方法进行试验,以确定哪种方法最好。
如果您有标签,也可以使用监督方法。例如,您可以使用 LSTM 并像使用三重损失的 LSTM 的连体网络一样对其进行训练。这是一个示例:https ://medium.com/@gautam.karmakar/manhattan-lstm-model-for-text-similarity-2351f80d72f1实施:https ://github.com/GKarmakar/deep-siamese-text-similarity
希望这可以帮助你,并有一个美好的一天