人工智能 - 你如何建立一个语言模型来预测两个文档之间的上下文相似性？ - 吾爱随笔录

你如何建立一个语言模型来预测两个文档之间的上下文相似性？

人工智能自然语言处理语言模型

2021-11-01 11:41:37

你如何建立一个语言模型来预测两个文档之间的上下文相似性？

1个回答

您可以对文本使用自动编码器。例如，您可以在此处参考此示例：https ://machinelearningmastery.com/lstm-autoencoders/

为了比较上下文相似性，您可以通过诸如均方误差之类的公式来比较距离的编码向量。

这是因为自动编码器将输入数据压缩成一个数字向量，迫使编码器和解码器学习有关文本的特定特征。这些特征人类无法理解，但具有意义。

另一种方法是使用一些词或文档嵌入，如 word2vec 或 GloVe。IT 也可能运行良好，具体取决于您的数据集大小。您需要通过不同的方法进行试验，以确定哪种方法最好。

如果您有标签，也可以使用监督方法。例如，您可以使用 LSTM 并像使用三重损失的 LSTM 的连体网络一样对其进行训练。这是一个示例：https ://medium.com/@gautam.karmakar/manhattan-lstm-model-for-text-similarity-2351f80d72f1实施：https ://github.com/GKarmakar/deep-siamese-text-similarity

希望这可以帮助你，并有一个美好的一天

其它你可能感兴趣的问题

上一篇Andrej Karpathy 的 pong 代码是如何计算梯度的？下一篇为什么这个 ResNet50 会错误分类对象？