我有一组字符串和相关标签,其中可能为空。
标签有很多,但基数比字符串小得多。
给定 2 个字符串,我想训练一个模型计算,
实际上,将字符串转换为可用于对字符串进行聚类的实向量。
使用,我将使用空间索引将字符串存储在我的数据库中,以便我可以快速搜索相关字符串。
以前有这样做过吗?您能否提供适用研究的参考资料?
此外,https ://hackernoon.com/chars2vec-character-based-language-model-for-handling-real-world-texts-with-spelling-errors-and-a3e4053a147d 基本上是我的想法。