为稍后的聚类训练模糊距离

数据挖掘 聚类 特征选择
2022-03-06 21:46:33

我有一组字符串和相关标签,其中可能为空。siSyiyi

标签有很多,但基数比字符串小得多。

1<<|{yi}|<<|{si}|

给定 2 个字符串,我想训练一个模型计算,(si,sj)ν:SRn

Pr(yi=yj|si,sj)eβ ν(si)ν(sj)

实际上,将字符串转换为可用于对字符串进行聚类的实向量。ν

使用,我将使用空间索引将字符串存储在我的数据库中,以便我可以快速搜索相关字符串。ν

以前有这样做过吗?您能否提供适用研究的参考资料?


此外,https ://hackernoon.com/chars2vec-character-based-language-model-for-handling-real-world-texts-with-spelling-errors-and-a3e4053a147d 基本上是我的想法。

1个回答

一种选择是训练一个包含字符串和标签作为实体的嵌入空间。示例算法是 doc2vec(其中 doc 是标签)和 StarSpace。

结果是一个密集的向量表示,可以与常见的距离度量(如 L2 和余弦距离)一起使用。