数据挖掘 - 为稍后的聚类训练模糊距离 - 吾爱随笔录

我有一组字符串和相关标签，其中可能为空。 $s_i \in S$ $y_i$ $y_i$

标签有很多，但基数比字符串小得多。

1 << | {y_{i}} | << | {s_{i}} |

$1 << |\{ y_i \}| << |\{ s_i \}|$

给定 2 个字符串，我想训练一个模型计算， $(s_i, s_j)$ $\nu: S \rightarrow \mathbb{R}^n$

P r (y_{i} = y_{j} | s_{i}, s_{j}) \propto e^{- β ν (s_{i}) \cdot ν (s_{j})}

$Pr(y_i = y_j | s_i, s_j) \propto e^{-\beta ~ \nu(s_i) \cdot \nu(s_j)}$

实际上，将字符串转换为可用于对字符串进行聚类的实向量。 $\nu$

使用，我将使用空间索引将字符串存储在我的数据库中，以便我可以快速搜索相关字符串。 $\nu$

以前有这样做过吗？您能否提供适用研究的参考资料？

此外，https ://hackernoon.com/chars2vec-character-based-language-model-for-handling-real-world-texts-with-spelling-errors-and-a3e4053a147d 基本上是我的想法。