数据挖掘 - 有没有办法根据它们听起来的相似程度来聚类单词？ - 吾爱随笔录

我有一个我制作的虚构世界的单词列表（不要评判哈哈）。

我的最终目标是通过马尔可夫生成器生成更多听起来像它们的单词，但现在，我正在尝试构建一个模型，通过与该区域中其他单词的相似性将单词分类到它们的区域中。

我的第一次尝试使用了 Levenshtein 距离，这表现得……嗯，不是很好。

然后我尝试使用 Jaro-Winkler 距离加上倒置字符串的 Jaro-Winkler 距离除以 2，得到平均距离（刷新，Winkler 认为单词的开头更重要，所以我这样做是为了得到结尾也很重要）。这更好，有 80% 的训练/25% 的测试准确率，但显然还不够好。

如您所见，对于我尝试使用的多类模型，这些是我分配给每个单词的区域类的较差预测因子。我只发现了这个：

https://www.oreilly.com/library/view/python-cookbook/0596001673/ch17s09.html

作为考虑声音的任何类型的机制，但似乎单词必须具有相似的长度，而我的不一定在彼此的一两个字符长度内。

我的意思是，也许可以应用它，但我想看看是否有更好的解决方案。我的研究没有发现任何有用的东西。

import panphon.distance dst = panphon.distance.Distance() dst.dogol_prime_distance(u'pops', u'bobz') >> 0 dst.dogol_prime_distance(u'father', u'mother') >> 1 dst.dogol_prime_distance(u'school', u'fool') >> 3