我有一个我制作的虚构世界的单词列表(不要评判哈哈)。
我的最终目标是通过马尔可夫生成器生成更多听起来像它们的单词,但现在,我正在尝试构建一个模型,通过与该区域中其他单词的相似性将单词分类到它们的区域中。
我的第一次尝试使用了 Levenshtein 距离,这表现得……嗯,不是很好。
然后我尝试使用 Jaro-Winkler 距离加上倒置字符串的 Jaro-Winkler 距离除以 2,得到平均距离(刷新,Winkler 认为单词的开头更重要,所以我这样做是为了得到结尾也很重要)。这更好,有 80% 的训练/25% 的测试准确率,但显然还不够好。
如您所见,对于我尝试使用的多类模型,这些是我分配给每个单词的区域类的较差预测因子。我只发现了这个:
https://www.oreilly.com/library/view/python-cookbook/0596001673/ch17s09.html
作为考虑声音的任何类型的机制,但似乎单词必须具有相似的长度,而我的不一定在彼此的一两个字符长度内。
我的意思是,也许可以应用它,但我想看看是否有更好的解决方案。我的研究没有发现任何有用的东西。