将一组损坏的字符串映射到正确的字符串

数据挖掘 机器学习 nlp
2022-02-27 08:28:36

我对数据科学还很陌生,但之前遇到过。以下问题困扰着我,我希望你们能指出我正确的方向。

输入是一些字符串,其中一些带有相同的信息,而另一些则没有。未知数量的这些琴弦弯曲*到了令人担忧的程度。从只写一封信到彻底的垃圾。在输出端是来自输入的更正字符串。问题是只有某些已知的有效字符串组合可能。

在一种天真的方法中,我链接了一些模糊搜索,并且已经得到了一些有希望的结果。现在我不知道从哪里开始,或者是否已经解决了类似的问题。

*(我们还能这么说吗?)

1个回答

该问题称为近似字符串匹配或模糊字符串搜索。它在计算机科学中得到了很好的研究。

如果存在有限的、已知的有效字符串集合(又名字典),则可以将问题归结为拼写更正。