数据挖掘 - 将包含拼写错误的句子分类 - 吾爱随笔录

我的数据是一个句子列表，每个句子包含 1 到 4 个单词。这些句子是手动输入的，因此其中一些包含拼写错误和一些额外的单词，例如GmbH，GER等。

但是，我确实知道一组有效句子。作为示例，我们假设这个有效集合{Hello human, Horse, Hello bird}由

Hello human
Horse
Hello human GmbH
Hello human GmbH, GER
Horse GmbH
Horse
Hello humn
Hell humn
Hello human
Hello bird

我想给上面的每个句子一个 ID 1、2 或 3，其中 1 是 for Hello world， 2 isHorse和 3 is Hello bird。但是由于拼写错误和额外的单词，例如GmbH，GER我无法对字符串进行简单的比较。

NLP 或相关领域中是否有一种数值技术可以用来完成这项任务？