我的数据是一个句子列表,每个句子包含 1 到 4 个单词。这些句子是手动输入的,因此其中一些包含拼写错误和一些额外的单词,例如GmbH,GER等。
但是,我确实知道一组有效句子。作为示例,我们假设这个有效集合{Hello human, Horse, Hello bird}由
Hello human
Horse
Hello human GmbH
Hello human GmbH, GER
Horse GmbH
Horse
Hello humn
Hell humn
Hello human
Hello bird
我想给上面的每个句子一个 ID 1、2 或 3,其中 1 是 for Hello world, 2 isHorse和 3 is Hello bird。但是由于拼写错误和额外的单词,例如GmbH,GER我无法对字符串进行简单的比较。
NLP 或相关领域中是否有一种数值技术可以用来完成这项任务?