如何修复数据中的拼写错误?

数据挖掘 机器学习 深度学习 数据挖掘 数据清理 标签
2022-02-19 05:59:34

我有一个包含药物名称列表的输入数据文件。

我有 1000 多个独特的药物名称。但是,药物名称存在拼写错误和空格字符问题。

例如:我们有异烟肼 300MG TAB , ISONAZID300MG TAB, ISNIAZID 300MG

您可以看到上述 3 个术语在表示上有何不同(由于拼写错误),但实际上表示的是同一种药物 ISONIAZID 300MG TAB(拼写正确)

但问题是还有其他几种药物有这样的拼写错误,我不确定如何将它们全部归为一个(意思是用正确的拼写重命名)?例如:以上三个术语都应重命名为 ISONIAZID 300MG TAB(这是正确的拼写)

我在这里发布它是为了征求您的意见,是否有任何医学词典或自动化方法可以将我的原始 csv 文件作为输入并输出正确的药物名称?

1个回答

有几种通用方法,但几乎所有方法都将值与某个基线进行比较,并决定单个值是否足够接近。

您可以使用不同的方法比较字符串的相似性,例如我经常使用Levenshtein 距离,它基本上测量了将单词 a 转换为单词 b 需要更改的字符数。通过对具有足够低的 Levenshtein 距离的所有单词进行分组,您已经识别出所有应该相同的单词。

如果您有一个“正确值”的字典,则更容易,在这种情况下,您可以将每个值与字典中的所有条目进行比较,并为其分配具有最小 levenshtein 距离的值。

使用一些基本的文本分析,您还可以识别数据中最常见的拼写错误,并根据替换规则消除它们。