5位数字误读分析

数据挖掘 Python 朱庇特 数值
2022-02-17 19:20:38

与经典“手写”意义上的数字识别无关

上面的免责声明以避免这被视为重复。

我有 96 个序列号可供选择,另外还有 >220 个序列号可供选择。在较大的集合中通常存在较小的集合(尽管并非总是如此),但也有大约 120 个不正确的数字。

请参阅下面的示例 - 为了记录,我已尽我所能匹配......正确的数字是第一个,“可能”在右边的括号中:

21490(21490、21400、21498、21499、21480、21488)

21491(21401、21481、1401)

21492 (21492, 21402)

这组给出了我所看到的事物类型的一个很好的例子:

  1. 数字以相同的方式被误读(0-> 9 和 8)

  2. 有时会完全错过一个数字

  3. 有时根本没有读取正确的数字...

不限于 0、8 和 9,但这些是最差的,所以我想尝试了解哪些数字字符有问题(给它们都打分),并建立一个接受数字的模型,并且知道它可以是的数字列表,并给我它应该是什么数字,理想情况下带有置信度指标。

有人以前做过这个并且有任何想法吗?

1个回答

第一步是找出候选编号与参考列表中的任何编号的相似程度。我认为这是基于字符的字符串相似性度量的完美案例,通常是Levenshtein 编辑距离

如果可能有多个匹配项,则可能会有第二步来预测最可能的匹配项,可能基于数字的频率。