我有 500 张纸质收据的扫描图像和 OCR 作为一个数据集。我还有一个来自我的信用卡对帐单的交易数据集,包括金额和日期。
哪种模型最适合将收据与交易相匹配?
我有 500 张纸质收据的扫描图像和 OCR 作为一个数据集。我还有一个来自我的信用卡对帐单的交易数据集,包括金额和日期。
哪种模型最适合将收据与交易相匹配?
让信用卡声明作为基本事实,收据作为嘈杂的输入。对于给定的行项目,找到距离最小的收据。如果距离足够小,则声明匹配。这是您必须通过实验确定的阈值。您可以让距离为金额和日期的距离之和。这些单独距离的启发式方法就是编辑距离。更复杂的方法是使用标记数据对 OCR 错误进行建模以确定最可能的输入;以与收据相似的字体打印带有已知文本的东西,这样您就可以了解哪些字符通常会相互混淆,从而估计最可能的输入序列。更进一步,您可以联合建模价格、商店和商品之间的密度,100美元但1.00美元
如果您的 OCR 软件为您提供对字符和可能猜测的置信度估计,您也可以使用它。