我有一个产品列表,包括产品名称(显示在收据上)和购买产品的商家等变量。
我有很多手动分类为一组固定的类别(例如酒精饮料、蔬菜、肉类等)。
数据一如既往地嘈杂。在这种情况下,特别嘈杂,因为它来自扫描的收据,而在不太好的扫描上的 OCR 通常非常嘈杂。
我想玩弄算法来分类新数据,使用上面的两个变量。
这里有几个主要的变化来源:
- OCR,这意味着可以找到具有许多不同但相对相似的拼写的产品(例如鸡肉)(例如chiken、hicken、chicen ...)。
- 根据销售该产品的商家,同一产品可以有不同的名称。在这种情况下,商户之间的名称可以相似或完全不同,但每个商户内部的名称可能相似。
- 同一个产品在同一个商家中可以有非常不同的名称(例如,收据上的名称是品牌名称的品牌产品与通用名称;软饮料与可口可乐)。
我尝试了一些(一种天真的)分类器,例如使用字符串之间的距离(它主要解决上面提到的第一个主要变化来源),但我对结果不太满意。
所以我想在这里联系,询问如何解决这个问题的想法。我想很多人已经“解决”了这种问题,或者至少在这种问题上工作的时间比我(几个小时)要长得多,所以我非常感谢这里的任何指导。
顺便说一句,我主要使用 R,因此非常感谢基于 R 的解决方案。