我有两张不同的发票或收据。一种是采购订单,一种类似于收据(确认)。
假设我订购了(PO)葡萄酒:
- 白酒
- 红酒
- 桃红葡萄酒
我收到以下确认:
- 酒红雅各布斯溪
- 白酒
- Winter's Hill Estate 干玫瑰
我想匹配采购订单和发票中的字符串(项目)。
你能建议我做这件事的方法吗?
我尝试使用Count Vectorization Alg进行矢量化 然后使用距离度量来计算相似度:'dice'、'rogerstanimoto'、'yule'、'hamming'、'jaccard'、'braycurtis'、'canberra'、'cityblock'、 “相关”、“余弦”、“欧几里得”和“明可夫斯基”
问题是单词的位置。
红酒不会与酒红相似。但事实并非如此。
我也尝试过 Word2Vec 算法,但从技术上讲,这不仅仅是名词。它不起作用。
