我们有一个 ruby-on-rails 平台(带有 postgreSQL 数据库)供人们上传各种产品进行交易。当然,列出的这些产品中有许多是相同的,而消费者对它们的描述不同(通过拼写、大小写等)“大量重复”
出于分析和更好的用户体验的目的,我们的目标是创建一个不断发展的“主产品列表”或“白名单”,如果你愿意的话,这将使用户从他们正在上传的现有产品列表中进行选择,或者请求添加一个新的。我们还计划使用来自网络的附加信息来丰富每个产品条目,这些信息将与“主产品”相关联。
以下是我们提出的一些解决此问题的方法:
A) 获取网站中列出的所有“项目”(约 90,000 个),通过运行选择“不同”查询来尽可能多地去重复(同时通过生成项目键数组来保持键映射回原始数据) group-by 中的每个不同的列表。)
然后
A1)通过机械土耳其人运行这些数据,并要求每个土耳其人用户以统一的格式列出数据。
或者
A2) 通过亚马逊产品 API 运行每个产品条目,并要求用户识别匹配项。
或者
A3) 更好的方法?