创建主产品数据库以验证条目并丰富数据集的方法

数据挖掘 数据清理 sql
2021-09-20 22:27:30

我们有一个 ruby​​-on-rails 平台(带有 postgreSQL 数据库)供人们上传各种产品进行交易。当然,列出的这些产品中有许多是相同的,而消费者对它们的描述不同(通过拼写、大小写等)“大量重复”

出于分析和更好的用户体验的目的,我们的目标是创建一个不断发展的“主产品列表”或“白名单”,如果你愿意的话,这将使用户从他们正在上传的现有产品列表中进行选择,或者请求添加一个新的。我们还计划使用来自网络的附加信息来丰富每个产品条目,这些信息将与“主产品”相关联。

以下是我们提出的一些解决此问题的方法:

A) 获取网站中列出的所有“项目”(约 90,000 个),通过运行选择“不同”查询来尽可能多地去重复(同时通过生成项目键数组来保持键映射回原始数据) group-by 中的每个不同的列表。)

然后

A1)通过机械土耳其人运行这些数据,并要求每个土耳其人用户以统一的格式列出数据。

或者

A2) 通过亚马逊产品 API 运行每个产品条目,并要求用户识别匹配项。

或者

A3) 更好的方法?

0个回答
没有发现任何回复~