我正在尝试将新产品描述与现有产品描述相匹配。产品描述如下: 松下DMC-FX07EB数码相机银色。这些是要执行的步骤:
- 标记化描述和识别属性:松下 => 品牌、DMC-FX07EB => 型号等。
- 获得少数具有相似特征的候选人
- 获得最佳人选。
我在第一步 (1) 遇到问题。为了获得'Panasonic => Brand',DMC-FX07EB => Model,silver => color,我需要有索引,其中产品描述的每个标记对应于某个属性名称(品牌、型号、颜色等)在现有数据库中。问题是,在我的数据库中,产品描述被呈现为一个原子属性,例如“描述”(没有单独的产品属性)。
基本上我没有训练数据,所以我试图建立所有产品属性的索引,这样我就可以建立训练数据。到目前为止,我有来自 bestbuy.com 和 semantics3.com API 的属性,但是这两个来源都缺少大部分属性或包含不相关的属性。有什么更好的 API 来获取产品属性的建议吗?更好的方法来做到这一点?
PS 对于每个产品,数据库中都有一个匹配的产品描述,它也是一个原子属性的形式。我已经在 SO 上检查了这个问题,它帮助了我,似乎我们有相同的方法,但我仍在尝试获取训练数据。