如何使用机器学习从 eBay 列表的标题中提取产品信息

数据挖掘 机器学习 Python scikit-学习
2021-09-21 20:39:08

在这里重新发布是因为有人正确指出它更适合这里。

所以我有一堆 eBay 列表的标题。我想从每个标题中提取产品信息,因此我可以按产品对列表进行分类,因为这些标题来自广泛的搜索。

有以下标题:

  1. 5 件 3 位 0.56" 数字显示 7 段 共阴极
  2. 5 件装 LD-3361AS 3 位 0.36" 数字显示器 7 SEG 共阴极位
  3. 6 x MAN71A 共阳极红色 LED 7 段显示器 (6 pcs)
  4. 实验板 面包板 电路板 ZYJ - 60 白色 全新

我要提取数据的格式如下:

对于第一个列表:

There are 5 pieces
It has 3 digits
It is of size .56"
It is 7 segments
It is numeric
It is cathode
It is a display

对于第二个列表:

There are 5 pieces
It is of size .36" 
It is model LD-3361AS
It has 3 Digits
It is Numeric
It has 7 segments
It is cathode
It is a display

第三上市:

There are 6 pieces
It is brand MAN71A
it has 7 segments
It is Anode
It is a display

对于第4 个列表:

It is New
It is a Breadboard
It is White
It is model ZYJ - 60

我想学习机器学习来做到这一点的原因是,它可以很容易地获取这些细节并将其存储以供以后使用,并且因为它可以适应任何搜索,而不仅仅是特定类别。它还能够适应标题中的不同项目或格式。我用 scikitlearn 的 kmeans 尝试了这个,但它给了我很多重叠,只是将它们聚集在一起,而不是从中提取细节。我想做的是让程序查看标题,确定它们所指的细节(即尺寸、颜色、品牌等)并提取数据。理想情况下,这将是无监督学习,但当我写这篇文章时,我开始意识到这可能是不可能的。我坚持的部分是用什么来实现这一点。我应该使用 NLTK 吗?scikitlearn 的分类器之一?聚类?

1个回答

就像 Toros91 解释的那样,它是一种原始数据格式。你想转换5 PCSThere are 5 pieces. 你怎么知道PCS意味着您的大脑中某处有一个链接可以说明这一点。你必须在编程中做同样的事情。创建一个字典,告诉机器无论在哪里遇到 PCS,都PCS意味着pieces(它也可以是模型名称,你必须注意它)。PCS 前面的数字是值。所有这些都必须手动编码。这里没有捷径。当然,你必须使用 NLP 来完成你的任务。

预处理原始数据是一项艰巨的任务,对格式化数据使用 ML 算法很容易。