在这里重新发布是因为有人正确指出它更适合这里。
所以我有一堆 eBay 列表的标题。我想从每个标题中提取产品信息,因此我可以按产品对列表进行分类,因为这些标题来自广泛的搜索。
有以下标题:
- 5 件 3 位 0.56" 数字显示 7 段 共阴极
- 5 件装 LD-3361AS 3 位 0.36" 数字显示器 7 SEG 共阴极位
- 6 x MAN71A 共阳极红色 LED 7 段显示器 (6 pcs)
- 实验板 面包板 电路板 ZYJ - 60 白色 全新
我要提取数据的格式如下:
对于第一个列表:
There are 5 pieces
It has 3 digits
It is of size .56"
It is 7 segments
It is numeric
It is cathode
It is a display
对于第二个列表:
There are 5 pieces
It is of size .36"
It is model LD-3361AS
It has 3 Digits
It is Numeric
It has 7 segments
It is cathode
It is a display
第三次上市:
There are 6 pieces
It is brand MAN71A
it has 7 segments
It is Anode
It is a display
对于第4 个列表:
It is New
It is a Breadboard
It is White
It is model ZYJ - 60
我想学习机器学习来做到这一点的原因是,它可以很容易地获取这些细节并将其存储以供以后使用,并且因为它可以适应任何搜索,而不仅仅是特定类别。它还能够适应标题中的不同项目或格式。我用 scikitlearn 的 kmeans 尝试了这个,但它给了我很多重叠,只是将它们聚集在一起,而不是从中提取细节。我想做的是让程序查看标题,确定它们所指的细节(即尺寸、颜色、品牌等)并提取数据。理想情况下,这将是无监督学习,但当我写这篇文章时,我开始意识到这可能是不可能的。我坚持的部分是用什么来实现这一点。我应该使用 NLTK 吗?scikitlearn 的分类器之一?聚类?