我是机器学习的初学者,我正在尝试建立一个模型,根据产品名称中的单词按类别对产品进行分类。我的目标是通过观察现有产品的类别来预测一些新产品的类别。
例如,拥有以下产品:
PRODUCT CATEGORY
soap bar johnsons green leaves bath
cookie bauducco lemon 120gr cookie
nesfit cookie choc and st cookie
strawberry soap soft bath
spoon hercules medium kitchen
soap dish plastic medium bath
[...]
我的第一个想法是将每个产品中出现的单词(标记)分组,指示指定的类别和出现次数(用作权重)。所以,对于这个样本,我有:
WORD CATEGORY COUNT
soap bath 3
cookie cookie 2
medium bath 1
medium kitchen 1
bar bath 1
johnsons bath 1
有了这个,我就可以训练一个模型,并用它来对新产品进行分类。
例如,有一个新产品hands liquid soap 120oz
,它可以被归类为bath
,因为它包含单词soap
,对于该bath
类别具有很强的权重。
在其他情况下,根据单词在训练集中的出现,新产品medium hammer
可以分类为bath
或。kitchen
medium
所以,我的疑问是:
- 我会采用正确的方法吗?
- 在这种情况下使用的最佳算法是什么?
- 如何使用 Weka 应用它?