我正在尝试用 mahout 构建一个项目-项目相似度匹配推荐引擎。数据集如下格式(属性为文本而非数字格式)
name : category : cost : ingredients
x : xx1 : 15 : xxx1, xxx2, xxx3
y : yy1 : 14 : yyy1, yyy2, yyy3
z : xx1 : 12 : xxx1, xxy1
因此,为了使用此数据集进行 mahout 训练,将其转换为 mahout 接受的数字(作为 CSV 布尔数据集)格式的正确方法是什么。