我有一项任务,我们必须对菜肴进行分类,并根据给定的输入反馈前 5 种食谱。我对以下数据进行了计数矢量化(countVectorize.transformer()),然后使用 Jaccard 的距离来计算最接近的匹配。这种方法是正确的还是有更好的距离指标适合我的目的?
数据集:https ://www.kaggle.com/c/whats-cooking/data
{ "id": 24717, "cuisine": "indian", "ingredients": [ "tumeric", "vegetable stock", "tomatoes", "garam masala", "naan", "red lentils", "red chili辣椒”、“洋葱”、“菠菜”、“红薯”] },