Jaccard 距离对计数矢量化特征的适用性

数据挖掘 距离
2022-02-21 07:02:15

我有一项任务,我们必须对菜肴进行分类,并根据给定的输入反馈前 5 种食谱。我对以下数据进行了计数矢量化(countVectorize.transformer()),然后使用 Jaccard 的距离来计算最接近的匹配。这种方法是正确的还是有更好的距离指标适合我的目的?

数据集:https ://www.kaggle.com/c/whats-cooking/data

{ "id": 24717, "cuisine": "indian", "ingredients": [ "tumeric", "vegetable stock", "tomatoes", "garam masala", "naan", "red lentils", "red chili辣椒”、“洋葱”、“菠菜”、“红薯”] },

1个回答

由于成分可以转换为集合中的元素,因此可以直接使用 Jaccard 距离。无需先计算矢量化。

另一种选择是使用预训练的词嵌入。结果将是表示每个单词的密集向量。然后可以使用任何 Minkowski 距离或余弦距离。