将食物的标题或成分聚类为 n 类

数据挖掘 聚类 数据集 文本挖掘
2022-03-07 15:41:49

我有一个数据集,其中包含有关食物食谱(德语)的信息,如下所示:配方数据

这是一个小型 .csv 文件的链接(我的数据的前 1000 行) https://drive.google.com/file/d/1C7thFlOnDn-oTc6AaDWA3CXXcX8m9NRu

这个想法是将食谱名称聚集到 n 个类别中,以便之后我可以将每个食谱分配给一个类别。值得注意的是,每个食谱都有标签和成分,也许这些信息有助于优化集群?例如,算法(可能是语义分析?)应该输出:将食谱分类为 200 个最大的发现类别:(汉堡包、汤、比萨饼……)

有没有办法做到这一点?

注意:我有每个食谱分钟。1 张图片。这个想法是用 n 类别标记我的图像,然后用我的数据训练卷积神经网络。输入将是食物图像,输出将是一个类别。

2个回答

这听起来像是潜在狄利克雷定位(即主题建模)的工作。

我建议研究频繁项集挖掘,例如APRIORI 算法

然后,频繁项集将对应于成分的频繁组合很容易想象这会产生有趣的结果,例如特定类型的烹饪,但也可以产生明显的模式,例如牛奶、鸡蛋、黄油和面粉。