NLP食评分类

数据挖掘 分类 nlp
2022-03-06 18:35:36

我有一个由一堆食物评论组成的数据集。我正在尝试建立一个模型来确定给定的评论是否涉及食品安全问题。该数据集有很多特征,但与我的目标相关的只有两个重要特征——食品评论及其相应的数字评级。

我想要一两个指针来弄清楚如何解决这个问题。

作为第一次尝试,我正在考虑将所有评论流水线化到情绪分析过滤器中,然后查看那些与食品安全相关的关键字(例如:“高胆固醇”、“不安全”等)

1个回答

解决您的问题的最佳方法是为您的任务收集正确的标签。目前,您有输入,即评论文本和评级,可用于预测评论的情绪,但不能预测评论是否提及安全问题。要收集正确的标签,您应该查看每条评论并为其分配一个二进制标签 - 0 表示未提及食品安全问题,1 表示已提及。这种数据收集的可行性取决于数据集的大小和项目的重要性。你的数据集有多大?您愿意为该项目投入多少时间/金钱?收集标签后,您可以基于它们训练和评估神经网络。如果这个答案对你有帮助,请随时要求详细说明,我不知道你的数据科学专业水平是什么,也不要'