假设我有一个包含 1000 条聊天消息的电子表格,这些消息被标记为快乐、悲伤或有趣。
检测标签是否确实正确或是否需要改进的最佳方法是什么?
我将如何对消息进行分析?如何建立预测模型?
应该使用什么类型的特征和模型选择?
Python 是我的首选语言,我希望将它们加载为 CSV。
假设我有一个包含 1000 条聊天消息的电子表格,这些消息被标记为快乐、悲伤或有趣。
检测标签是否确实正确或是否需要改进的最佳方法是什么?
我将如何对消息进行分析?如何建立预测模型?
应该使用什么类型的特征和模型选择?
Python 是我的首选语言,我希望将它们加载为 CSV。
你需要定义最好的。
如果最好的手段是完全确定您的标签,那么您将不得不手动浏览所有消息,使用众包等等。这是假设聊天消息使用您可以理解的语言。
如果最好的方法是自动化流程,您可以使用现有的情绪分析模型来预测每条消息的情绪,并查看它是否与现有的标签一致。当然,完美对齐是不可能的。
如果最好的方法是从头开始,那么我会尝试将句子分成 3 组,然后查看组的组成。当然,这高度依赖于集群以及如何定义消息之间的距离