我有一个看起来像这样的数据框:
user_id, comment
0, 'Functional but Horrible UI'
1, 'Great everything works well'
2, 'I struggled finding plus button because of theme colors in dark mode'
3, 'Keeps stopping on Android 10'
4, 'I like the functionaity but color theme could be better'
5, 'Consistently crashing. Uninstalled'
6, 'Good overall'
7, 'sfdfsdlfksd'
8, 'I lost in complex settings'
9, 'Configuring app is really a headache'
10, 'aaaaaaaaaaaaa'
我想找出一些数据科学方法来提取有关用户正在努力解决的问题以及出现了多少问题以及诸如此类的东西的信息。即使是一些简单的输出对我也有好处,这样我们就知道应该更多地关注应用程序的哪些部分。就像上面的示例一样,我的目标是简单的输出:
problems = {
'color_theme': 3,
'app_settings': 2,
'crashing' : 2}
所以我有点想要标签,以及根据评论所属的标签出现标签的时间。但问题是我无法训练带有预定义标签的模型,因为:
我没有评论标签。如果我们必须通过每一次审查来了解它在谈论什么问题(即给它贴上标签),我们就会把它也归档并知道我们必须做什么。
我事先不知道将来会出现什么问题,所以即使我们在某个时间点以某种方式标记所有问题,这也是不够的,因为可能会出现一些看不见的问题,我们必须再做一次。
即使我们以某种方式有一个标签系统,我们将如何更新模型,就像我们为不断变化的标签定义一个具有不同架构的新模型一样?
所以在这种情况下,我试图找出一种人工智能方法来缓解我的情况。我非常擅长 python,并且确实具有 keras/tensorflow 和其他库的工作知识,但它们似乎都没有如此灵活的模型方法。我也在使用 Google Cloud Platform 的 AI 平台,但它可以在一定程度上进行情绪分析,但在应用程序上下文中不理解,例如按钮也是 UI 和颜色的一部分。那么我怎样才能以更优雅的方式解决这个问题呢?