对于我大学的一个项目,我必须开发一个简单的聊天机器人。由于我是机器学习的新手,它应该非常简单并且像客户支持一样工作。聊天机器人必须识别与一些非常简单的主题相关的大约 10 个意图。例如,我认为它可以提供有关聚会的信息,所以问题会是“聚会在哪里?聚会什么时候开始?入场费是多少?”之类的问题。
聊天机器人应该对问题进行分类,并且在分类之外它应该给出准备好的答案。如果它不能将问题分配给 10 个意图之一,它应该什么也不做,或者只是回答它不理解这个问题。如果问题有拼写错误,也会发生同样的情况。
所以它应该非常简单,但要使用深度学习方法进行编程。
我的问题是,我应该拥有多少数据来训练这个机器人将问题分配给意图?如果我重新制定每个问题,让我说 20 种方式,我是否能够自己生成数据?或者我是否必须为算法提供大量数据,即使是这样简单的任务?