数据挖掘 - 一个非常简单的聊天机器人的数据量 - 吾爱随笔录

对于我大学的一个项目，我必须开发一个简单的聊天机器人。由于我是机器学习的新手，它应该非常简单并且像客户支持一样工作。聊天机器人必须识别与一些非常简单的主题相关的大约 10 个意图。例如，我认为它可以提供有关聚会的信息，所以问题会是“聚会在哪里？聚会什么时候开始？入场费是多少？”之类的问题。

聊天机器人应该对问题进行分类，并且在分类之外它应该给出准备好的答案。如果它不能将问题分配给 10 个意图之一，它应该什么也不做，或者只是回答它不理解这个问题。如果问题有拼写错误，也会发生同样的情况。

所以它应该非常简单，但要使用深度学习方法进行编程。

我的问题是，我应该拥有多少数据来训练这个机器人将问题分配给意图？如果我重新制定每个问题，让我说 20 种方式，我是否能够自己生成数据？或者我是否必须为算法提供大量数据，即使是这样简单的任务？