我想开发一个系统来生成语法正确的句子。输入将是一些单词。输出将是一个语法正确的类人句子。
例如:
输入:首都,巴黎,法国
输出:巴黎是法国的首都
输入:可爱,猫
输出:猫很可爱
系统会添加“is”、“as”、“are”、“the”、“of”等缺失词。
我怎样才能建立这样的系统?我的直觉是,它可以通过强化学习通过在像维基百科这样的庞大语料库上进行训练来完成。
所以状态是单独的输入词。句子正确时奖励为 1,错误时奖励为 0。可用的操作是从输入中获取一个可用的单词并将其附加到连接单词(is,of,the..)。然后在第二步中取出生成的单词并从输入中选择另一个单词并连接它等等。当所有输入词都用完后停止。当最后一句语法正确时获胜,否则失败。
最终,我想会有一个知识图谱。用户提出一些问题。在知识图谱中导航,系统会生成一些关键词。然后 RL 系统将采用这些关键字并构造一个类似人类的句子。
我对 RL 完全陌生。我刚刚在 YouTube 上观看了 David Silver 关于 RL 的 10 部分课程。非常感谢有关此主题的任何指导。