我建立了输入有正确单词的模型。在输出时,可能是人写的单词(它包含一些错误)。我的训练数据集看起来是:
input - output
hello - helo
hello - heelo
hello - hellou
between - betwen
between - beetween
between - beetwen
between - bettwen
between - bitween
等等。在预处理过程中,我添加了一个单词失真的度量。然后我将字母硬编码为数字。我当前的模型使用 CNN。输入的神经元个数与训练数据集中最长的词相同,输出的神经元个数与训练数据集中的最长词相同。这个模型不能像我一样工作。输出上的字看起来不像我除了。例如。
input - output
house - gjrtdd
问题:
我怎样才能为这个任务建立/改进模型?CNN 是个好主意吗?我可以使用哪些其他方法来完成此任务?
