使用机器/深度学习来猜测字符串

人工智能 神经网络 机器学习 深度学习 长短期记忆 文本摘要
2021-10-27 15:11:30

我希望能够输入一个文本块,然后让它猜测一个预定义范围内的字符串(即一个以三个字母开头并以五个数字结尾的字符串,如“XXX12345”等)。理想情况下,它将猜测的字符串将位于文本块中的某个位置,但有时不会。

我一直在努力从哪里开始,或者我是否正在朝着正确的方向考虑机器/深度学习来尝试这样做。

帮助!

4个回答

您绝对应该检查在字符级语言数据上训练的循环神经网络。但它确保你有一个相关的数据集。

我还建议使用字符级递归神经网络,但是对于普通字符级 RNN,我们只能根据先前的字符预测下一个字符,因此您应该将其视为双向 RNN,因为如果我们将其输入到我们的模型中,基本上说我们有文本“xxx12345”我们的模型应该根据最后一个位置预测前三个位置(在 DL 中,他们称之为回溯时间),这只有通过双向 RNN 才有可能。

我建议您使用具有字符级特征的序列到序列模型。只要您有数据,这是一项简单的任务。

正如 Andreas 所评论的,这是一个统计语言模型的问题(一个单词序列的概率分布)。您需要的重要的事情是将固定长度映射到字典中预期的单词结尾链的哈希表。
可以使您的预测更好的事情:

  • 在您的字典中添加更好和更多的单词。
  • 使用文本扩展。

您正在寻找的东西也需要一些强化学习。您需要找出一种方法来惩罚和奖励预测,然后在将来使用结果。您的案例还需要您构建自己的语料库,这是最难的部分。如果你的语料库是好的,它会给出更好的结果。
这是一篇对你有很大帮助的研究论文。