我正在测试 Transformer 和 Transformer 架构的各种变体。但是完整的语言任务培训是一件相当耗时的事情。测试变压器(或其替代品)是否正常工作的好玩具问题是什么?我正在寻找可以最好是综合创建的简单问题,并且可以在短时间内用非常小的设置(几层,小的嵌入大小等)进行训练。理想情况下,这些问题应该能够发挥变压器的优势,但对于完全连接的前馈网络来说很难解决。可以仅应用于注意力层的任务也会很有用。
测试 Transformer 架构的好玩具问题是什么?
数据挖掘
数据集
变压器
注意机制
2022-02-23 15:23:00
3个回答
我会推荐斯坦福 NLP 小组中语言翻译的预处理数据集:https ://nlp.stanford.edu/projects/nmt/
有大小为 0.13Mb、4.5Mb 和 15Mb 的三个数据集 - 适合每个人 :)
对于普通的 FF 网络来说,翻译是非常难以解决的问题,而由于注意力机制,Transformer 会显着改善。
还可以在The Annotated Transformer和 the Illustrated Transformer中查看这些想法的相关解释
对于 MT,我总是使用Multi30k 数据集,英语到德语进行调试。它只有 30k 个简单且类似模板的句子,使用正确配置的 Transformer 模型,您应该在 2 分钟内获得大约 30 BLEU 点。
我的经验是,诸如复制、大写、颠倒单词中的字符顺序之类的玩具问题太简单了,尽管存在严重的错误,导致模型无法训练真正问题的模型,但模型仍然可以学习它们。
文本反转任务是一个典型的玩具问题,不仅适用于 Transformers,而且适用于一般的 seq2seq 模型。
在该任务中,您将任何语言的一段文本作为源,并将相反顺序的单词作为目标。