我目前正在写我的理学硕士论文,在那里我尝试使用深度学习将自然语言中的算法描述自动转换为 Python 中的源代码(算法非常简单,例如还原包含 100 个元素的数组)。主要问题是我需要大量数据才能做到这一点。有谁知道由对 {short natural language description, source code} 组成的任何可用数据集?
我知道 Heartstone 卡片数据集(非常有用并且符合我的需求,但仍然不够),Django 数据集(Django 代码逐行注释 - 它并不真正包含整个算法的描述,而是将英语翻译成 Django逐行代码)。我试图与几个网站联系,例如。Sphere Online Judge 但无济于事。
每一个帮助将不胜感激。