是否有任何免费的源代码数据集以及自然语言描述?

人工智能 神经网络 机器学习 深度学习 数据集
2021-11-12 12:48:09

我目前正在写我的理学硕士论文,在那里我尝试使用深度学习将自然语言中的算法描述自动转换为 Python 中的源代码(算法非常简单,例如还原包含 100 个元素的数组)。主要问题是我需要大量数据才能做到这一点。有谁知道由对 {short natural language description, source code} 组成的任何可用数据集?

我知道 Heartstone 卡片数据集(非常有用并且符合我的需求,但仍然不够),Django 数据集(Django 代码逐行注释 - 它并不真正包含整个算法的描述,而是将英语翻译成 Django逐行代码)。我试图与几个网站联系,例如。Sphere Online Judge 但无济于事。

每一个帮助将不胜感激。

1个回答

StackOverflow用代码片段回答。此数据需要一些处理,因为描述可以在问题中(连同其他注释)和答案一起。但是这个数据集非常大。

另请查看CodeReview 问题