有哪些工具可用于 ML 的编程语言解析?

数据挖掘 nlp 语言模型
2022-02-14 16:31:17

我想在编程语言源代码(比如说 Python)语料库上执行机器学习任务(例如监督分类、聚类),并且我正在寻找用于从 Python 文档中解析和构造结构的工具(例如) 代码,在概念上类似于 NLP 标记化和更高级别的语言处理,针对编程语言进行了调整。

虽然我能够找到很多与 NLP 相关的通用材料,但在我看来,更好的起点是以前专门针对编程语言的研究。

我正在寻找要搜索的工具、资源、学术文章和关键字,基本上任何帮助都将不胜感激!

1个回答

NLP 代表自然语言处理。编程语言源代码是合成(或非自然)语言。因此,NLP 工具对于处理编程语言源代码没有用处。

理解编程语言源代码是由编译器或解释器完成的。编译器和解释器执行许多功能,包括词法分析、解析和语义分析。

对于 Python 语言,语言分析相对简单,因为名为 CPython 的主要 Python 实现将 Python 程序编译为中间字节码,由虚拟机执行。dis模块支持通过反汇编来分析 CPython 字节码。