我正在尝试对打字时的用户行为(按键生物识别)进行一些分析。理想情况下,它将包括人们在编写代码时提取的特征。虽然从技术上讲不是自然语言,但代码也具有一些结构化的语言特征,我想利用它。我想知道是否有一些关于执行语言分析的研究侧重于编程语言而不是传统的口语。
主要是,我有兴趣为尽可能多的语言提供一个全面的停用词列表。例如,停用词将包括:for、while、return、break、string、if、else等。尽管将它们按语言分开会很好,但我不介意包含多种语言的列表。
我知道这可以通过例如获取一些示例代码并检索最常用的术语来完成,但我也想知道是否有针对这个方向的一些研究。
欢迎任何想法、论文、方法。
谢谢!