好的变量名是:
a) 简短/易于输入,
b) 容易记住,
c) 可理解/可交流。
我忘记了什么吗?一致性是需要寻找的东西。我想说的是一致的命名约定有助于上述品质。一致性有助于(b)易于回忆和(c)可理解性,尽管其他因素通常更重要。(a) 名称长度/易于键入(例如全部小写)和 (c) 可理解性之间存在明显的权衡。
我在这些问题上投入了相当多的思考,因为成千上万的人正在使用这些数据,我希望许多人会使用我的代码来准备数据并促进某些类型的分析。来自青少年健康纵向研究的数据被分解为多个数据集。我的第一步是获取最常用数据集中的 227 个变量,重新编码,给它们起更有意义的名称。原始变量名称是“aid”、“s1”、“s2”,我将其重命名为“aid2”、“age”和“male.is”。其他数据集中还有数千个其他变量,可以根据研究人员的目标进行合并。
只要我重命名变量,我就想让它们尽可能有用。以下是我考虑过的一些问题。到目前为止,我只使用小写字母并避免使用任何破折号或下划线,而且我只将句点用于一个非常特定的目的。这具有简单性和一致性的优点,并且对大多数变量没有问题。但随着事情变得越来越复杂,我很想打破我的一致性。以我的变量“talkprobmsum”为例,它会更容易阅读为“talkProbMSum”或者更好的是“talk.prob.m.sum”,但如果我要使用大写字母或句点来分隔单词,那么我不应该对所有变量都这样做吗?
有些变量不止一次被记录,例如种族变量,所以我附加了.is 或.ih 来表明它们是来自校内问卷还是家庭问卷。但是肯定有一些重复我还不知道,将数据集的引用附加到每个变量的名称会更好吗?
我需要对很多变量进行分组中心化和标准化,我这样做的方式是附加 .zms,表示男性和学校的 z-score。
非常感谢任何一般或具体的想法或资源。请参阅此存储库以获取我的一些代码以及带有变量名称列表的描述性统计信息。我在此处简要描述了共享此代码的原因,并在此处进行了一些宣传,但是最后两个链接与变量命名约定问题并不真正相关。 补充:我对此进行了轻微的编辑,主要只是移动了一个段落,以避免评论中明显的一些混乱。感谢您的想法!
添加于 2016 年 9 月 5 日:值得注意的是Hadley Wickham 的 R 样式指南和Google 的 R 样式指南... Hadley 说:
变量和函数名称应该是小写的。使用下划线 (_) 分隔名称中的单词。
谷歌说:
不要在标识符中使用下划线 (_) 或连字符 (-)。标识符应根据以下约定命名。变量名称的首选形式是所有小写字母和用点分隔的单词 (variable.name),但也接受 variableName;函数名的首字母大写且没有点 (FunctionName);常量被命名为函数,但具有初始 k。