Halperin、Hartley 和 Hoel (1965)以及Sanders 和 Pugh (1972)中介绍了一些推荐的统计符号标准。当前的大多数符号来自生物统计统计学家在 19 世纪末和 20 世纪初建立的惯例(其中大部分是由 Pearson 和 Fisher 及其同事完成的)。经济学家约翰·奥尔德里奇(John Aldrich)在此处维护了一份有用的符号早期使用列表,并且在奥尔德里奇(2003 年)中发表了英国生物特征学派的历史记录。(如果你对这个话题有进一步的疑问,奥尔德里奇可能是世界上最重要的统计符号史上在世的专家。)
除了这些明确的工作之外,还有很多介绍该领域的书籍,并且这些书籍都小心地定义了与常见约定一致的符号,并在它们进行时定义了符号。该领域有许多众所周知的惯例贯穿于文献中,统计学家通过实践对这些惯例非常熟悉,即使没有阅读这些研究人员的建议。
以分布为中心的符号的模糊性: “以分布为中心”的符号的使用是一种标准惯例,在整个统计文献中都使用。然而,关于这个符号需要指出的一件有趣的事情是,它的实际含义有一点回旋余地。标准惯例是将这些语句右侧的对象读取为某种概率度量的描述(例如,分布函数、密度函数等),然后读取∼与含义的关系“...具有分布...”或“...具有概率度量...”等。在这种解释下,关系比较了两组不同的事物;左侧的对象是随机变量,右侧的对象是概率测度的描述。
但是,将右侧解释为对随机变量的引用(与分布相反)并读取∼关系的意思是“......具有与......相同的分布”。在这种解释下,关系是比较随机变量的等价关系;左边和右边的对象都是随机变量,关系是自反的、对称的和传递的。
这给出了对如下语句的两种可能(且同样有效)的解释:
X∼N(μ,σ2).
分布解释: "X有概率分布N(μ,σ2)"。这种解释将后一个对象视为对正态概率度量的某种描述(例如,它的密度函数、分布函数等)。
随机变量解释: "X具有相同的概率分布N(μ,σ2)”。这种解释将后一个对象视为正常的随机变量。
每种解释都有优点和缺点。随机变量解释的优点是它使用标准符号∼来引用等价关系,但它的缺点是它需要引用具有与其分布函数类似的符号的随机变量。分布解释的优点是它对作为一个整体的分布使用相似的符号,以及它们具有给定参数值的函数形式;缺点是它使用∼符号的方式不是等价关系。
Aldrich, J. (2003) The Language of the English Biometric School International Statistical Review 71(1),第 109-131 页。
Halperin, M.、Hartley, HO 和 Hoel, PG (1965)统计符号和符号的推荐标准。美国统计学家 19(3),第 12-14 页。
Sanders, JR 和 Pugh, RC (1972)标准统计符号和符号集推荐。教育研究员 1(11),第 15-16 页。