统计模型符号有什么“标准”吗?

机器算法验证 参考 模型 符号
2022-01-28 14:14:26

例如,在BUGS 手册或 Lee 和 Wagenmakers 即将出版的书 ( pdf ) 中以及在许多其他地方使用了一种在我看来非常灵活的符号,因为它可以用来简洁地描述大多数统计模型。这种表示法的一个例子如下:

yiBinomial(pi,ni)log(pi1pi)=bibiNormal(μp,σp)

这将描述一个没有预测变量的分层逻辑模型,但有i=1n团体。这种描述模型的方式似乎同样适用于描述常客模型和贝叶斯模型,例如,要使这个模型描述完全贝叶斯,你只需要添加先验μpσp.

这种类型的模型符号/形式主义是否在某些文章或书籍中进行了详细描述?

如果您想使用这种表示法来编写模型,那么有许多不同的做事方式,并且它对于遵循和参考其他人的综合指南非常有用。我发现人们使用这种符号的方式有一些不同:

  • 什么叫分布?例如,我见过N,N,Norm,Normal, ETC。
  • 你如何处理索引?比如我见过yij,yi[j],yj|i, ETC。
  • 哪些参数符号通常用于参数。例如,通常使用μ作为正态分布的平均值,但其他分布呢?(为此,我通常检查Wikipedia 的分布

后续问题:这个符号有名字吗? (由于没有更好的名字,我在我写的一篇博文中称其为以概率分布为中心的约定......)

1个回答

Halperin、Hartley 和 Hoel (1965)以及Sanders 和 Pugh (1972)中介绍了一些推荐的统计符号标准当前的大多数符号来自生物统计统计学家在 19 世纪末和 20 世纪初建立的惯例(其中大部分是由 Pearson 和 Fisher 及其同事完成的)。经济学家约翰·奥尔德里奇(John Aldrich)在此处维护了一份有用的符号早期使用列表,并且在奥尔德里奇(2003 年)中发表了英国生物特征学派的历史记录(如果你对这个话题有进一步的疑问,奥尔德里奇可能是世界上最重要的统计符号史上在世的专家。)

除了这些明确的工作之外,还有很多介绍该领域的书籍,并且这些书籍都小心地定义了与常见约定一致的符号,并在它们进行时定义了符号。该领域有许多众所周知的惯例贯穿于文献中,统计学家通过实践对这些惯例非常熟悉,即使没有阅读这些研究人员的建议。

以分布为中心的符号的模糊性: “以分布为中心”的符号的使用是一种标准惯例,在整个统计文献中都使用。然而,关于这个符号需要指出的一件有趣的事情是,它的实际含义有一点回旋余地。标准惯例是将这些语句右侧的对象读取为某种概率度量的描述(例如,分布函数、密度函数等),然后读取与含义的关系“...具有分布...”或“...具有概率度量...”等。在这种解释下,关系比较了两组不同的事物;左侧的对象是随机变量,右侧的对象是概率测度的描述。

但是,将右侧解释为对随机变量的引用(与分布相反)并读取关系的意思是“......具有与......相同的分布”。在这种解释下,关系是比较随机变量的等价关系;左边和右边的对象都是随机变量,关系是自反的、对称的和传递的。

这给出了对如下语句的两种可能(且同样有效)的解释:

XN(μ,σ2).

  • 分布解释: "X有概率分布N(μ,σ2)"。这种解释将后一个对象视为对正态概率度量的某种描述(例如,它的密度函数、分布函数等)。

  • 随机变量解释: "X具有相同的概率分布N(μ,σ2)”。这种解释将后一个对象视为正常的随机变量。

每种解释都有优点和缺点。随机变量解释的优点是它使用标准符号来引用等价关系,但它的缺点是它需要引用具有与其分布函数类似的符号的随机变量。分布解释的优点是它对作为一个整体的分布使用相似的符号,以及它们具有给定参数值的函数形式;缺点是它使用符号的方式不是等价关系。


Aldrich, J. (2003) The Language of the English Biometric Sc​​hool International Statistical Review 71(1),第 109-131 页。

Halperin, M.、Hartley, HO 和 Hoel, PG (1965)统计符号和符号的推荐标准美国统计学家 19(3),第 12-14 页。

Sanders, JR 和 Pugh, RC (1972)标准统计符号和符号集推荐教育研究员 1(11),第 15-16 页。