用外行的话来说,模型和分布之间有什么区别?

机器算法验证 分布 模型 术语
2022-01-30 05:02:08

对于那些不熟悉高等数学/统计学的人来说,维基百科上定义的答案(定义)可以说有点神秘。

在数学术语中,统计模型通常被认为是一对 ( ),其中是可能的观察值的集合,即样本空间,而是一组概率分布在上。S,PSPS

在概率和统计中,概率分布将概率分配给随机实验、调查或统计推断过程的可能结果的每个可测量子集。找到样本空间为非数值的示例,其中分布将是分类分布。

我是一名对这个领域非常感兴趣的高中生,我目前正在努力解决什么是 astatistical model和 a之间的差异probability distribution

我目前非常基本的理解是这样的:

  • 统计模型是近似测量分布的数学尝试

  • 概率分布是来自实验的测量描述,将概率分配给随机事件的每个可能结果

文献中倾向于看到“分布”和“模型”这两个词可以互换使用,或者至少在非常相似的情况下(例如二项式分布与二项式模型),混淆更加复杂

有人可以验证/更正我的定义,并可能为这些概念提供更正式的(尽管仍然是简单的英语)方法吗?

4个回答

概率分布是描述随机变量的数学函数。更准确地说,它是一个将概率分配给数字的函数,它的输出必须与概率公理一致。

统计模型是使用概率分布以数学术语对某些现象进行抽象、理想化的描述。引用瓦瑟曼(2013):

统计模型 是一组分布(或密度或回归函数)。参数模型是一个集合 ,可以通过有限数量的参数进行参数化。[...] FF

通常,参数模型采用以下形式

F={f(x;θ):θΘ}

其中是一个未知参数(或参数向量),可以在参数空间中取值。如果是一个向量,但我们只对的一个分量感兴趣,我们将剩余的参数称为nuisance parameters非参数模型是一个集合,它不能被有限数量的参数参数化。θ ΘθθF

在许多情况下,我们使用分布作为模型(您可以查看此示例)。您可以使用二项分布作为掷硬币系列中正面计数的模型。在这种情况下,我们假设这种分布以简化的方式描述了实际结果。这并不意味着这是描述这种现象的唯一方法,二项分布也不是只能用于此目的的东西。模型可以使用一种或多种分布,而贝叶斯模型也指定了先验分布。

McCullaugh (2002) 更正式地讨论了这一点:

根据目前公认的理论 [Cox and Hinkley (1974), Chapter 1; 莱曼 (1983),第 1 章;Barndorff-Nielsen 和 Cox (1994),第 1.1 节;上的一组概率分布参数化统计模型是一个参数 与函数,它分配给每个参数点 \上的 概率分布这里所有 概率分布的集合SΘP:ΘP(S)θΘPθSP(S)S在下面的大部分内容中,将模型区分为函数和相关的分布P:ΘP(S)PΘP(S)

因此统计模型使用概率分布来描述数据。参数模型也用有限的参数集来描述。

这并不意味着所有的统计方法都需要概率分布。例如,线性回归通常用正态假设来描述,但实际上它对于偏离正态性非常稳健,我们需要关于置信区间和假设检验的误差正态性假设。因此,要使回归起作用,我们不需要这样的假设,但要拥有完全指定的统计模型,我们需要用随机变量来描述它,所以我们需要概率分布。我写这个是因为你经常会听到人们说他们对他们的数据使用了回归模型——在大多数情况下,他们宁愿表示他们使用一些参数根据目标值和预测变量之间的线性关系来描述数据,而不是坚持有条件的常态。


McCullagh, P. (2002)。什么是统计模型? 统计年鉴, 1225-1267。

Wasserman, L. (2013)。所有的统计:统计推断的简明课程。施普林格。

考虑到S作为一套门票你可以在票上写东西。通常,一张票以它“代表”或“模型”的某个真实世界的人或物体的名字开头。每张票上都有很多空白处可以写其他东西。

您可以根据需要为每张票制作任意数量的副本。概率模型 P因为这个现实世界的人口或过程包括制作每张票的一个或多个副本,将它们混合在一起,然后将它们放入一个盒子中。如果你——分析师——能够确定从这个盒子中随机抽一张票的过程模仿了你正在研究的所有重要行为,那么你可以通过思考这个盒子来了解这个世界。因为有些票在盒子里的数量可能比其他票多,所以它们被抽中的机会可能不同。 概率论研究这些机会。

数字(以一致的方式)写在票上时,它们会产生(概率)分布。概率分布仅描述了一个盒子中票数在任何给定区间内的比例。

因为我们通常不知道世界的具体行为方式,所以我们必须想象不同的盒子,其中门票以不同的相对频率出现。这些盒子的集合是P. 我们认为世界可以通过其中一个盒子的行为来充分描述P. 你的目标是根据你从票上看到的内容,合理猜测它是哪个盒子。


举个例子(这是实际的和现实的,不是教科书的玩具),假设你正在研究利率y化学反应,因为它随温度而变化。假设化学理论预测,在0100度,速率与温度成正比。

你打算在这两个地方研究这个反应0100度,在每个温度下进行多次观察。因此,你组成了非常非常多的盒子。您将用门票填满每个盒子。每个都写有一个速率常数。任何给定盒子中的所有票都写有相同的速率常数。不同的盒子使用不同的速率常数。

使用写在任何票上的费率常数,您还可以记下费率0和利率在100度数:称这些y0y100. 但这对于一个好的模型来说还不够。化学家还知道,没有任何物质是纯净的,没有精确测量的量,并且会发生其他形式的观察变异。为了模拟这些“错误”,您制作了非常非常多的票证副本。在每个副本上,您更改y0y100. 在它们中的大多数上,你只改变了一点。在极少数情况下,您可能会对其进行很多更改。你写下你计划在每个温度下观察到的尽可能多的变化值。这些观察结果代表了您的实验可能观察到的结果。将这些票的每组放入盒子中:这是一个概率模型,用于在给定的速率常数下可能观察到的结果。

所做的观察是通过从那个盒子里抽一张票并只阅读那里写的观察结果来建模的。 你看不到潜在的(真实)价值y0或者y100. 您无法读取(真实)速率常数。你的实验没有提供这些。

每个统计模型都必须对这些(假设的)盒子中的票做出一些假设。例如,我们希望当您修改y0y100,你这样做没有持续增加或持续减少任何一个(作为一个整体,在盒子内):这将是一种系统偏差。

因为每张票上写的观察结果都是数字,所以它们会产生概率分布。关于盒子的假设通常是根据这些分布的属性来表达的,例如它们是否必须平均为零、是否对称、是否具有“钟形曲线”形状、不相关等等。


这就是它的全部。 就像原始的十二音阶产生了所有西方古典音乐一样,包含门票的盒子的集合是一个简单的概念,可以以极其丰富和复杂的方式使用。它几乎可以对任何东西进行建模,从硬币翻转到视频库、网站交互数据库、量子力学集合以及任何其他可以观察和记录的东西。

将分布定义为为每个可能的事件分配概率适用于离散分布,但对于连续分布变得更加棘手,例如,实线上的任何数字都可能是结果。很多时候,在谈论分布时,我们认为它们具有固定参数,例如具有两个参数的二项分布:首先是观察次数,其次是概率π一个单一的观察是一个事件。

典型的参数统计模型描述了分布的参数如何依赖于某些事物,例如因子(具有离散值的变量)和协变量(连续变量)。例如,如果在正态分布中,您假设平均值可以用某个固定数字(“截距”)和某个数字(“回归系数”)乘以协变量的值来描述,那么您将获得一个线性回归模型一个正态分布的误差项。对于二项分布,一种常用的模型(“逻辑回归”)是假设概率的 logitπ一个事件(π/(1π)) 可以用回归方程来描述,例如intercept+β1covariate1+. 类似地,对于泊松分布,一个常见的模型是假设速率参数的对数(“泊松回归”)。

概率分布提供了有关随机量如何波动的所有信息。在实践中,我们通常没有我们感兴趣的数量的完整概率分布。我们可能知道或假设一些关于它的事情,而不知道或假设我们知道关于它的一切。例如,我们可能假设某个数量是正态分布的,但对均值和方差一无所知。然后我们有一组候选分布可供选择;在我们的示例中,它是所有可能的正态分布。这个分布集合形成了一个统计模型。我们通过收集数据然后限制我们的候选人类别来使用它,以便所有剩余的候选人在某种适当的意义上与数据一致。