考虑到S作为一套门票。你可以在票上写东西。通常,一张票以它“代表”或“模型”的某个真实世界的人或物体的名字开头。每张票上都有很多空白处可以写其他东西。
您可以根据需要为每张票制作任意数量的副本。概率模型 P因为这个现实世界的人口或过程包括制作每张票的一个或多个副本,将它们混合在一起,然后将它们放入一个盒子中。如果你——分析师——能够确定从这个盒子中随机抽一张票的过程模仿了你正在研究的所有重要行为,那么你可以通过思考这个盒子来了解这个世界。因为有些票在盒子里的数量可能比其他票多,所以它们被抽中的机会可能不同。 概率论研究这些机会。
当数字(以一致的方式)写在票上时,它们会产生(概率)分布。概率分布仅描述了一个盒子中票数在任何给定区间内的比例。
因为我们通常不知道世界的具体行为方式,所以我们必须想象不同的盒子,其中门票以不同的相对频率出现。这些盒子的集合是P. 我们认为世界可以通过其中一个盒子的行为来充分描述P. 你的目标是根据你从票上看到的内容,合理猜测它是哪个盒子。
举个例子(这是实际的和现实的,不是教科书的玩具),假设你正在研究利率y化学反应,因为它随温度而变化。假设化学理论预测,在0和100度,速率与温度成正比。
你打算在这两个地方研究这个反应0和100度,在每个温度下进行多次观察。因此,你组成了非常非常多的盒子。您将用门票填满每个盒子。每个都写有一个速率常数。任何给定盒子中的所有票都写有相同的速率常数。不同的盒子使用不同的速率常数。
使用写在任何票上的费率常数,您还可以记下费率0和利率在100度数:称这些y0和y100. 但这对于一个好的模型来说还不够。化学家还知道,没有任何物质是纯净的,没有精确测量的量,并且会发生其他形式的观察变异。为了模拟这些“错误”,您制作了非常非常多的票证副本。在每个副本上,您更改y0和y100. 在它们中的大多数上,你只改变了一点。在极少数情况下,您可能会对其进行很多更改。你写下你计划在每个温度下观察到的尽可能多的变化值。这些观察结果代表了您的实验可能观察到的结果。将这些票的每组放入盒子中:这是一个概率模型,用于在给定的速率常数下可能观察到的结果。
你所做的观察是通过从那个盒子里抽一张票并只阅读那里写的观察结果来建模的。 你看不到潜在的(真实)价值y0或者y100. 您无法读取(真实)速率常数。你的实验没有提供这些。
每个统计模型都必须对这些(假设的)盒子中的票做出一些假设。例如,我们希望当您修改y0和y100,你这样做没有持续增加或持续减少任何一个(作为一个整体,在盒子内):这将是一种系统偏差。
因为每张票上写的观察结果都是数字,所以它们会产生概率分布。关于盒子的假设通常是根据这些分布的属性来表达的,例如它们是否必须平均为零、是否对称、是否具有“钟形曲线”形状、不相关等等。
这就是它的全部。 就像原始的十二音阶产生了所有西方古典音乐一样,包含门票的盒子的集合是一个简单的概念,可以以极其丰富和复杂的方式使用。它几乎可以对任何东西进行建模,从硬币翻转到视频库、网站交互数据库、量子力学集合以及任何其他可以观察和记录的东西。