机器算法验证 - 我们可以将随机变量视为其分布的实例吗？ - 吾爱随笔录

我们可以将随机变量视为其分布的实例吗？

机器算法验证分布随机变量

2022-04-08 19:47:05

我正在学习哈佛的统计 110 课程。

在第 11 课 ( https://youtu.be/TD1N4hxqMzY?t=4m38s ) 中，Blitzstein 教授说许多学生将随机变量 (RV) 与其分布混淆。作为帮助学生区分这些概念的类比，他说 RV 可以被视为房屋，而分布则可以被视为房屋的蓝图。

这是否意味着我们可以将 RV 视为分布中的具体值（例如，在完成实验后，我们现在有实例，没有概率并且不再涉及），还是我误解了他的类比？

4个回答

是的，它是一个价值，但不，它不一定要实现。随机变量可以实现或未实现。就像房子可以建造或未完工一样。这个类比是为了强调随机变量可以被认为是值，而分布是描述这些值的概率的函数。随机变量不是生成的东西（蓝图，概率分布）；相反，它是正在生成的东西（房子，随机变量）。

你可以更进一步。可以通过几种方式“查看”随机变量。所有这些实体都是独立的事物，但“描述”相同的现象。根据您要回答的问题，您可以使用随机变量的

值/标签/表示，通常用字母表末尾的大写字母表示。这就是他谈到随机变量时的意思。这描述了一次平局的结果。尽管并不总是遵循此约定，但如果没有具体遵守，通常将其大写。如果有，则用小写字母书写。
概率密度/质量函数。这通常是随机变量的“分布”的含义。如果随机变量是离散的 (pmf) 或连续的 (pdf)，则随机变量将具有其中之一。有时它用或或类似的东西表示。它们对于查找随机变量的期望值、方差或其他期望很有用。它们也可以相加（离散 rvs）或积分（连续 rvs），为您提供随机变量的某些事件或结果的概率。 $f_X(x; \theta)$ $p_X(x;\theta)$
累积分布函数。这是一个函数，可以为您提供随机变量在特定范围内的概率。
矩生成函数，当它们存在时，它们“完全定义了一个随机变量”，有利于找到独立随机变量的线性组合的分布。它们也是另一种找到随机变量矩的方法。
特征函数，类似于上面的mgf。

我也在上课程。啊哈时刻伴随着随机变量是一个函数的区别而来。Blitzstein 不是唯一一个这样说的人，但这是我第一次终于明白了。

rv 不是代数变量。实际上，如果您出于教学目的私下为它取一个新名称而不是变量，这甚至是有意义的。只需一分钟，您就可以有益地摆脱对另一个上下文中变量的任何先入之见。

rv 将样本空间中的一个或多个结果映射到实数线。因此它是一个函数。rv（函数）的域是样本空间，即可能的结果。rv（函数）的范围是支持，即 rv 的可能值

样本空间到实数支持。该功能是 rv

支持概率。该函数是离散 rv 的概率质量函数或连续 rv 的累积分布函数支持（rv 映射到的实数）是 rv 的范围，现在是 PMF 或 CDF 的域。

在您进行实验之前，您没有任何结果。你有结果的概率。概率分布告诉您哪些是用于 rv 支持的。当您进行实验时，您会得到结果。它的名称是一个事件。像概率公式中的随机变量这样的表达式不是代数等式的表达式。它是一个事件的表达。该实验有 1 个或多个结果，其中 rv映射到数字 7。 $X = 7$ $X$

我可以看到倾向于说这个“实例化”rv 也许将程序类作为实例化对象分配给内存的类比是一种有用的可视化。然而，对我来说最有用的可视化是 rv 是一个函数的区别。

我认为在实验中“实例化”的是结果！样本空间表达了潜力。实验实现了样本空间的结果，产生了作为样本空间子集的事件。在实验之前，您有一个函数可以说明如何将事件映射到数轴。这就是 rv 您可以使用 PMF 或 CDF 来描述这些事件的概率。一旦有了结果，就没有“具体的 rv”，而是有了事件。该函数仍然是一个抽象。结果是具体的。映射告诉你 rv 的输出

有趣的是，映射的值不会被误认为是结果。

如果我的实验是掷两个硬币，那么样本空间中的结果是：HH、HT、TH、TT。如果我将 rv定义为结果中正面的数量，那么 rv 的范围（称为它的支持）是 {0,1,2}。如果我翻转的结果是 TH，那就是一个事件，即样本空间的一个子集。rv 将其映射为 1。但是，事件包含 2 个结果，TH 和 HT。该事件的概率为：。我故意选择那个是为了强调结果（如 TH）不一定是支持（如 1），并强调 rv 的有意义的操作是这种映射。 $X$ $X = 1$ $P(X = 1) = 0.5$

总之，一个 rv 是一个函数。

是的，你可以——这在技术上是可行的，也可以帮助直觉

直觉：概率直觉最好建立在认知基础之上，将概率视为基于可用信息的信念。出于这个原因，通过思考随机变量是具体的“已实现”值还是随机的“未实现”值来尝试建立直觉通常是一个坏主意。相反，将随机变量视为始终具有真实值会更有用，但您可能知道也可能不知道该值。随机变量要么已经“观察到”，在这种情况下它的值是已知的，或者它是“未观察到的”，在这种情况下它的值是未知的。

现在让我们退后一步，看看概率分布的“房屋蓝图”类比。如果我向您展示房屋蓝图，那么您将对房屋的外观有一个大致的了解，但是有很多您不知道的随机小方面（例如，工艺，油漆工作等方面的细微变化） .)。假设我根据该蓝图建造了大量房屋，然后我向您展示其中一所房屋。我向您展示的房子现在是“观察到的”，因此您无需依赖蓝图即可看到结构。此外，你可以看到很多从蓝图上看不清楚的房子的方面。例如，你可以看到房子被漆成什么颜色，你可以看到建筑物是否有任何裂缝或瑕疵，以及它们在哪里等等。蓝图不再给你任何关于这所房子的信息。现在想想你没见过的房子之一。对于那所房子，你仍然依赖于你认为的蓝图。你不确定我画的是什么颜色，你不确定是否或在哪里有瑕疵、裂缝等。

这（不完美）类似于随机变量及其分布。一旦你观察了随机变量，它的概率分布不再给你任何关于它的值的信息，因为你现在可以看到它的值。相反，如果你没有观察到随机变量，你对它的信念是基于它的概率分布。现在，这个类比有点不完美，因为看房子并不能显示房子的各个方面（仍然有些东西你看不到你仍然依赖蓝图的地方）。在这里，一个稍微好一点的概率类比是将房屋视为由许多随机变量组成的随机向量，并且当您查看房屋时会观察到其中一些随机变量。

尽管类比中存在这种轻微的缺陷，但它仍然有助于直觉，人们可以想象一个“完美”的类比版本，假设你对房子的检查非常彻底，以至于你可以观察到它的一切。这个类比的价值在于它显示了蓝图/分布何时为您提供有关房屋/随机变量的信息，何时不是。

技术可行性：每个单变量概率分布对应于一个概率度量，它将实数的子集映射到零和一之间的概率值。从任何分布你可以形成一个概率测度对应于具有该分布的独立且同分布的随机变量序列。这意味着，如果您有一个标量随机变量的初始分布，则始终可以使用该分布定义一系列 IID 随机变量。从技术上讲，如果你从任何分布开始，那么你可以将它映射到一个序列 $\mathbb{P}$ $^\dagger$ $\mathbb{P}_\infty$ $D$ $\mathbf{x} = (x_1,x_2,x_3,...) \sim \text{IID } D$ .

当我们从考虑一个分布转变为考虑该分布的一系列“实例化”时，这个技术结果确保了我们在坚实的基础上。我们知道，我们永远不会遇到从分发过渡到无限数量的“实例化”时存在技术障碍的情况。

$^\dagger$ 由于超出本文范围的技术原因，概率测度的领域不包括实数的所有子集。相反，概率测度的域是Borel 集的类，它包括由一些初始实数区间的可数并集、交集和否定集组成的集。

一种直观的分布是伯努利分布。它描述了投掷硬币的结果，硬币正面朝上的概率为，反面的概率为 prob。。 $p$ $q=1-p$

如果您投掷一次硬币，您将观察到正面或反面。然而，这个结果是随机变量，而不是分布。然而，分布定义了您观察头部和尾部的概率。所有分布都是如此——连续的和离散的。

Blitzstein 的类比更进一步，因为不存在单一的伯努利分布，而是存在一系列伯努利分布：对于每个值，您将得到不同的伯努利分布。 $p$

其它你可能感兴趣的问题

上一篇使用 PCA 进行预处理但保持相同的维度如何改善随机森林结果？下一篇“报告没有协变量的分析统计结果”