我正在阅读解释统计泛函的课堂笔记,并遇到了以下表达式,几乎没有解释它们是如何派生的:
均值
方差
我是否正确?如果是这样,我不确定动机是什么——我们以函数形式表达描述性统计数据有什么好处?
我正在阅读解释统计泛函的课堂笔记,并遇到了以下表达式,几乎没有解释它们是如何派生的:
均值
方差
我是否正确?如果是这样,我不确定动机是什么——我们以函数形式表达描述性统计数据有什么好处?
当随机变量的概率测度(或等效的 CDF,)相对于 Lebesgue 测度绝对连续时为真。这意味着对于所有 Lebesgue 测度为零的集合,该测度也将测度分配为 0。您可以认为这意味着 Lebesgue 测度和分布测度是同一空间的测度。分布关于 Lebesgue 测度的“导数” :
其中是概率密度函数。我们也可以将其视为度量的变化,概率分布度量和 Lebesque 度量的重新加权。一般来说,这是氡-nikodym衍生物的一个例子。
那么为什么要引入所有这些机制和符号来回到 pdf 呢?
真正的魔力在于与 Lebesgue 测度不是绝对连续的。例如,假设我们有一个离散随机变量。离散随机变量不能具有与 Lebesgue 绝对连续的概率测度,因为它们明确地为某些可数集提供了正测度。
在离散情况下,我们采用 radon-nikodym 来表示计数度量,并且这种情况下的积分简化如下:
其中是离散随机变量的支持度。在基本统计和概率书籍中,离散和连续随机变量通常完全分开呈现。本质上,我们定义了关于计数度量的 radon-nikodym 导数,给它一个特殊的名称 (pmf),然后讨论我们如何构建关于这些 pmfs 的感兴趣的积分。然后我们重新定义连续变量 (pdf) 的 radon-nikodym 导数,并重新引入与 pdf 相关的所有相同概念。
测度理论框架允许我们将概念概括为包括连续和离散随机变量(以及不属于任何一个类别的变量),并引入一个标准符号,该符号不会强迫我们做出不重要的区分到潜在的概率论,促进概念之间的联系。成本显然是对测度理论的投资,这对于所有对学习统计数据和概率感兴趣的人来说可能并不可行。
首先对问题进行更正:当写
这些量不是统计数据,而是数据分布的函数。例如,是的平均值。因此泛函是广义矩。(下面是我的第二点统计数据。) 至于的使用,这是测度论中的通用符号,Tyrel Stokes 的回答非常好。
关于统计,符号的动机是引导方法的核心:在估计 时,当是基于观察到的样本的经验分布时,使用由于该经验分布具有有限支持,因此它不享受 pdf wrt Lebesgue 测量,但在观察样本定义的集合上具有 pmf。原因是,由于是的收敛近似(根据 Glivenko-Cantelli 定理),因此同样适用于。