从线性回归中的残差到信号处理中的噪声是否假定为正态分布?通过将它们视为正态分布,我们有点告诉噪声中的模式,但不应将噪声视为随机的。这对我来说似乎是矛盾的,因为一方面它是随机的,另一方面它们的分布被认为是正态分布的。噪声分布不应该是随机的吗?
我相信我对统计分布的概念缺乏理解,这导致了我的困惑,或者我看错了。
再举一个例子——当一个通过添加高斯噪声来增加数据时,预计不会改变数据的整体分布,为什么?
从线性回归中的残差到信号处理中的噪声是否假定为正态分布?通过将它们视为正态分布,我们有点告诉噪声中的模式,但不应将噪声视为随机的。这对我来说似乎是矛盾的,因为一方面它是随机的,另一方面它们的分布被认为是正态分布的。噪声分布不应该是随机的吗?
我相信我对统计分布的概念缺乏理解,这导致了我的困惑,或者我看错了。
再举一个例子——当一个通过添加高斯噪声来增加数据时,预计不会改变数据的整体分布,为什么?
从比其他(更聪明的)答案更基本的层次开始,我想回答这部分问题:
这对我来说似乎是矛盾的,因为一方面它是随机的,另一方面它们的分布被认为是正态分布的。
也许这里的问题是“随机”是什么意思?
需要明确的是:“随机”和“正态分布”并不矛盾。“随机”只是意味着我们无法准确预测下一个值将是什么。但这并不意味着我们不能对它做出概率性的陈述。
考虑两个实验:
如果你掷出一个(公平的)骰子,那么它可能会显示从 1 到 6 的任何数字。我们无法判断会出现哪个数字,但我们可以说所有数字的可能性相同(即分布是均匀的)。
如果你掷两个骰子并取它们的总和,它可以是 2 到 12 之间的任何数字。同样,总和仍然是随机的——我们无法预测它会是什么——但我们可以说这些值的可能性并不相同。(例如,7 的可能性是 12 的六倍。)所以在这种情况下,它具有非均匀分布。(您可以绘制所有概率;它们呈现出一个尖峰形状,有点像正态分布。)
所以没有矛盾:两种情况都是随机的并且具有已知的分布。
事实上,大多数随机的事物往往具有非均匀分布:电噪声、天气、等待下一班公共汽车、投票模式……能够对它们做出一般性陈述而不能够预测确切值是其中之一统计的优势。
(至于为什么你经常得到正态分布,这是中心极限定理的结果,它说当你结合许多独立的随机变量时,结果趋向于高斯(正态)分布。所以你看到了很多。)
要看的地方是大数的弱强定律,它是中心极限定理的基础,它指出如果在这些随机数的方差上添加大量具有一些温和条件的独立随机变量,则sum 将与正态分布无法区分。
正态分布还具有所有具有约束方差的分布的最大熵的特性。
正态分布是线性估计的关键,但应该注意的是,它不是信号处理中考虑的唯一分布,而对于新手来说似乎如此。
Normal 通常是一个很好的模型。许多物理噪声机制是正态分布的。它也倾向于承认封闭形式的解决方案。
人们还会遇到正常假设有效的情况,尽管它不是一个完全准确的假设。
我不明白你最后的说法。数据具有分布,添加正态噪声不会改变该分布。信号和噪声分布反映了两者。
对像 Gram Chalier 系列这样的正态分布也有“改进”或更正。
正态分布(我喜欢称其为“高斯”)在添加正态分布数字后保持正常。因此,如果高斯进入 LTI 滤波器,则会出现高斯分布。但是由于这个中心极限定理,即使均匀的 pdf 随机过程进入具有长而密集的脉冲响应的 LTI 滤波器,出来的结果也往往是正态分布的。所以 LTI 系统实际上只改变了一些参数,比如信号的功率谱或自相关。LTI 滤波器可以将统一的 pdf 白色随机过程转变为高斯 pdf 粉红噪声。
我将尝试清除一种可能的混淆来源。如果从单个分布中挑选每个样本值感觉“不够随机”,那么让我们尝试通过添加另一层随机性来使事情“更加随机”。这将被发现是徒劳的。
想象一下,对于每个样本,噪声是随机的,因为它来自从可能分布列表中为该样本随机选择的分布,每个分布都有自己的发生概率和可能样本值的概率列表。仅使用三个分布和四个可能的样本值来保持简单:
这里我们实际上有一个分布分布。但是有一个分布可以说明该样本值的概率的所有信息:
总概率是作为样本值在可能分布上的条件概率之和获得的:
应用的概率定律:
在哪里是的事件出现的样本值,以及是相互排斥和详尽的选择事件分配。
对于连续分布,会发生类似的事情,因为在可能事件的数量接近无穷大的情况下,这些可以被建模为离散分布。