为什么信号平均可以将噪声水平降低超过 n−−√n?

信息处理 信号分析 噪音 去噪 平均
2022-01-06 05:34:00

我有一个基于时间的电生理信号。它基本上以随时间变化的电位差的形式测量神经活动。

假设该信号中的噪声是由设备电子设备引起的随机背景噪声,并且假设具有正态(高斯)分布(基于以前的文献)并且它应该是固定的。下面我添加了一些显示原始扫描的图(每次扫描记录 2.3 ms,采样率 = 56k,存储了 127 个点)、值的直方图和 FFT。

回答下面的答案:我相当有信心我们可以假设正态分布的数据,因为它是一个钟形。但是,FFT 并不像回答者建议的那样平坦,因为它应该是正态分布的。但是,我们只有几毫秒的数据,这可能会使此类分析复杂化。

假设一个正态分布,理论上,将扫描次数加倍并将它们平均应该可以将噪声降低2 美元(约 1.41 美元)的平方根因子这种减少随机背景噪声的信号平均称为整体平均

现在,我有一个录音(没有信号,只有背景),我确定了平均为 1 美元、2 美元、4 美元、8 美元和 16 美元的噪音水平。
编辑:这是通过重新记录背景噪声并使用 MATLAB 确定平均值来完成的,格式B = mean(A1,A2)为 , Ai是具有基于时间的信号的向量。

噪声水平定义为扫描的标准偏差。当我确定这些平均值之间的改进因素时,21、42、84 和 168,我分别找到了 1.4 美元、2.5 美元、2.5 美元和 2.3 美元的因素。这些改进因子是通过确定 SD n / SD 2n之间的比率来简单计算的,其中 n 是平均扫描次数。

我发现的因素是在总共N = 13 人中测量的 31 个电极的平均值。换句话说,它在试验和 13 种不同的设备中是一致的。我没有做统计,但我敢打赌后三个改进是显着的>1.41

为什么当我的扫描从 2 到 4、从 4 到 8 和 8 到 16 加倍时,降噪比理论值 1.41 高?

扫
原始扫描;2.3 ms,56 kHz 采样率,127 个数据点

直方图
幅度分布直方图

快速傅里叶变换
信号的 FFT

3个回答

好吧,我会说你的噪声是高斯的假设是不合适的。如果噪音是由机器干扰引起的,它可能具有一些音调特征。相同频率的音调在添加时可以相互加强或抵消。

为了更好地了解可能发生的情况,您应该:

1)制作噪声的直方图

2) 对噪声进行 FFT

直方图应该看起来像钟形曲线,FFT 结果应该是平坦的。如果不是,则您的噪声不是高斯噪声。

希望这可以帮助。

赛德

一般来说,对于任何有方差的 $x_i$ 分布xi that has a variance

The sumi=0N1xihas varianceσtotal2=i=0N1σi2
if the xi are independent.
The average1Ni=0N1xihas varianceσave2=1Ni=0N1σi2
which in terms of the question.
σave=σiN
if the xi have the same variance, or in other terms is iid (independent identically distributed)

高斯与否,这是真的,它不依赖于中心极限定理。它只需要是独立同住的。高斯性无关紧要。

当 $E\{x_i\} \ne 0$ 计算标准差时需要小心。$$ E\{x_i^2\}= \sigma^2 + E\{x_i\}^2 $$ 对于独立随机变量的总和,如果它们有方差,则方差相加。例如,柯西分布没有方差。E{xi}0 you need to be careful when calculating the standard deviation.

E{xi2}=σ2+E{xi}2
For sums of independent random variables, variances add if they have a variance. As an example a Cauchy distribution doesn't have a variance.

如果您的测量采用 $ r_i=s_i+n_i $ 的形式,其中 $s_i$ 是确定性信号,$n_i$ 是 iid 噪声。如果您正在形成具有完全相同的 $s_i$ 并且在平均时完全对齐的集合,则 SNR 增益的计算很简单。如果 $s_i$ 是随机的(或部分随机),则计算会更复杂。 ri=si+ni where si is a deterministic signal and ni is iid noise. The calculation of SNR gain is straightforward if you are forming ensembles with exactly the same si and are exactly aligned when averaging. If si is random (or partially random) the calculation is more complicated.

嗨:我没有遵循整个事情(甚至没有接近。术语对我不起作用)但是您可能错误地解释了 n 规则的平方根。n规则的平方根实际上意味着以下统计。

假设我有一个正态分布的随机变量 $x$,其 sd 已知为 $\sigma_{x}$。(注意我说 $\sigma$ 是已知的而不是估计的)并且已知的意思是什么(把它当作零,但没关系)。所以 $x_{i}$s 来自均值为零和 sd $\sigma_{x}$ 的正态分布。x whose sd was known to be σx. ( notice I said σ is known and not estimated ) and known mean whatever ( take it as zero but it doesn't matter ). So
xis come from the normal distribution with mean zero and sd σx.

实验:生成 $n~ x_{i}$'s 并计算平均值:$\bar{x}_{1}$。同样,生成 $n~ x_{i}$'s 并计算平均 $\bar{x}_{2}$。重复这样做 $N$ 次,得到 $N$ 个随机变量,$\bar{x}_{i}, \ldots \bar{x}_{N}$ 每个都是 $N$ 的平均值n$ 观察。n xi's and calculate the average: x¯1. Again, generate n xi's and calculate the average x¯2. Do this over and over say N times so you get N random variables, x¯i,x¯N each of which is an average of n observations.

然后,正确的“n 的平方根”语句是 $\bar{x}_{i}$(其中有 N 个,但现在可以认为它们来自一个群体)具有正态分布与原始平均值相同的平均值(因此为零)和标准差 $\frac{\sigma_{x}}{\sqrt{n}}$x¯i ( there are N of them but now one can think of them as coming from a population ) have a normal distribution with the same mean as the original mean ( so zero ) and standard deviation σxn

混淆可能源于这样一个事实,即使用 CLT 得出相同结论的该语句的变体,但 CLT 需要较大的 n 以确保收敛,并且一旦您需要 CLT,事情就会变得更加模糊,这就是您误解的地方(如果有的话)可能来自。

如果 $\sigma_{x}$ 已知并且基础分布是正态的,则不需要 CLT 作为假设,并且此陈述是事实并且与 $n$ 的值无关(CLT 版本需要大 n 并且不需要假设 $\sigma_{x}$ 已知,因此您需要假设 $\sigma_{x}$ 的估计值已收敛到真实值)。您可以在 matlab 或 R 中尝试实验并亲自查看。如果我有时间,我会在 R 中展示它,但我没有。σx is known and the underlying distribution is normal, then the CLT is not needed as an assumption and this statement is fact and independent of the value of n ( CLT versions need large n and don't assume σx known so you need to assume that the estimated value of σx has converged to the true one ). You can try the experiment out in matlab or R and see for yourself. If I had time, I'd show it in R but I don't.

就像我说的,我不关注你在做什么,但这可能就是奇怪的来源。我希望这有帮助。