线性回归上下文中的噪声方差和采样

信息处理 噪音 采样 最小二乘 回归 监督学习
2022-01-15 09:23:34

我是信号处理的新手,所以请多多包涵。我的问题适用于从噪声测量中估计的任何一般问题,但我想通过这里给出的问题来理解这一点。

假设需要估计是时间多项式,并且需要估计该多项式的系数N秒的测量值\mathbf{y}可用,但它会受到方差为\sigma^2的高斯白噪声的影响。一种典型的方法是使用L阶的多项式逼近并提出最小二乘问题,即 \arg \min_{\boldsymbol{\theta}} \: \vert \vert \mathbf{y} - \mathbf{V} \: \boldsymbol{\theta} \vert \vert^2 其中\mathbf{V}是 Vandermonde 矩阵,并且f(t)f(t)θNyσ2L

argminθ||yVθ||2
Vθ=[θ0θ1θL1]Tθi=if(t)ti|t=0ith导数。

问题:假设有K个样本跨越这N秒的测量。一般来说, K决定了估计θ^的准确程度。通常,您拥有的K越多,您的估计就应该越好。但是,如果您在将数据保持在给定N秒内的同时增加K,尽管要拟合更多样本,但您也可以得到具有相同噪声方差\sigma^2的测量值y_i这最终将导致“嘈杂”的数据,从而导致更差的拟合。因此,在我的玩具示例中,如果我在N秒内采集更多样本,即更多KNyiσ2NK,估计值比我会采取更少的样本更糟糕,因为最小二乘法试图拟合噪声而不是信号。所以问题是:

  • 当我在N秒内增加K即样本数时,我应该如何缩放我的噪声以从增加的采样中获得任何好处?N
  • 它在实际传感器中如何工作?假设我正在测量到空间中移动点的距离。如果我采样更多(因此采样点在时间上更接近),我的传感器应该给我一个较低的测量方差,以便我更好地估计路径。

如果有什么不清楚的地方请评论!随意彻底。

1个回答

在进入这个之前有一个注意事项。
如果我们谈论离散数据,那么在同一时间间隔内拥有更多样本意味着更高频率的采样。现在,如果您记得如何记住如何将离散噪声作为连续白噪声的样本导出(请参阅如何在特定带宽的通信系统中模拟 AWGN(加性高斯白噪声)的回答和如何生成频带限制的回答) MATLAB 中的高斯白噪声) 你会看到,如果你保持离散噪声方差不变,这意味着你改变了不同的采样频率,这意味着你改变了连续噪声的方差。通常我们有一个固定的连续噪声方差,然后我们对不同采样频率的离散噪声进行采样。

现在,关于您的具体问题,获得直觉的最佳方法是使用线性函数:

yi=axi+b+ni,i=0,1,,N1

假设我们只有 2 个样本: 想一想,让它们彼此靠近或尽可能远,会更好吗? 好吧,既然答案很明显,您可以从问题的答案中得出。N=2

更正式的是,模型的最小二乘估计量的协方差:

y=Xβ+n

σn(XTX)1

因此,对于来自具有固定噪声的传感器(来自连续噪声模型)的真实系统,样本距离越远,的值就会越低。σn