拟合错误

信息处理 采样 互相关 统计数据
2022-02-02 17:17:39

我想知道是否有人遇到过试图估计光谱数据信号处理中的错误的问题。我知道很多人使用光谱技术来估计不同材料的浓度,但我想知道这些测量结果有多准确(即我想得到类似“物种 A 是 20% +-1%样品给定”)。此外,我想知道如何处理非常极端的情况,其中存在几种不同类型的材料,并且可能具有直接落在彼此之上的可观察对象。

一个简单的例子可能如下:

在此处输入图像描述

您可以看到有两个物种适合数据。如果然后通过计算将面积转换为百分比,(即所取的样本是 48% B,52% A),我们如何确定这一点以及拟合的准确度如何?我知道这将取决于用户(可能)给出的这些峰的位置估计的准确性,所以我对一种在参数中采用已知误差的方法感兴趣(比如 +-15 x 轴表示峰中心位置的误差、峰宽的 +-10 误差等)。

我怀疑当可观察量重叠时误差会变大(即两个拟合函数的峰值中心相同)。

此外,这些光谱可能具有较大的背景,也可能存在误差,影响所有其他物种及其误差。我不确定这个背景是否会与所有其他物种不同,或者是否可以在与所有其他物种相同的算法中处理。

为了进一步说明我的观点,这里是几种不同材料的光谱测量图像:

在此处输入图像描述

顶部的红色是由光吸收给出的原始数据(测量数据),而黑色是计算的背景,蓝色是包括背景在内的所有物种的计算总和。

在底部,减去计算的背景(蓝线和红线现在不包括计算的背景),而下面的几个不同颜色的线是每个物种的总和以创建蓝线。

这些是我对估计误差感兴趣的计算测量值。

如您所见,对于大多数计算测量值,此示例中的误差非常大。每个物种可能有也可能没有与之相关的几个“峰”,这可以用粗体黄色计算线来说明。此外,您可以看到几个计算出的峰值中心落在同一位置,因此即使计算出的线直接落在原始数据上,这也可能会降低测量正确性的确定性。

我已经计算了均方位移作为拟合好坏的快速估计,但我知道这并不能解决实际计算的测量不确定性的任何更大问题。我在统计学中真正做的最多的是标准差和处理多个测量值的计算,但这是完全不同的,因为它处理的是你可以确定只有一个测量值,而看不到多个测量值的差异。有没有办法在非独立和同分布的随机变量上使用置信区间和置信水平?(再一次,我对统计学很陌生,从来没有上过这门课程,所以如果这是基本的或微不足道的,我深表歉意)

1个回答

好吧,在不知道你的算法细节的情况下,我假设你基本上有多个函数(例如,高斯或洛伦兹峰,每个都有位置和 FWHM 参数,另外可能还有一些背景多项式等),你把它们加起来成一个大“拟合函数”,您将其移交给优化算法,该算法会调整参数,直到您找到非线性最小二乘法意义上的良好拟合。

然后你可以做的是计算渐近标准误差为此,您必须(很可能以数字方式)计算拟合函数的雅可比矩阵(每个测量点(行)处每个参数(列)的偏导数矩阵)。由此您可以计算方差-协方差矩阵,然后计算每个参数的误差。这是曲线拟合软件中经常出现的一种方法。事实上,在 OriginLabs 这里有一个相当全面的解释(参见参数标准错误部分)。也可以在 arxiv找到更详细的概述。

本文讨论了其他方法它们当然是合适的,在某些情况下甚至可能是强制性的,但我发现它们对于大多数“现实世界”应用程序来说有点太复杂了。

如果我是你,我会首先使用渐近标准错误,看看它们是否符合需要。如前所述,这是一种易于实施的策略,也广泛存在于软件包中。