连续数据估计误差

机器算法验证 回归 置信区间 估计
2022-03-15 02:42:09

有没有办法将拟合误差(MSD - 均方位移)与使用与拟合相关的参数执行的计算的误差相关联?

我的具体问题是处理光谱数据。我知道很多人使用光谱技术来估计不同材料的浓度,但我想知道这些测量结果有多准确(即我想得到类似“物种 A 为给定的样本”)。此外,我想知道如何处理非常极端的情况,其中存在几种不同类型的材料,并且可能具有直接落在彼此之上的可观察对象。 20%±1%

一个简单的例子可能如下:

您可以看到有两个物种适合数据。如果然后通过计算将面积转换为百分比,(即所取的样本是 48% B,52% A),我们如何确定这一点以及拟合的准确度如何?我知道这将取决于用户(可能)给出的这些峰的位置估计的准确性,所以我对一种在参数中采用已知误差的方法感兴趣(比如\ x 轴表示峰中心位置的误差、峰宽的 +-10 误差等)。±15

我怀疑当可观察量重叠时误差会变大(即两个拟合函数的峰值中心相同)。

此外,这些光谱可能具有较大的背景,也可能存在误差,影响所有其他物种及其误差。我不确定这个背景是否会与所有其他物种不同,或者是否可以在与所有其他物种相同的算法中处理。

为了进一步说明我的观点,这里是几种不同材料的光谱测量图像:

[图片](http://imgur.com/3mO80Bj)

顶部的红色是由光吸收给出的原始数据(测量数据),而黑色是计算的背景,蓝色是包括背景在内的所有物种的计算总和。

在底部,减去计算的背景(蓝线和红线现在不包括计算的背景),而下面的几个不同颜色的线是每个物种的总和以创建蓝线。

这些是我对估计误差感兴趣的计算测量值。

如您所见,对于大多数计算测量值,此示例中的误差非常大。每个物种可能有也可能没有与之相关的几个“峰”,这可以用粗体黄色计算线来说明。此外,您可以看到几个计算出的峰值中心落在同一位置,因此即使计算出的线直接落在原始数据上,这也可能会降低测量正确性的确定性。

我已经计算了均方位移作为拟合好坏的快速估计,但我知道这并不能解决实际计算的测量不确定性的任何更大问题。我在统计学中真正做的最多的是标准差和处理多个测量值的计算,但这是完全不同的,因为它处理的是你可以确定只有一个测量值,而看不到多个测量值的差异。是否使用置信区间和置信水平解决了这个问题?(再一次,我对统计学很陌生,从来没有上过这门课程,所以如果这是基本的或微不足道的,我深表歉意)

1个回答

以下步骤将帮助您计算连续数据中的估计误差项。虽然我主要处理心理学研究,但我认为您正在寻找计算误差项和置信区间。这是我从其他地方改编的示例,但显示了 95% 置信区间的逐步计算。

假设样本为 30(n=30),他们的平均分数为 x̄=118.3,标准差为 11.4(SD=11.4)。因此,让我们找到总体均值的 95% 置信区间。

术语定义: a) α = 1 - 置信度(您可以选择 0.95、0.99 等),因此 1 - .95 = .05。b) 令 t(α/2) 为双尾分布的 t 值。c) x̄ 是样本均值。

因此,第 1 步:最大误差为:Error = t(α/2) * SD/sqrt(n)

我们知道 SD = 11.4 和 n = 30,但我们需要 t(α/2)。

第 2 步:要找到 t(α /2),我们查看一个学生 t 分布表(如果您的样本 (n) 大于 30,您可以使用标准 t 分布表),其中 0.05 在两个尾部,29 (那是 n-1 或 30-1) 自由度。我们得到 2.045。您可以在网上或大多数统计教科书的背面找到此表。

3) 现在回到我们在步骤 2 中的公式。E = 2.045 *11.4/Sqrt(30) =4.256

4) 最后,区间为:x̄ + or - E = 118.3 + 4.256 and E = 118.3 - 4.256

您现在可以说 100 次中有 95 次平均得分会落在平均得分的 114.044 到 122.556 之间。