如何处理稀疏数据中的测量误差?

机器算法验证 错误 测量 测量误差 不确定
2022-03-30 09:07:48

未受过教育的非统计学家寻求短期关系以获得非常片面的利益。

所讨论的系统涉及岩石和物理特性。与模型体积相比,对地球的小块进行建模通常意味着很少有实际测量值。许多估计是必需的,我不知道如何处理不确定性的陈述。为了说明起见,假设建模的流程是“测量岩石的小样本:获取属性 X(通过测量的平均值)”,然后“在简单模型中使用 X 来确定 Y”。例如,Y = mX + b。如果我测量了 20 块岩石,并得到属性 X 的平均值,我如何显示它的不确定性,然后我如何在我的 Y 计算中传播它(假设 m 周围的不确定性相比之下是微不足道的)?

我以图形方式查看了我的数据,它们似乎大多具有高斯形状。例如,这是属性 X 的核密度图:

图像内核

一些偏斜和凹凸明显,可能受小样本量的影响。好的,一些岩石类型的值分布相当大,但本质上我们处理的是大体积,并且必须使我们的模型相当理想化,所以你在最左边的黄色曲线上看到的尾巴,虽然是真实的,在我们的数值模拟中不会被探索。一位年长的专业人士曾经告诉我,如果我的模型可以解释大约 85% 的观察结果,那么我应该买香槟。

这:从重复测量中估计误差似乎是一个类似的问题,但我什至不真正理解接受的答案。Std dev/sqrt(n) 是“标准错误”吗?

2个回答

你的问题实际上有两个主要部分。

第一个与统计有关。您将需要根据您对系统的了解来评估数据,并且选择匹配不同分布以确认您拥有的数据类型是一个很好的第一步。一旦你有了一个好的模型,你就可以开始调用如何最好地分析 - 即你能摆脱正态分布类型分析,例如使用简单的平均值还是你需要使用中位数还是分布表明存在更多潜在的复杂性。

这就把我们带到了第二点——可能更多的是在我的专业领域——这就是你是否有足够的样本。我不是指样品的统计背景(某种),而是指矿物代表性样品的地质/冶金评估。作为冶金学家/矿物加工工程师,这通常是比统计数据更大的挑战。如果您没有设法获得正确的样品,您不妨停下来!

要确认您有相关样本,您需要考虑商品的抽样实践。例如,如果您想了解矿体的颗粒密度分布,则需要大量样本才能开始代表整体。我怀疑,由于您正在查看粒子,因此您更有可能试图了解离散矿物的密度,可能是在原位环境中 - 但这可能不是详细讨论该问题的论坛!如果您想了解更多有关这方面的信息,我可以建议您访问有关采样矿体的 LinkedIn 论坛。

对于那些不熟悉矿物学的人来说,核心问题是粒子分析不允许选择离散的种群。这意味着相关矿物和获取样本的选择存在很多混淆数据。

希望这可以帮助。

标记

正如评论中提到的,这个问题有点模糊,所以很难确保我真的回答了。

如果您的属性 X 是 20 次测量的平均值,那么您可以计算该样本的标准偏差,例如 σ。如果您认为测量是独立的,则 X 的标准偏差为 σ / √20。

那么问题是 m 是一个常数还是你真的想从你的数据中估计它。如果是常数,则 Y 的标准差为 m σ / √20。如果您确实有回归问题,例如尝试拟合 m 和 b,然后使用该模型从 X 预测 Y,则最好使用所有数据点(不求平均值)。然后变化​​要大得多,并且取决于 X 的值。如果 X 是高斯的,您可以在 Wikipedia的“正态性假设”段落中查找公式。

据我所知,没有传播不确定性的通用方法,这意味着您必须通过自己的方式解决每个问题。为了说服你,我将使用一个病态的案例。如果 X 在 0 和 1 之间具有均匀分布(方差 1/12),则 tan(π(X - 1/2)) 具有柯西分布,因此具有无限方差。