机器算法验证 - 处理带有 U 标记的化学数据的标准做法 - 吾爱随笔录

处理带有 U 标记的化学数据的标准做法

机器算法验证缺失数据间隔审查

2022-03-25 03:08:26

我有一个大型环境化学数据集。许多结果都被实验室或验证者标记为 U。如果我想使用这些结果来查找一段时间内的平均值，我看到有几个选项可以合并 U 标记的结果

替代检测限 (LOD)
替换 LOD/2
替换 LOD/sqrt(2)
替换 0
使用中值（前提是数据集中少于一半的值被标记为 U）
使用修剪过的平均值
其他一些我不知道的方法

我觉得这些方法中的每一种都有利有弊（一些偏差低，高，扭曲数据集的可变性）。我不知道处理低于检测限的结果的标准做法是什么。在处理具有缺失值的化学数据时，哪些方法（或其他方法）是典型的？

编辑：澄清一下，这些 U 标记的值并没有真正丢失，因为它不像对它们一无所知。有一些信息：它们大于或等于0但小于检测限。

2个回答

关于这一点已经写了整本书，尤其是Dennis Helsel 的Nondetects and Data Analysis (Wiley-Interscience, 2005)。 Helsel 也有一个NADA包R。因此，我将把这个答案限制在我会向任何开始分析环境数据的人解释的最重要的事情上。

“检测限”有 20 多种不同的定义。 确保你理解给你的限制的含义。通常应将它们视为报告限值：它们是实验室选择的用于限制其责任的值。它们通常不是LoD、MDL、PQLS 等（与测量过程有某种关系）。为了不暗示任何意外，我将与 U 值关联的数字称为“RLs”。
如果通过“标准实践”您的意思是“每个人都在做什么（无论他们是否理解问题”，那么答案是使用 0、RL/2 或 RL。
如果你的意思是“合理的实践”，那么请理解，30多年来，每个人的所作所为都在文献中受到了彻底而持续的批评。有时您可以摆脱这些简单的替换方法，特别是当您的分析结果最终不取决于您如何估算值时。但在大多数情况下，你不能。基本问题是，任何固定的插补方法，例如 RL/2，都会将一个真正变化的量分解为一个不变的量：这可能会完全搞砸所有的变化估计，并且在这一点上几乎没有任何用处除了汇总数据之外的任何类型的统计程序。
Helsel 提倡应用非参数生存方法。 只是否定所有的价值观，并假装它们表现得像生存时代。（这是一种聪明的方法，有时会奏效，但它确实对数据做出了相当强的潜在假设，根据我的经验，它们似乎并不成立。）
当有足够的数据时，一类基于最大似然的技术效果很好。 我一直在将这些应用于回归模型，最近也成功应用于时间序列模型。挑战在于对具有大部分未检测到的数据之间的相关性进行推断。censReg用于R. _
您最好花时间开发适当的图形方法来显示这些数据。 例如，在散点图中，对四种可能的数据组合使用不同的符号：均量化、第一个 ND、第二个 ND、均 ND。在 RL 给定的值处绘制它们，以便您查看报告限制。这使您有最好的机会发现对您如何处理未检测到的数据敏感的部分。
了解可用于计算公差上限和预测上限的非参数方法。 这些方法的美妙之处在于，您通常根本不需要为 ND 估算值。在美国 EPA 的RCRA 设施地下水监测数据统计分析中对它们进行了广泛描述。可以说，这份庞大的文件（包括其附录在内近 1000 页）体现了美国的“标准做法”，并且——因为它在世界各地被其他国家广泛效仿。
最后，您可能还知道美国 EPA 提供了一些处理 ND 的软件。 它被称为Pro-UCL。因为它受到这个监管机构的青睐，它的使用正在迅速成为顾问中的“标准做法”——尤其是在那些不了解统计数据的人中。它为任何数据集（从好到坏）提供了一系列程序，使任何用户都可以选择他们想要的统计结果。（没有评论。）使用它将是劳动密集型的——它基本上是一个大的电子表格。如果你真的知道自己在做什么，那么它就有一些价值；如果您必须将结果提交给美国联邦或州机构，您可能会被迫使用它。

我们在 HIV 模型中看到了这种现象，其中 CD4 和病毒载量经常低于检测限，即使参与者是该疾病的携带者。你描述的方法是有用的方法，虽然有偏见，但很容易描述。让我建议您可能采取的另一种方法是同时计算完整案例中的均值，例如价值未达到 LLD 的案例，然后在旁边显示确实达到该价值的案例的比例/计数。

你提出了多种形式的单一插补，众所周知这是行不通的。作为缺失值的插补填充了它可能是什么的“最佳猜测”。结果是您倾向于低估标准误差。为了解决这个问题，您可能采用的一种方法是参数化建模方法，其中您假设浓度值的分布，例如对数正态分布，并使用 EM 算法同时估计它们的分布形状和一系列值实现的 LLD 观察结果。在此过程中，您可以适当地考虑与未知 LLD 值相关的误差，并获得均值和标准差的无偏估计。这最好与我之前的建议一起作为解决问题的两种方法提出。

像 Winbugs 或 R 这样的贝叶斯估计软件擅长执行这种推理，但我强调我描述的方法实际上并不是贝叶斯。EM 算法只是一种最大似然方法，它使用关于数据的参数假设来填充缺失值。

其它你可能感兴趣的问题

上一篇从 1% 的样本中估计误差下一篇R 的平方总是大于 1