化学浓度数据通常有零,但它们不代表零值:它们是不同(且令人困惑)代表未检测(测量表明,很有可能,分析物不存在)和“未量化”的代码值(测量检测到分析物但无法产生可靠的数值)。让我们在这里模糊地称这些“ND”。
通常,有一个与 ND 相关的限制,称为“检测限”、“定量限”或(更准确地说)“报告限”,因为实验室选择不提供数值(通常用于法律原因)。关于 ND,我们真正知道的只是真实值可能小于相关限制:它几乎(但不完全)是左删失的一种形式. (好吧,这也不是真的:这是一个方便的虚构。这些限制是通过校准确定的,在大多数情况下,这些校准具有差到可怕的统计特性。它们可能被严重高估或低估。知道何时知道这一点很重要处被截断(例如)处的“尖峰” 。这强烈表明报告限制只是一个略低于,但实验室数据可能会试图告诉您它是或或类似的东西。)1.3301.330.50.1
在过去 30 年左右的时间里,人们就如何最好地总结和评估这些数据集进行了广泛的研究。Dennis Helsel 就此出版了一本名为 Nondetects and Data Analysis (Wiley, 2005) 的书,教授了一门课程,并发布了一个R
基于他喜欢的一些技术的软件包。他的网站很全面。
这个领域充满了错误和误解。赫尔塞尔对此坦率地说:在他的书第一章的第一页,他写道,
...当今环境研究中最常用的方法,即检测限的二分之一替代,不是解释审查数据的合理方法。
那么该怎么办? 选项包括忽略这个好的建议,应用 Helsel 书中的一些方法,以及使用一些替代方法。没错,这本书并不全面,并且确实存在有效的替代方案。向数据集中的所有值添加一个常量(“启动”它们)就是其中之一。但请考虑:
添加不是一个好的开始,因为这个配方取决于测量单位。 每分升添加微克与每升111
启动所有值后,您仍然会在最小值处出现尖峰,表示该 ND 集合。您希望这个峰值与量化数据一致和起始值之间的对数正态分布的质量。0
确定起始值的一个很好的工具是对数正态概率图:除了 ND,数据应该是近似线性的。
ND 的集合也可以用所谓的“delta 对数正态”分布来描述。这是点质量和对数正态的混合。
从下面的模拟值直方图中可以明显看出,删失和增量分布并不相同。 delta 方法对于回归中的解释变量最有用:您可以创建一个“虚拟”变量来指示 ND,取检测值的对数(或根据需要进行转换),而不用担心 ND 的替换值.
在这些直方图中,大约 20% 的最低值已被零替换。为了可比性,它们都基于相同的 1000 个模拟基础对数正态值(左上角)。增量分布是通过将 200 个值随机替换为零来创建的。删失分布是通过用零替换 200 个最小值来创建的。“现实”分布符合我的经验,即报告限值实际上在实践中有所不同(即使实验室没有指出!):我让它们随机变化(只有一点点,很少超过 30 英寸)任一方向)并将所有小于其报告限制的模拟值替换为零。
为了显示概率图的效用并解释其解释,下图显示了与前面数据的对数相关的正态概率图。
左上角显示所有数据(在任何审查或替换之前)。它非常适合理想的对角线(我们预计极端尾部会有一些偏差)。这是我们在所有后续图中的目标(但是,由于 ND,我们将不可避免地达不到这个理想值。)右上角是删失数据集的概率图,起始值为 1。这是一个糟糕的拟合,因为所有的 ND(绘制在 0,因为log(1+0)=0) 绘制得太低了。左下角是删失数据集的概率图,起始值为 120,接近典型的报告限制。左下角的拟合现在是不错的——我们只希望所有这些值都接近拟合线,但在拟合线的右侧——但上尾的曲率表明添加 120 开始改变分布的形状。右下角显示了 delta-lognormal 数据发生的情况:上尾非常适合,但在报告限制附近有一些明显的曲率(在图的中间)。
最后,让我们探索一些更现实的场景:
左上角显示删失数据集,其中零点设置为报告限制的二分之一。这是一个非常合适的。右上角是更真实的数据集(具有随机变化的报告限制)。起始值 1 没有帮助,但在左下方 - 对于 120 的起始值(接近报告限制的上限),拟合非常好。有趣的是,当点从 ND 上升到量化值时,中间附近的曲率让人想起delta 对数正态分布(即使这些数据不是从这种混合中生成的)。右下角是当实际数据的 ND 被(典型)报告限制的二分之一替换时得到的概率图。 这是最合适的,即使它在中间显示了一些类似 delta-lognormal 的行为。
那么,您应该做的是使用概率图来探索分布,因为使用各种常数代替 ND。从名义、平均、报告限制 的二分之一开始搜索,然后从那里上下调整。选择一个看起来像右下角的图:量化值大致是一条对角线直线,快速下降到一个低平台,以及一个(几乎)与对角线延伸相交的值平台。但是,按照 Helsel 的建议(在文献中得到强烈支持),对于实际的统计摘要,请避免使用任何将 ND 替换为任何常数的方法。 对于回归,请考虑添加一个虚拟变量来指示 ND。对于某些图形显示,用概率图练习找到的值不断替换 ND 会很有效。对于其他图形显示,描绘实际报告限值可能很重要,因此用它们的报告限值代替 ND。你需要灵活!