我有一个大型环境化学数据集。许多结果都被实验室或验证者标记为 U。如果我想使用这些结果来查找一段时间内的平均值,我看到有几个选项可以合并 U 标记的结果
- 替代检测限 (LOD)
- 替换 LOD/2
- 替换 LOD/sqrt(2)
- 替换 0
- 使用中值(前提是数据集中少于一半的值被标记为 U)
- 使用修剪过的平均值
- 其他一些我不知道的方法
我觉得这些方法中的每一种都有利有弊(一些偏差低,高,扭曲数据集的可变性)。我不知道处理低于检测限的结果的标准做法是什么。在处理具有缺失值的化学数据时,哪些方法(或其他方法)是典型的?
编辑:澄清一下,这些 U 标记的值并没有真正丢失,因为它不像对它们一无所知。有一些信息:它们大于或等于0但小于检测限。