数据处理错误是否已经“计入”统计分析?

机器算法验证 数据集 错误
2022-03-01 23:31:49

好的,公平的警告——这是一个不涉及数字的哲学问题。我一直在思考错误是如何随着时间的推移进入数据集的,以及分析师应该如何处理——或者它是否真的很重要?

作为背景,我正在对一项长期研究进行分析,该研究涉及可能由 25 个人在 7-8 年内收集的许多数据集——没有人将所有数据整合到一个连贯的结构中(这是我的工作)。我一直在做很多数据输入(从旧实验室笔记本的复印件转录),我不断发现其他人犯的小转录错误,并且还发现难以或不可能阅读的数据条目——主要是因为墨水随着时间的推移已经褪色。如果我不太确定,我正在使用上下文对数据所说的内容进行“最佳猜测”,并完全指出数据。但我一直在想,每次复制数据时,出错的频率不可避免地会增加,直到原始数据完全丢失。

所以,这让我想到:除了仪器/测量错误和记录错误之外,还有一个基本的“数据处理错误”组件会随着时间的推移和更多的数据处理而增加(旁注:这可能是只是说明热力学第二定律的另一种方式,对吗?数据熵总是会增加)。因此,我想知道是否应该引入某种“校正”来解释数据集的生命史(类似于 Bonferroni 校正)?换句话说,我们是否应该假设较旧或复制较多的数据集不太准确,如果是这样,我们是否应该相应地调整发现?

但是我的另一个想法是错误是数据收集和数据处理的固有部分,并且由于所有的统计测试都是用真实世界的数据开发的,也许这些错误来源已经在分析中“定价”了?

另外,值得一提的一点是,由于数据错误是随机的,因此它们更有可能降低发现的强度而不是改进结果——换句话说,数据处理错误会导致类型 2 错误,而不是类型 1 错误. 因此,在许多情况下,如果您使用旧的/有问题的数据并且仍然发现效果,那将增加您对该效果真实的信心(因为它足够强大,可以在向数据集中添加随机误差的情况下幸存下来)。因此,出于这个原因,也许“校正”应该采用另一种方式(增加“发现”所需的 alpha 水平),或者只是不给我们带来麻烦?

无论如何,很抱歉如此冗长和迟钝,我不确定如何更简洁地提出这个问题。谢谢你陪我。

1个回答

我赞同@Aksakal 的建议:如果分析师认为测量误差可能很重要,那么它可以而且应该明确建模为数据生成过程的一部分。

我看到了一些反对引入基于数据集年龄的通用校正因子的考虑因素。

首先,年龄可能不能很好地代表数据恶化的程度。复制、压缩和保存技术,以及验证正确转录所付出的努力和谨慎程度,显然是重要因素。一些古代文本(例如《圣经》)已经保存了几个世纪,显然零退化。您的 VHS 示例虽然合法,但实际上是不寻常的,因为每个复制事件总是会引入错误,并且没有简单的方法来检查和纠正转录错误 -如果使用廉价、广泛可用的复制和存储技术。我希望通过投资更昂贵的系统来显着降低引入错误的程度。

最后一点更笼统:数据保存和传播是经济活动。传输质量很大程度上取决于部署的资源。反过来,这些选择将取决于数据对进行复制和传输的人的重要性。

经济考虑也适用于分析师。在进行分析时,您总是可以考虑更多因素。在什么情况下,数据转录错误会足够大、足够重要,以至于值得考虑?我的预感是:这种情况并不常见。此外,如果潜在的数据退化被认为足够重要,足以在您的分析中考虑到它,那么努力对过程进行显式建模,而不是插入通用的“更正”步骤,这可能就足够重要了。

最后,没有必要从头开发这样一个通用的校正因子。已经存在大量统计理论和实践来分析测量误差被视为重要的数据集。

总之:这是一个有趣的想法。但我认为它不应该刺激分析实践的任何变化。