好的,公平的警告——这是一个不涉及数字的哲学问题。我一直在思考错误是如何随着时间的推移进入数据集的,以及分析师应该如何处理——或者它是否真的很重要?
作为背景,我正在对一项长期研究进行分析,该研究涉及可能由 25 个人在 7-8 年内收集的许多数据集——没有人将所有数据整合到一个连贯的结构中(这是我的工作)。我一直在做很多数据输入(从旧实验室笔记本的复印件转录),我不断发现其他人犯的小转录错误,并且还发现难以或不可能阅读的数据条目——主要是因为墨水随着时间的推移已经褪色。如果我不太确定,我正在使用上下文对数据所说的内容进行“最佳猜测”,并完全指出数据。但我一直在想,每次复制数据时,出错的频率不可避免地会增加,直到原始数据完全丢失。
所以,这让我想到:除了仪器/测量错误和记录错误之外,还有一个基本的“数据处理错误”组件会随着时间的推移和更多的数据处理而增加(旁注:这可能是只是说明热力学第二定律的另一种方式,对吗?数据熵总是会增加)。因此,我想知道是否应该引入某种“校正”来解释数据集的生命史(类似于 Bonferroni 校正)?换句话说,我们是否应该假设较旧或复制较多的数据集不太准确,如果是这样,我们是否应该相应地调整发现?
但是我的另一个想法是错误是数据收集和数据处理的固有部分,并且由于所有的统计测试都是用真实世界的数据开发的,也许这些错误来源已经在分析中“定价”了?
另外,值得一提的一点是,由于数据错误是随机的,因此它们更有可能降低发现的强度而不是改进结果——换句话说,数据处理错误会导致类型 2 错误,而不是类型 1 错误. 因此,在许多情况下,如果您使用旧的/有问题的数据并且仍然发现效果,那将增加您对该效果真实的信心(因为它足够强大,可以在向数据集中添加随机误差的情况下幸存下来)。因此,出于这个原因,也许“校正”应该采用另一种方式(增加“发现”所需的 alpha 水平),或者只是不给我们带来麻烦?
无论如何,很抱歉如此冗长和迟钝,我不确定如何更简洁地提出这个问题。谢谢你陪我。