我有一个数据集,其中包含来自约 2,500 个人的约 7,500 次血液测试。我试图找出血液测试的变异性是否随着两次测试之间的时间而增加或减少。例如 - 我为基线测试抽取您的血液,然后立即抽取第二份样本。六个月后,我又画了一个样本。人们可能期望基线和立即重复测试之间的差异小于基线和六个月测试之间的差异。
下图中的每个点都反映了两个测试之间的差异。X 是两次测试之间的天数;Y 是两个测试之间差异的大小。正如你所看到的,测试并没有沿着 X 均匀分布——这项研究并不是为了解决这个问题而设计的,真的。因为这些点在平均值上堆积得如此之多,所以我根据 28 天的窗口包括了 95%(蓝色)和 99%(红色)的分位数线。这些显然是被更极端的点拉动的,但你明白了。
替代文字 http://a.imageshack.us/img175/6595/diffsbydays.png
在我看来,可变性相当稳定。如果有的话,在短时间内重复测试时它会更高 - 这非常违反直觉。如何以系统的方式解决这个问题,在每个时间点(以及一些根本没有测试的时期)考虑不同的 n?非常感谢您的想法。
仅供参考,这是测试和重新测试之间的天数分布:
替代文字 http://a.imageshack.us/img697/6572/testsaeachtimepoint.png