估计随时间的变化

机器算法验证 重复测量 变化性
2022-03-14 23:51:49

我有一个数据集,其中包含来自约 2,500 个人的约 7,500 次血液测试。我试图找出血液测试的变异性是否随着两次测试之间的时间而增加或减少。例如 - 我为基线测试抽取您的血液,然后立即抽取第二份样本。六个月后,我又画了一个样本。人们可能期望基线和立即重复测试之间的差异小于基线和六个月测试之间的差异。

下图中的每个点都反映了两个测试之间的差异。X 是两次测试之间的天数;Y 是两个测试之间差异的大小。正如你所看到的,测试并没有沿着 X 均匀分布——这项研究并不是为了解决这个问题而设计的,真的。因为这些点在平均值上堆积得如此之多,所以我根据 28 天的窗口包括了 95%(蓝色)和 99%(红色)的分位数线。这些显然是被更极端的点拉动的,但你明白了。

替代文字 http://a.imageshack.us/img175/6595/diffsbydays.png

在我看来,可变性相当稳定。如果有的话,在短时间内重复测试时它会更高 - 这非常违反直觉。如何以系统的方式解决这个问题,在每个时间点(以及一些根本没有测试的时期)考虑不同的 n?非常感谢您的想法。

仅供参考,这是测试和重新测试之间的天数分布:

替代文字 http://a.imageshack.us/img697/6572/testsaeachtimepoint.png

1个回答

从您的描述中,我看不出有任何理由将“基线测试”与立即抽取的“第二个样本”区分开来。它们只是 2 个基线测量值,可以在此基础上计算方差(在基线处)。最好绘制两个基线测量值与第三个“六个月”样本的平均值。

问题在于 6 个月的样本。由于此时仅采集一个样本,因此无法估计此时的“变异性”,或者更确切地说,将采样变异与 TB 读数的纵向(实际)变化分开。

如果我们认为这是一个纵向数据分析问题,我们可能会选择随机截距(基线 TB)和随机斜率(以适应 6 个月的 TB)。抽样变异性将根据两个基线测量值和第三个 6 个月测量值的斜率来估计。如果没有对这 6 个月的变化进行强有力的分布假设,例如假设没有变化,我们就无法估计 6 个月的变化。