我们中的一群人开始讨论需要对多少百分比的人口进行 COVID-19 检测,以估计该疾病的真实患病率。事情变得复杂了,我们结束了晚上(放大)关于信号检测和想象测试的特征的争论。我还在想...
所以:
假设一个完美的测试,你如何绘制测试曲线以减少真实人口感染率的置信区间?
假设一个不完美的测试,如何引入测试误报和误报的信号检测问题?
随着时间的推移,你如何对这一切进行建模?
我想要一个教科书的答案,一篇论文的参考资料(最好是数学,而不是代码),或者一个令人信服的论点。
我们中的一群人开始讨论需要对多少百分比的人口进行 COVID-19 检测,以估计该疾病的真实患病率。事情变得复杂了,我们结束了晚上(放大)关于信号检测和想象测试的特征的争论。我还在想...
所以:
假设一个完美的测试,你如何绘制测试曲线以减少真实人口感染率的置信区间?
假设一个不完美的测试,如何引入测试误报和误报的信号检测问题?
随着时间的推移,你如何对这一切进行建模?
我想要一个教科书的答案,一篇论文的参考资料(最好是数学,而不是代码),或者一个令人信服的论点。
1)对人口规模做一些假设(即足够大,二项式模型是合适的),可以通过对人群进行简单随机抽样并 找出谁是特定时间的人群中的疾病患病率来获得生病的。这是一个二项式随机变量,比例的 Wald 置信区间为
方差部分以 0.5 为界,因此我们可以简化假设置信区间的宽度为。因此,这部分的答案是一样减小。将您的样本翻四倍,将您的时间间隔减半。现在,这是基于使用 Wald 区间,已知当接近 0 或 1 时会出现问题,但其他区间的精神保持不变。
2)您需要查看特异性和敏感性等指标。
敏感性是一个患病的人将被识别为患病(即检测呈阳性)的概率。 特异性是没有疾病的人被确定为没有疾病的概率(即测试阴性)。这里有很多其他的诊断测试指标可以回答你的问题。
3)我想这仍然悬而未决。随着时间的推移,有几种尝试模拟感染。SIR 模型及其变体可以简化假设人口是封闭的(即 S(t) + I(t) + R(t) = 1),然后 I(t) 可以解释为流行率。这不是一个很好的假设 IMO 因为显然人口没有关闭(人们死于疾病)。至于对测试的诊断属性进行建模,这些也是患病率的函数。从贝叶斯规则
在这里,是疾病的患病率,因此随着患病率的变化,敏感性也会随之变化。
Dimitri Pananos 已经回答了这个问题,我只会补充一点,为了以预设的精度估计患病率,您需要一个绝对样本量,该样本量与人口规模几乎保持不变(仅当样本是目标人口你有一个不可忽略的有限人口校正因子)。所以没有需要测试的人口百分比:50% 的小人口可能不够,0.5% 的大人口可能足以达到相同的精度。
我会朝着不同的方向前进,并说这取决于...
当然,任何抽样都是基于抽样是真正随机的这一概念。试图解释样本中的非随机性会使情况变得非常复杂。
这种类型的是/否测量是非参数的。与参数测量相比,此类测试需要更大的样本量。
大概你在测试中忽略了误报和误报的问题。假阳性可能是一个真正的问题,因为疾病比例很低。
患病的实际比例是多少?如果只有 0.1% 的人口患病,那么平均每 1000 次测试中就有 1 人是阳性的。因此,感染率越低,样本就需要越大。
您想要多精确的估算?换句话说,您想知道感染率 +/- 20%,还是说 +/- 1%。您想知道的感染率值越精确,样本就需要越大。
可以使用一种称为验收测试的统计测试。基本上,重要的决定是您希望测量有多精确?然后您继续采样,直到达到该精度水平。因此,如果 50% 的人口被感染,则需要相对较小的样本来达到 +/- 10% 的测量误差(例如 50% +/- 5%)。然而,如果只有 0.5% 的人口被感染,则需要更大的样本来确定疾病水平(例如 0.5% +/- 0.05%)。