机器算法验证 - 有多少百分比的人口需要检测才能估计疾病的流行率？说，COVID-19 - 吾爱随笔录

有多少百分比的人口需要检测才能估计疾病的流行率？说，COVID-19

机器算法验证采样面板数据统计能力点估计信号检测

2022-02-13 17:44:58

我们中的一群人开始讨论需要对多少百分比的人口进行 COVID-19 检测，以估计该疾病的真实患病率。事情变得复杂了，我们结束了晚上（放大）关于信号检测和想象测试的特征的争论。我还在想...

所以：

假设一个完美的测试，你如何绘制测试曲线以减少真实人口感染率的置信区间？
假设一个不完美的测试，如何引入测试误报和误报的信号检测问题？
随着时间的推移，你如何对这一切进行建模？

我想要一个教科书的答案，一篇论文的参考资料（最好是数学，而不是代码），或者一个令人信服的论点。

3个回答

1）对人口规模做一些假设（即足够大，二项式模型是合适的），可以通过对人群进行简单随机抽样并找出谁是特定时间的人群中的疾病患病率来获得生病的。这是一个二项式随机变量，比例的 Wald 置信区间为 $p$

p \pm 1.96 \frac{\sqrt{p (1 - p)}}{\sqrt{n}}

$p \pm 1.96\dfrac{\sqrt{p(1-p)}}{\sqrt{n}}$

方差部分以 0.5 为界，因此我们可以简化假设置信区间的宽度为。因此，这部分的答案是一样减小。将您的样本翻四倍，将您的时间间隔减半。现在，这是基于使用 Wald 区间，已知当接近 0 或 1 时会出现问题，但其他区间的精神保持不变。 $\sim 2/\sqrt{n}$ $p$ $1/\sqrt{n}$ $p$

2）您需要查看特异性和敏感性等指标。

敏感性是一个患病的人将被识别为患病（即检测呈阳性）的概率。 特异性是没有疾病的人被确定为没有疾病的概率（即测试阴性）。这里有很多其他的诊断测试指标可以回答你的问题。

3）我想这仍然悬而未决。随着时间的推移，有几种尝试模拟感染。SIR 模型及其变体可以简化假设人口是封闭的（即 S(t) + I(t) + R(t) = 1），然后 I(t) 可以解释为流行率。这不是一个很好的假设 IMO 因为显然人口没有关闭（人们死于疾病）。至于对测试的诊断属性进行建模，这些也是患病率的函数。从贝叶斯规则

p (T + | D +) = \frac{P (D + | T +) p (T +)}{p (D +)}

$p(T+ \vert D+) = \dfrac{P(D+\vert T+)p(T+)}{p(D+)}$

在这里，是疾病的患病率，因此随着患病率的变化，敏感性也会随之变化。 $P(D+)$

Dimitri Pananos 已经回答了这个问题，我只会补充一点，为了以预设的精度估计患病率，您需要一个绝对样本量，该样本量与人口规模几乎保持不变（仅当样本是目标人口你有一个不可忽略的有限人口校正因子）。所以没有需要测试的人口百分比：50% 的小人口可能不够，0.5% 的大人口可能足以达到相同的精度。

我会朝着不同的方向前进，并说这取决于...

当然，任何抽样都是基于抽样是真正随机的这一概念。试图解释样本中的非随机性会使情况变得非常复杂。
这种类型的是/否测量是非参数的。与参数测量相比，此类测试需要更大的样本量。
大概你在测试中忽略了误报和误报的问题。假阳性可能是一个真正的问题，因为疾病比例很低。
患病的实际比例是多少？如果只有 0.1% 的人口患病，那么平均每 1000 次测试中就有 1 人是阳性的。因此，感染率越低，样本就需要越大。
您想要多精确的估算？换句话说，您想知道感染率 +/- 20%，还是说 +/- 1%。您想知道的感染率值越精确，样本就需要越大。

可以使用一种称为验收测试的统计测试。基本上，重要的决定是您希望测量有多精确？然后您继续采样，直到达到该精度水平。因此，如果 50% 的人口被感染，则需要相对较小的样本来达到 +/- 10% 的测量误差（例如 50% +/- 5%）。然而，如果只有 0.5% 的人口被感染，则需要更大的样本来确定疾病水平（例如 0.5% +/- 0.05%）。

其它你可能感兴趣的问题

上一篇纵向设计和时间序列的区别下一篇为什么最小化 MAE 会导致预测中位数而不是均值？