优势比与概率比

机器算法验证 优势比
2022-03-21 04:40:52

几率是事件的概率与其互补的比率

odds(X)=P(X)1P(X)

优势比(OR) 是一组事件的优势的比率(例如A) 与另一组中事件的几率(例如,B):

OR(X)A vs B=P(X|A)1P(X|A)P(X|B)1P(X|B)

概率比1 (PR,又名流行率)是一组事件发生概率的比率A) 与另一组中事件的概率 (B):

PR(X)A vs B=P(X|A)P(X|B)

可以认为发生率与概率非常相似(尽管从技术上讲是随着时间的推移发生的概率),我们使用相对风险(又名风险比,RR)来对比发生率(和发生率密度) ,以及其他措施,如风险差异

RRA vs B=incidence proportion(X|A)incidence proportion(X|B)

当风险对比使用相对风险而不是优势比(使用发生率而不是概率计算)来表示时,为什么相对概率对比经常使用相对优势而不是概率比来表示?

我的问题首先是关于为什么更喜欢 OR 而不是 PR,而不是为什么不使用发生率来计算 OR 之类的数量。编辑:我知道有时使用风险优势比来对比风险。

1据我所知……我实际上并没有在我的学科中遇到这个术语,除了很少。

2个回答

我认为 OR 比 PR 更常见的原因归结为通常转换不同类型数量的标准方式。

当使用正常量时,例如温度、身高、体重,标准假设是它们大约是正常的。当您在这些数量之间进行对比时,最好的做法是获取差异。同样,如果您将回归模型拟合到它,您就不会期望方差发生系统性变化。

当您使用“速率类似”的数量时,即它们的界限为零并且通常来自计算诸如“每天的数量”之类的东西,那么采用原始差异是很尴尬的。由于任何样本的方差与比率成正比,因此任何适合计数或比率数据的残差通常不会具有恒定的方差。但是,如果我们使用均值的对数,那么方差将是“稳定的”——即它们相加而不是相乘。因此,对于汇率,我们通常将它们作为日志处理。然后,当您形成对比时,您将获得对数的差异,这与比率相同。

当您处理概率之类的数量或蛋糕的分数时,您现在处于上下界限。您现在还可以任意选择编码为 1 和 0(或在多类模型中更多)。概率之间的差异对于从 1 到 0 的切换是不变的,但存在方差再次随均值变化的速率问题。记录它们不会让您保持 1 和 0 的不变性,因此我们倾向于记录它们(log-odds)。使用对数赔率,您现在回到了完整的实数线上,沿线的方差是相同的,并且对数赔率的差异表现得有点像正常数量。

高斯

  • 方差不取决于μ
  • GLM 的规范链接是x
  • 转型没有帮助

泊松

  • 方差与比率成正比λ
  • GLM 的规范链接是ln(x)
  • 记录应该导致恒定方差的残差

二项式

  • 方差与p(1p)
  • GLM 的规范链接是 logitln(p1p)
  • 取数据的 logit(log-odds)应该导致残差恒定方差

所以我认为你看到很多 RR,但很少看到 PR 的原因是 PR 是由概率/二项式数量构成的,而 RR 是由比率类型数量构成的。特别要注意的是,如果人们每年可以多次感染这种疾病,发病率可能会超过 100%,但概率永远不会超过 100%。

赔率是唯一的方法吗?

不,上面的一般信息只是有用的经验法则,这些“规范”形式在数学上只是方便——因此你最容易看到它。probit 函数用于概率回归,因此原则上 probit 的差异与 OR 一样有效。同样,尽管尽了最大努力仔细措辞,但上面的文字仍然暗示记录和记录您的原始数据,然后将模型拟合到它是一个好主意——这不是一个糟糕的主意,但你有更好的东西可以做(GLM等)。

概率的基础模型

赔率与逻辑模型密切相关

p=11+e(a+bx)

概率与指数模型很好地相关

p=ea+bx

比较

让我们看看这些模型的曲线如何在下图中相互比较。

  • 对于小值p赔率和概率之间的差异并没有那么大。它是在较大的值p那个(1p)赔率表达式的分母中的术语变得很重要。

  • 指数模型的对数概率是线性的。

  • Logistic 模型的对数几率是线性的。

    • 对数优势的线性意味着优势比的变化对于x. 如果概率遵循逻辑模型,则odds(x)odds(x+Δ)独立于x并且仅取决于更改的大小Δ.

      因此,对于逻辑模型,参数的变化x一步一步Δ意味着对数赔率的相同变化会产生相同的赔率比,独立于x.

地块

为什么赔率

逻辑模型更典型(或相关形状,如 logit 模型)。这使得比较对数赔率(或等效赔率)的差异成为表达变化的直观方式。

但是对于小概率,优势比和概率比非常相似。

odds(x)odds(y)=px/(1px)py/(1py)=pxpy1py1pxpxpy