数据挖掘 - 从逻辑回归建模不确定性 - 吾爱随笔录

从逻辑回归建模不确定性

数据挖掘逻辑回归模拟贝叶斯

2021-09-30 07:36:01

逻辑回归是我用于某些场景分析的模拟管道中的一部分。它所基于的数据集并不小但相对嘈杂，并且只有一个解释变量/特征。当然，我可以使用频率论或贝叶斯方法来说明这种不确定性，但我也想在顺序模拟步骤中使用它，以获得更公平的最终估计。我打算做的应该可以工作，但计算量有点大，我想知道是否有人有更好的主意。

使用 MCMC 的逻辑回归系数的近似分布

现在模拟这个n次：

从此分布中抽取两个系数之一
修复这个系数并再次使用 MCMC 来获得第二个系数的近似条件分布（我能以更好的方式得到这个吗？这似乎与第一个系数高度相关）
使用此采样模型运行其余的模拟

我觉得应该有更好的方法，但我不确定。

1个回答

我看到了您问题的许多方面，接下来将介绍我的前 2 项:-)

方面 1——评估估计系数的不确定性

在逻辑回归中，评估估计系数的不确定性实际上与最小二乘回归相同。

在逻辑回归和最小二乘回归中，回归系数表将包括一列回归系数，然后是一列标准误差，然后是一列检验统计量，最后是一列 p 值。下表显示了一些回归问题的示例系数表输出（其中估计了为儿童购买杂志的概率）。

请注意，在上表中，检验统计量标记为“z 值”，p 值标记为“P(>|t|)”。标准误可用于构建回归系数的置信区间。粗略地说，回归系数的标准误差正负 2 倍，系数的置信区间约为 95%。

例如，对于居住长度，回归系数为 0.024680。下一列给出了回归系数的标准误差，即 0.013800。因此，居住长度回归系数的大约 95% 置信区间为：

0.024680 \pm 2 \times 0.013800 = 0.024680 \pm 0.0276

$0.024680 \pm 2 \times 0.013800 = 0.024680 \pm 0.0276\$

这意味着居住长度的回归系数可能在 -0.00292 到 0.05228 之间（置信度为 95%）。

众所周知，我们经常使用优势比，它是回归系数的指数（即， $\exp(\beta)$ )，以帮助解释回归系数的含义。如系数表所示，居住长度系数的优势比为 1.0250。这意味着每多居住一年，购买该杂志的几率就会增加 2.5%。

我们还可以计算对应于置信区间末端的优势比。这些赔率比将为我们提供赔率的等效置信区间。所以继续使用居住长度的例子，对应于置信区间末端的优势比是

经验 (- 0.00292) = 0.99708

$\exp(-0.00292)=0.99708$ 和

经验 (0.05228) = 1.05367。

$\exp(0.05228)=1.05367.$ 因此，区间 [0.99708,1.05367] 是优势比的大约 95% 置信区间。这意味着每增加居住一年，购买该杂志的几率可能会下降 0.292% 到 5.367%。

方面 2 - 具有测量不确定性的建模数据

这里又是已知的许多选项。看看这个开始：https ://pdfs.semanticscholar.org/0a7a/a5e3d407b24e2f5c24287bfdda20e573bd05.pdf

我只会引用来源：

在某些数据集中，感兴趣的结果是用不完美的灵敏度和特异性来衡量的。众所周知，由这种不完善的诊断测试引起的错误分类将导致对优势比及其方差的估计有偏差。

在本文中，作者表明，当诊断测试的敏感性和特异性已知时，可以直接将此信息纳入逻辑回归模型的拟合中。

描述了一种产生优势比及其方差的无偏估计的 EM 算法。由此产生的优势比估计值往往离零值更远，但比通过忽略测试的缺陷而发现的估计值具有更大的方差。该方法可以扩展到不同研究对象的敏感性和特异性不同的情况，即非差异错误分类。即使在不知道敏感性和特异性的情况下，该方法也很有用，可以作为一种查看有关敏感性和特异性的各种假设对估计值的影响程度的方法。

希望这可以帮助！

其它你可能感兴趣的问题

上一篇通过自定义目标进行 Xgboost 分位数回归下一篇卷积层中零填充的优缺点是什么？