机器算法验证 - 给定序数逻辑回归模型，您如何预测响应类别？ - 吾爱随笔录

我想预测一个健康问题。我有 3 个按顺序排列的结果类别：“正常”、“轻度”和“严重”。我希望通过两个预测变量来预测这一点，一个测试结果（一个连续的区间协变量）和这个问题的家族史（是或否）。在我的样本中，概率为 55%（正常）、35%（轻度）和 10%（严重）。从这个意义上说，我总是可以预测“正常”并且在 55% 的情况下是正确的，尽管这不会给我提供有关个别患者的信息。我适合以下模型：

\begin{aligned} the cut point for \hat{(y \geq 1)} & = - 2.18 \\ the cut point for \hat{(y \geq 2)} & = - 4.27 \\ {\hat{β}}_{t e s t} & = 0.60 \\ {\hat{β}}_{f a m i l y h i s t o r y} & = 1.05 \end{aligned}

$\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ \hat\beta_{\rm test} &= 0.60 \\ \hat\beta_{\rm family\ history} &= 1.05 \end{align}$

假设没有交互，并且模型一切正常。一致性 c 为 60.5%，我认为这是模型提供的最大预测准确度。

我遇到了两个新患者，数据如下： 1. test = 3.26，family = 0；2. test = 2.85, family = 1. 我想预测他们的预后。使用公式：

\frac{\exp (- X β - c u t P o i n t)}{(1 + \exp (- X β - c u t P o i n t))}

$\frac{\exp(-X\beta - {\rm cutPoint})}{(1+\exp(-X\beta - {\rm cutPoint}))}$ （然后取累积概率之间的差异），我可以根据模型计算响应类别的概率分布。R 代码（注意，由于舍入问题，输出不完全匹配）：

cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

即：1. 0=55.1%，1=35.8%，2=9.1%；2. 0 = 35.6%，1 = 46.2%，2 = 18.2%。我的问题是，我如何从概率分布到预测的响应类别？

我已经使用样本数据尝试了几种可能性，结果是已知的。如果我只选择 max(probabilities)，准确率是 57%，比 null 略有提高，但低于一致性。此外，在示例中，这种方法从不选择“严重”，这是我真正想知道的。我尝试了贝叶斯方法，将空概率和模型概率转换为赔率，然后选择最大值（赔率比）。这确实偶尔会选择“严重”，但会产生更差的准确度 49.5%。我还尝试了按概率和舍入加权的类别总和。同样，这从不选择“严重”，并且准确率低 51.5%。

采用上述信息并产生最佳准确度（60.5%）的方程式是什么？