我正在使用逻辑回归来预测事件发生的可能性。最终,这些概率被放入生产环境中,我们尽可能地专注于实现我们的“是”预测。因此,除了我们用于告知这一确定的其他措施外,了解什么是确定的“命中”或“非命中”可能是先验的(在生产中运行之前)对我们很有用。
我的问题是,根据预测概率预测确定类 (1,0) 的正确方法是什么?具体来说,我使用 R 的glmnet
包进行建模。该软件包任意选择 0.5 概率作为是或否的阈值。我相信我需要根据预测的概率得出正确的评分规则的结果,以推断出一个确定的类别。我的建模过程示例如下:
mods <- c('glmnet', 'scoring')
lapply(mods, require, character.only = T)
# run cross-validated LASSO regression
fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial',
type.measure = 'auc')
# generate predicted probabilities across new data
df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min')
# calculate Brier score for each record
df2$propscore <- brierscore(df2[,1] ~ df2$prob, data = df2)
所以我现在对每个预测都有一系列 Brier 分数,但是我如何使用 Brier 分数来适当地加权每个可能性是或否?
我知道还有其他方法可以做出此决定,例如随机森林。