从理想意义上的决策规则开始。它代表了假阳性和假阴性分类之间的成本权衡。从这个意义上说,决策规则不是数据的函数。它是您希望如何使用数据模型的函数。从这个意义上说,它不是超参数。它是关键参数值的优先选择。
本报告在第 7 节中解释了这种关系。假设正确分类的成本为 0,则假设误报和误报的成本被缩放为总和为 1。将误报的成本称为c所以假阴性的代价是(1−c). 那么最小化预期成本的最佳概率分类截止值为c.
当您在 0.6 指定决策规则时,您实际上是在指定c=0.6,说误报的成本是误报的 1.5 (0.6/0.4) 倍。改变决策规则只是改变你对相对成本的估计。因此,从这个意义上说,决策规则代表了您对如何使用数据和模型的选择,而不是独立于该选择从数据中学习的东西。
然而,这种关系是基于手头有真实的概率模型,记为η(x)作为协变量的函数x在链接的报告中。相反,您拥有的是一个估计模型,表示为q(x). 上述报告第 7 节指出:
尽管η(x)模型可能无法很好地近似q(x),对于每个成本来说,它仍然是可能的c近似{η(x)>c}很好{q(x)>c}, 但每个c需要单独的模型拟合q(.).
因此,您希望调整模型拟合的参数q(.)靠近η(x)从某种意义上说,它们在(理想的)决策规则值方面具有相似的行为c. 做类似事情的一种方法是找到错误指定模型的截止概率值q(x)不是c, 说c†,为您的数据提供所需的模型性能(例如,准确性)。也就是说,您尝试近似{η(x)>c}很好{q(x)>c†}以适合您目的的方式。我将留给其他人来决定是否应该将这种对错误指定模型的修改称为“超参数”选择,如果是,那是否是“严格意义上的”。
有人可能会争辩说,应该使用决策规则的选择(在上面的第一种意义上)来调整建模方法。具有由最大似然确定的系数值的标准逻辑回归仅代表将线性模型拟合到具有二元结果的数据的众多方法中的一种。其解决方案相当于最小化对数损失函数。对数损失是严格正确的评分规则,因为它在真实概率分布上进行了优化。
然而,人们可以从中选择大量严格适当的评分规则。请参阅上面链接的报告的第 2 节和第 3 节。这些规则在概率尺度上的权重不同。对数损失规则将高权重置于极端附近。如果您有误报成本c在上面的公式中,您可能希望选择一个更重视周围概率的评分规则c.
上面链接的报告广泛描述了这些问题,并在第 9 节中展示了如何使用迭代加权最小二乘法来拟合基于任何适当评分规则的线性模型。这种方法可以扩展到像 LASSO 这样的惩罚方法;报告的第 15 节表明,系数的收缩(由 LASSO 和其他惩罚方法提供)可以通过选择一些权重函数来提高性能。
也就是说,我怀疑线性模型的错误规范通常比在实际应用中选择正确的评分规则带来更多的问题。
然而,在与您选择相对误报/负成本相关的概率截止值附近优化您的模型仍然是需要认真考虑的事情。例如,这是在目标最大似然估计中使用的方法,其中调整模型以关注特定的预测感兴趣区域。组合多个这样的模型可以最大限度地减少任何一个模型被错误指定所带来的危险。