机器算法验证 - 决策规则作为 LASSO 中的超参数 - 吾爱随笔录

决策规则作为 LASSO 中的超参数

机器算法验证物流套索超参数临界点决定

2022-03-03 18:05:37

普遍的共识是，决策规则不是严格意义上的超参数，它不会影响逻辑回归的灵活性。

在 LASSO 逻辑回归的背景下，我有一个相关的问题。在 LASSO 中，我们优化 lambda 并创建模型，然后优化决策规则。我的问题是：这不类似于优化说：mtry 在随机森林中，然后使用 mtry 的静态值并优化之后的树数（这是不正确的方法）？如果我们要优化 lambda 并达到 lambda=0.01，然后将我们的决策规则优化为 0.6，但是如果我们同时优化它们，我们可能已经达到 lambda=0.05 和 0.65 的决策规则给我们更好的性能.

我想总的观点和问题是，面对优化超参数以及决策规则，决策规则是严格意义上的超参数吗？

1个回答

从理想意义上的决策规则开始。它代表了假阳性和假阴性分类之间的成本权衡。从这个意义上说，决策规则不是数据的函数。它是您希望如何使用数据模型的函数。从这个意义上说，它不是超参数。它是关键参数值的优先选择。

本报告在第 7 节中解释了这种关系。假设正确分类的成本为 0，则假设误报和误报的成本被缩放为总和为 1。将误报的成本称为 $c$ 所以假阴性的代价是 $(1-c)$ . 那么最小化预期成本的最佳概率分类截止值为 $c$ .

当您在 0.6 指定决策规则时，您实际上是在指定 $c = 0.6$ ，说误报的成本是误报的 1.5 (0.6/0.4) 倍。改变决策规则只是改变你对相对成本的估计。因此，从这个意义上说，决策规则代表了您对如何使用数据和模型的选择，而不是独立于该选择从数据中学习的东西。

然而，这种关系是基于手头有真实的概率模型，记为 $\eta(\boldsymbol{x})$ 作为协变量的函数 $\boldsymbol{x}$ 在链接的报告中。相反，您拥有的是一个估计模型，表示为 $q(\boldsymbol{x})$ . 上述报告第 7 节指出：

尽管 $\eta(\boldsymbol{x})$ 模型可能无法很好地近似 $q(\boldsymbol{x})$ ，对于每个成本来说，它仍然是可能的 $c$ 近似 $\{\eta(\boldsymbol{x})> c\}$ 很好 $\{q(\boldsymbol{x})> c\}$ , 但每个 $c$ 需要单独的模型拟合 $q(.)$ .

因此，您希望调整模型拟合的参数 $q(.)$ 靠近 $\eta(\boldsymbol{x})$ 从某种意义上说，它们在（理想的）决策规则值方面具有相似的行为 $c$ . 做类似事情的一种方法是找到错误指定模型的截止概率值 $q(\boldsymbol{x})$ 不是 $c$ ，说 $c^\dagger$ ，为您的数据提供所需的模型性能（例如，准确性）。也就是说，您尝试近似 $\{\eta(\boldsymbol{x})> c\}$ 很好 $\{q(\boldsymbol{x})> c^\dagger\}$ 以适合您目的的方式。我将留给其他人来决定是否应该将这种对错误指定模型的修改称为“超参数”选择，如果是，那是否是“严格意义上的”。

有人可能会争辩说，应该使用决策规则的选择（在上面的第一种意义上）来调整建模方法。具有由最大似然确定的系数值的标准逻辑回归仅代表将线性模型拟合到具有二元结果的数据的众多方法中的一种。其解决方案相当于最小化对数损失函数。对数损失是严格正确的评分规则，因为它在真实概率分布上进行了优化。

然而，人们可以从中选择大量严格适当的评分规则。请参阅上面链接的报告的第 2 节和第 3 节。这些规则在概率尺度上的权重不同。对数损失规则将高权重置于极端附近。如果您有误报成本 $c$ 在上面的公式中，您可能希望选择一个更重视周围概率的评分规则 $c$ .

上面链接的报告广泛描述了这些问题，并在第 9 节中展示了如何使用迭代加权最小二乘法来拟合基于任何适当评分规则的线性模型。这种方法可以扩展到像 LASSO 这样的惩罚方法；报告的第 15 节表明，系数的收缩（由 LASSO 和其他惩罚方法提供）可以通过选择一些权重函数来提高性能。

也就是说，我怀疑线性模型的错误规范通常比在实际应用中选择正确的评分规则带来更多的问题。

然而，在与您选择相对误报/负成本相关的概率截止值附近优化您的模型仍然是需要认真考虑的事情。例如，这是在目标最大似然估计中使用的方法，其中调整模型以关注特定的预测感兴趣区域。组合多个这样的模型可以最大限度地减少任何一个模型被错误指定所带来的危险。

其它你可能感兴趣的问题

上一篇参考请求：单位根理论书籍下一篇LASSO 回归 - p 值和系数