数据挖掘 - 在 scikit-learn 中约束线性回归器参数？ - 吾爱随笔录

在 scikit-learn 中约束线性回归器参数？

数据挖掘 scikit-学习回归线性回归岭回归

2021-10-12 01:23:41

我sklearn.linear_model.Ridge使用岭回归来提取多项式的系数。然而，一些系数具有要求它们为负的物理约束。有没有办法对这些参数施加约束？我在文档中没有发现...

作为一种解决方法，我尝试使用不同的复杂性参数（参见下面的玩具代码）进行许多拟合，并选择具有满足物理约束的系数的拟合，但这太不可靠而无法在生产中使用。

# Preliminaries
from sklearn.linear_model import Ridge
n_alphas = 2000
alphas = np.logspace(-15,3,n_alphas)
# Perform fit
fits = {}
for alpha in alphas:
   temp_ridge = Ridge(alpha, fit_intercept=False)
   temp_ridge.fit(indep_training_data, dep_training_data)
   temp_ridge_R2 = temp_ridge.score(indep_test_data, dep_test_data)
   fits[alpha] = [temp_ridge, temp_ridge_R2]

有没有办法使用岭回归对某些参数施加符号约束？谢谢！

2个回答

我假设形式的线性回归

y = w_{0} x_{0} + w_{1} x_{1} + \dots w_{p} x_{p} + ε .

$y = w_0x_0 + w_1x_1+ \ldots w_px_p + \varepsilon.$

如果我们将所有输出观察结果组合成一个向量 $\mathbf{y}$ 并用左起 1 列将数据矩阵表示为 $\mathbf{X}$ ，那么我们可以表示线性回归

y = X w + ε,

$\mathbf{y} = \mathbf{X}\mathbf{w} + \mathbf{\varepsilon},$

其中 $\mathbf{w}=[w_0, w_1,\ldots,w_p]^T$ 和 $\varepsilon$ 是模型误差的向量。如果将岭回归损失应用于此模型并简化表达式，您将获得以下损失函数。

E (w) = \frac{1}{2} w^{T} [X^{T} X + λ I] w + {[- X^{T} y]}^{T} w

$E(\mathbf{w}) = \dfrac{1}{2} \mathbf{w}^T\left[\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I} \right]\mathbf{w} + \left[-\mathbf{X}^T\mathbf{y} \right]^T\mathbf{w}$

我们的目标是通过对系数的附加约束来最小化这个表达式。如果我们只假设负系数，我们将得到这个不等式约束

I w ⪯ 0 .

$\mathbf{I}\mathbf{w} \preceq \mathbf{0}.$

因此，我们得到了该问题的二次规划公式。

minimize: E (w) = \frac{1}{2} w^{T} [X^{T} X + λ I] w + {[- X^{T} y]}^{T} w

$\text{minimize: } E(\mathbf{w}) = \dfrac{1}{2} \mathbf{w}^T\left[\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I} \right]\mathbf{w} + \left[-\mathbf{X}^T\mathbf{y} \right]^T\mathbf{w}$

subject to: I w ⪯ 0

$\text{subject to: } \mathbf{I}\mathbf{w} \preceq \mathbf{0}$

您可以使用cvxopt for Python直接解决此类问题。您还可以有更复杂的线性约束（等式和不等式约束）。

注：CVXOPT 使用 $\mathbf{x}$ 对于未知数，它们是 $\mathbf{w}$ 在我的配方中。

可以将 scikit-learn 中的线性回归限制为仅正系数。sklearn.linear_model.LinearRegression有一个选项positive=True：

当设置为 True 时，强制系数为正。此选项仅支持密集阵列。

该positive=True选项不适用于 scikit-learn 中的岭回归。

其它你可能感兴趣的问题

上一篇word2vec 或 BERT 如何用于以前看不见的单词下一篇K-Fold 交叉验证-如何计算算法的常规参数/超参数