Scikit 使用 CalibratedClassifierCV 校准分类器的正确方法

机器算法验证 交叉验证 scikit-学习 验证 火车 校准
2022-01-21 18:49:33

Scikit 有CalibratedClassifierCV,它允许我们在特定的 X、y 对上校准我们的模型。它还明确指出data for fitting the classifier and for calibrating it must be disjoint.

如果它们必须是不相交的,那么用以下方法训练分类器是否合法?

model = CalibratedClassifierCV(my_classifier)
model.fit(X_train, y_train)

我担心使用相同的训练集会违反disjoint data规则。另一种方法可能是有一个验证集

my_classifier.fit(X_train, y_train)
model = CalibratedClassifierCV(my_classifier, cv='prefit')
model.fit(X_valid, y_valid)

其缺点是留下较少的数据用于训练。此外,如果CalibratedClassifierCV应该只适合适合不同训练集的模型,为什么它的默认选项是cv=3,它也适合基本估计器?交叉验证是否自行处理不相交的规则?

问题:使用 CalibratedClassifierCV 的正确方法是什么?

2个回答

CalibratedClassifierCV 文档中提到了两件事,暗示了它的使用方式:

base_estimator:如果 cv=prefit,分类器必须已经适合数据。

cv:如果“prefit”通过,则假设base_estimator已经被拟合,所有数据都用于校准。

我显然可能解释错了,但看来您可以通过两种方式使用 CCCV(CalibratedClassifierCV 的缩写):

第一:

  • 你像往常一样训练你的模型,your_model.fit(X_train, y_train).
  • 然后,您创建您的 CCCV 实例,your_cccv = CalibratedClassifierCV(your_model, cv='prefit'). 请注意,您设置cv为标记您的模型已经适合。
  • 最后,您调用your_cccv.fit(X_validation, y_validation). 此验证数据仅用于校准目的。

第二:

  • 你有一个新的、未经训练的模型。
  • 然后你创建your_cccv=CalibratedClassifierCV(your_untrained_model, cv=3). 注意cv现在是折叠的数量。
  • 最后,您调用your_cccv.fit(X, y). 因为您的模型未经训练,X 和 y 必须用于训练和校准。确保数据“不相交”的方法是交叉验证:对于任何给定的折叠,CCCV 会将 X 和 y 拆分为您的训练和校准数据,因此它们不会重叠。

TLDR:方法一允许您控制用于训练和校准的内容。方法二使用交叉验证来尝试充分利用您的数据以实现这两个目的。

我也对这个问题感兴趣,并想添加一些实验以更好地理解 CalibratedClassifierCV (CCCV)。

正如已经说过的,有两种使用它的方法。

#Method 1, train classifier within CCCV
model = CalibratedClassifierCV(my_clf)
model.fit(X_train_val, y_train_val)

#Method 2, train classifier and then use CCCV on DISJOINT set
my_clf.fit(X_train, y_train)
model = CalibratedClassifierCV(my_clf, cv='prefit')
model.fit(X_val, y_val)

或者,我们可以尝试第二种方法,但只需根据我们拟合的相同数据进行校准。

#Method 2 Non disjoint, train classifier on set, then use CCCV on SAME set used for training
my_clf.fit(X_train_val, y_train_val)
model = CalibratedClassifierCV(my_clf, cv='prefit')
model.fit(X_train_val, y_train_val)

尽管文档警告使用不相交集,但这可能很有用,因为它允许您随后进行检查my_clf(例如,查看coef_CalibratedClassifierCV 对象不可用的 )。(有谁知道如何从校准的分类器中得到这个——其中一个是三个,所以你会平均系数吗?)。

我决定在完全支持的测试集上比较这三种方法的校准。

这是一个数据集:

X, y = datasets.make_classification(n_samples=500, n_features=200,
                                    n_informative=10, n_redundant=10,
                                    #random_state=42, 
                                    n_clusters_per_class=1, weights = [0.8,0.2])

我加入了一些类不平衡,只提供了 500 个样本,使这成为一个难题。

我进行了 100 次试验,每次都尝试每种方法并绘制其校准曲线。

在此处输入图像描述

Brier 在所有试验中得分的箱线图:

在此处输入图像描述

将样本数量增加到 10,000:

在此处输入图像描述

在此处输入图像描述

如果我们将分类器更改为朴素贝叶斯,回到 500 个样本:

在此处输入图像描述

在此处输入图像描述

这似乎不足以进行校准。将样本增加到 10,000 个

在此处输入图像描述

在此处输入图像描述

完整代码

print(__doc__)

# Based on code by Alexandre Gramfort <alexandre.gramfort@telecom-paristech.fr>
#         Jan Hendrik Metzen <jhm@informatik.uni-bremen.de>

import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import brier_score_loss
from sklearn.calibration import CalibratedClassifierCV, calibration_curve
from sklearn.model_selection import train_test_split


def plot_calibration_curve(clf, name, ax, X_test, y_test, title):

    y_pred = clf.predict(X_test)
    if hasattr(clf, "predict_proba"):
        prob_pos = clf.predict_proba(X_test)[:, 1]
    else:  # use decision function
        prob_pos = clf.decision_function(X_test)
        prob_pos = \
            (prob_pos - prob_pos.min()) / (prob_pos.max() - prob_pos.min())

    clf_score = brier_score_loss(y_test, prob_pos, pos_label=y.max())

    fraction_of_positives, mean_predicted_value = \
        calibration_curve(y_test, prob_pos, n_bins=10, normalize=False)

    ax.plot(mean_predicted_value, fraction_of_positives, "s-",
             label="%s (%1.3f)" % (name, clf_score), alpha=0.5, color='k', marker=None)

    ax.set_ylabel("Fraction of positives")
    ax.set_ylim([-0.05, 1.05])
    ax.set_title(title)

    ax.set_xlabel("Mean predicted value")

    plt.tight_layout()
    return clf_score

    fig, (ax1, ax2, ax3) = plt.subplots(nrows=3, ncols=1, figsize=(6,12))

    ax1.plot([0, 1], [0, 1], "k:", label="Perfectly calibrated",)
    ax2.plot([0, 1], [0, 1], "k:", label="Perfectly calibrated")
    ax3.plot([0, 1], [0, 1], "k:", label="Perfectly calibrated")

    scores = {'Method 1':[],'Method 2':[],'Method 3':[]}


fig, (ax1, ax2, ax3) = plt.subplots(nrows=3, ncols=1, figsize=(6,12))

ax1.plot([0, 1], [0, 1], "k:", label="Perfectly calibrated",)
ax2.plot([0, 1], [0, 1], "k:", label="Perfectly calibrated")
ax3.plot([0, 1], [0, 1], "k:", label="Perfectly calibrated")

scores = {'Method 1':[],'Method 2':[],'Method 3':[]}

for i in range(0,100):

    X, y = datasets.make_classification(n_samples=10000, n_features=200,
                                        n_informative=10, n_redundant=10,
                                        #random_state=42, 
                                        n_clusters_per_class=1, weights = [0.8,0.2])

    X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.80,
                                                        #random_state=42
                                                               )

    X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.80,
                                                      #random_state=42
                                                     )

    #my_clf = GaussianNB()
    my_clf = LogisticRegression()

    #Method 1, train classifier within CCCV
    model = CalibratedClassifierCV(my_clf)
    model.fit(X_train_val, y_train_val)
    r = plot_calibration_curve(model, "all_cal", ax1, X_test, y_test, "Method 1")
    scores['Method 1'].append(r)

    #Method 2, train classifier and then use CCCV on DISJOINT set
    my_clf.fit(X_train, y_train)
    model = CalibratedClassifierCV(my_clf, cv='prefit')
    model.fit(X_val, y_val)
    r = plot_calibration_curve(model, "all_cal", ax2, X_test, y_test, "Method 2")
    scores['Method 2'].append(r)

    #Method 3, train classifier on set, then use CCCV on SAME set used for training
    my_clf.fit(X_train_val, y_train_val)
    model = CalibratedClassifierCV(my_clf, cv='prefit')
    model.fit(X_train_val, y_train_val)
    r = plot_calibration_curve(model, "all_cal", ax3, X_test, y_test, "Method 2 non Dis")
    scores['Method 3'].append(r)

import pandas
b = pandas.DataFrame(scores).boxplot()
plt.suptitle('Brier score')

因此,Brier 评分结果尚无定论,但根据曲线,似乎最好使用第二种方法。