数据挖掘 - 获得预测线性回归的置信区间 - 吾爱随笔录

我正在使用的数据被用来预测两点之间的旅行持续时间。数据中有大约 100 次不同的行程和大约 9 万次观测。

我正在使用标准模式：

feature_cols = df_features.columns.drop( [ 'log_duration' ] )
X            = df_features[ feature_cols ]
y            = df_features.log_duration

X_train, X_test, y_train, y_test = train_test_split( X, y, random_state = 42 )
linreg = LinearRegression()
linreg.fit( X_train, y_train )
linreg.score( X_test, y_test )

执行回归并获得我的分数（~.74）。

但是，假设它预测两点之间的行程需要 40 分钟。显然，它不会完全花费 40 分钟。我正在寻找的是一种报告旅行需要 40 分钟 +/- C 分钟数的方法。

使用 Pandas 和 SciKit，我如何获得 C？