我正在使用的数据被用来预测两点之间的旅行持续时间。数据中有大约 100 次不同的行程和大约 9 万次观测。
我正在使用标准模式:
feature_cols = df_features.columns.drop( [ 'log_duration' ] )
X = df_features[ feature_cols ]
y = df_features.log_duration
X_train, X_test, y_train, y_test = train_test_split( X, y, random_state = 42 )
linreg = LinearRegression()
linreg.fit( X_train, y_train )
linreg.score( X_test, y_test )
执行回归并获得我的分数(~.74)。
但是,假设它预测两点之间的行程需要 40 分钟。显然,它不会完全花费 40 分钟。我正在寻找的是一种报告旅行需要 40 分钟 +/- C 分钟数的方法。
使用 Pandas 和 SciKit,我如何获得 C?