我是数据科学的新手。我安装了 Jupyter 笔记本并试图为 kaggle titanic 数据集创建模型。下面是我写的代码——
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import roc_auc_score
import pandas as pd
X = pd.read_csv("train.csv")
y = X["Survived"]
X["Age"].fillna(X.Age.mean(),inplace = True)
numeric_variables = list(X.dtypes[X.dtypes != "object"].index)
model = RandomForestRegressor(n_estimators=100, oob_score = True, random_state = 42)
model.fit(X[numeric_variables],y)
model.oob_score_
我得到的oob_score_
输出为 1.0,而根据教程的实际输出应该是 0.13420 .... 之后我做了
y_oob = model.oob_prediction_
print "c,stat:", roc_auc_score(y,y_oob)
我的输出也是 1.0。我的代码或 Jupyter 设置有问题吗?