我正在使用 Python 的 Scikit-Learn 运行随机森林回归,代码如下(X - 特征,y - 待预测)。
# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 1)
# Scaling
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
# Random forest
from sklearn.ensemble import RandomForestRegressor
rf =RandomForestRegressor(max_depth=2, n_estimators = 100, random_state=0)
rf = rf.fit(X_train,y_train)
pred_train = rf.predict(X_train)
pred_test = rf.predict(X_test)
我正在为随机采样的 100k 数据集运行此代码,该数据集具有 60 多个特征。每次检查特征重要性时,我都会得到 3 到 4 个变量作为重要变量(其中一个变量的重要性超过 80%),而其他变量的重要性设置为 0。我认为只有这些变量对预测很重要是不合理的其余的都是垃圾。
var_num = X_train.shape[1]
plt.barh(range(var_num), rf.feature_importances_, align='center')
plt.yticks(np.arange(var_num), variable_names)
plt.xlabel('Variable Importance')
plt.ylabel('Variable')
plt.show()
我有可能遗漏了什么吗?需要定义其他一些参数吗?这可能是由变量本身之间的高度相关性引起的吗?还是我的其他功能真的没用..?