为什么我的随机森林中只有 3-4 个特征很重要?

数据挖掘 回归 随机森林
2022-02-17 13:54:17

我正在使用 Python 的 Scikit-Learn 运行随机森林回归,代码如下(X - 特征,y - 待预测)。

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 1)
    
# Scaling
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test  = sc_X.transform(X_test)

# Random forest
from sklearn.ensemble import RandomForestRegressor
rf =RandomForestRegressor(max_depth=2, n_estimators = 100, random_state=0)
rf = rf.fit(X_train,y_train)
pred_train = rf.predict(X_train)
pred_test = rf.predict(X_test)

我正在为随机采样的 100k 数据集运行此代码,该数据集具有 60 多个特征。每次检查特征重要性时,我都会得到 3 到 4 个变量作为重要变量(其中一个变量的重要性超过 80%),而其他变量的重要性设置为 0。我认为只有这些变量对预测很重要是不合理的其余的都是垃圾。

var_num = X_train.shape[1]
plt.barh(range(var_num), rf.feature_importances_, align='center')
plt.yticks(np.arange(var_num), variable_names)
plt.xlabel('Variable Importance')
plt.ylabel('Variable')
plt.show()

我有可能遗漏了什么吗?需要定义其他一些参数吗?这可能是由变量本身之间的高度相关性引起的吗?还是我的其他功能真的没用..?

1个回答

RandomForestRegressor有一个称为 的参数max_features,它是确定最佳分割时要考虑的特征数量。您没有明确指定这一点,因此 Python 将使用默认 ( auto) 并考虑所有功能。

鉴于您的树非常浅,并且您正在考虑拆分所有特征,因此不断出现最强的 3-4 并不令我感到惊讶(随机森林中的装袋过程会导致其中的一些变化)。

减少max_features和/或增加max_depth可能会产生更多种类的“重要”特征。