数据挖掘 - 为什么我的随机森林中只有 3-4 个特征很重要？ - 吾爱随笔录

我正在使用 Python 的 Scikit-Learn 运行随机森林回归，代码如下（X - 特征，y - 待预测）。

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 1)
    
# Scaling
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test  = sc_X.transform(X_test)

# Random forest
from sklearn.ensemble import RandomForestRegressor
rf =RandomForestRegressor(max_depth=2, n_estimators = 100, random_state=0)
rf = rf.fit(X_train,y_train)
pred_train = rf.predict(X_train)
pred_test = rf.predict(X_test)

我正在为随机采样的 100k 数据集运行此代码，该数据集具有 60 多个特征。每次检查特征重要性时，我都会得到 3 到 4 个变量作为重要变量（其中一个变量的重要性超过 80%），而其他变量的重要性设置为 0。我认为只有这些变量对预测很重要是不合理的其余的都是垃圾。

var_num = X_train.shape[1]
plt.barh(range(var_num), rf.feature_importances_, align='center')
plt.yticks(np.arange(var_num), variable_names)
plt.xlabel('Variable Importance')
plt.ylabel('Variable')
plt.show()

我有可能遗漏了什么吗？需要定义其他一些参数吗？这可能是由变量本身之间的高度相关性引起的吗？还是我的其他功能真的没用..？