>>> from sklearn.ensemble import RandomForestClassifier
>>> clf = RandomForestClassifier(n_estimators=10, random_state=1)
>>> Y=[0,1]
>>> X = [[3,2,1,0], [7,6,5,4]]
>>> clf = clf.fit(X, Y)
>>> print clf.feature_importances_
[ 0.2 0.1 0.1 0. ]
>>> X = [[0, 1, 2,3], [4,5,6,7]]
>>> clf = clf.fit(X, Y)
>>> print clf.feature_importances_
[ 0.2 0.1 0.1 0. ]
>>> X = [[3,2,1,0], [7,6,5,4]]
>>> clf = clf.fit(X, Y)
>>> print clf.feature_importances_
[ 0.2 0.1 0.1 0. ]
>>> X = [[3,1,2,0], [7,5,6,4]]
>>> clf = clf.fit(X, Y)
>>> print clf.feature_importances_
[ 0.2 0.1 0.1 0. ]
假设特征有名称。当我打乱/更改训练数据集中指定的特征的列出顺序时,每个特征的重要性都会发生变化。
这意味着生成的随机森林分类器也会发生变化。请注意,我通过修复随机种子排除了随机性的影响。
既然随机种子是固定的,为什么数据集中指定的特征的列出顺序对随机森林分类器很重要?谢谢。