数据挖掘 - 为什么数据集中指定的特征的列出顺序对随机森林分类器很重要 - 吾爱随笔录

>>> from sklearn.ensemble import RandomForestClassifier

>>> clf = RandomForestClassifier(n_estimators=10, random_state=1)
>>> Y=[0,1]

>>> X = [[3,2,1,0], [7,6,5,4]]
>>> clf = clf.fit(X, Y)
>>> print clf.feature_importances_
[ 0.2  0.1  0.1  0. ]

>>> X = [[0, 1, 2,3], [4,5,6,7]]
>>> clf = clf.fit(X, Y)
>>> print clf.feature_importances_
[ 0.2  0.1  0.1  0. ]

>>> X = [[3,2,1,0], [7,6,5,4]]
>>> clf = clf.fit(X, Y)
>>> print clf.feature_importances_
[ 0.2  0.1  0.1  0. ]

>>> X = [[3,1,2,0], [7,5,6,4]]
>>> clf = clf.fit(X, Y)
>>> print clf.feature_importances_
[ 0.2  0.1  0.1  0. ]

假设特征有名称。当我打乱/更改训练数据集中指定的特征的列出顺序时，每个特征的重要性都会发生变化。
这意味着生成的随机森林分类器也会发生变化。请注意，我通过修复随机种子排除了随机性的影响。

既然随机种子是固定的，为什么数据集中指定的特征的列出顺序对随机森林分类器很重要？谢谢。