机器算法验证 - randomForest 变量重要性值在不同日期的相同变量之间是否具有可比性？ - 吾爱随笔录

randomForest 变量的重要性在不同日期的相同变量之间是否具有可比性？

我有一个数据数组 X ，其大小为，其中，和。 $T\times N\times K$ $T=1500$ $N=1500$ $K=10$

物理上，第一个索引表示天，而第二个索引表示位置，第三个索引表示测量的个特征/变量每天在每个位置。 $1,2,\ldots,T$ $1,2,\ldots,N$ $1,2,\ldots,K$ $K$

因变量是另一个数组，其大小为。 $Y$ $T\times N$

现在我randomForest在每个日期运行：

library(randomForest)

importanceValues=matrix(0, T, 10)

for (i in 1:T)

{
    y=Y[i, ]

    x1=X[i, ,1]
    x2=X[i, ,2]
    x3=X[i, ,3]
    x4=X[i, ,4]
    x5=X[i, ,5]
    x6=X[i, ,6]
    x7=X[i, ,7]
    x8=X[i, ,8]
    x9=X[i, ,9]
    x10=X[i, ,10]

    rf=randomForest(y~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10, importance=T, na.action=na.omit)

    importanceValues[i, ]=rf$importance[, 2]

}

如您所见，我可以获得跨日期的变量重要性值：

例如，在上面的最后一个日期，我们有：

> rf$importance
                          %IncMSE      IncNodePurity
x1                          311.0803     1113618.9
x2                         4627.7532     3415010.7
x3                         8527.4607     4916842.7
x4                         3507.1872     2919601.3
x5                         2982.0577     2907352.5
x6                         5673.6522     5247811.5
x7                         3893.7793     3618126.4
x8                          135.2311      248212.5
x9                         1759.8080     2334093.9
x10                         852.3294     1562279.1

我的问题是：

哪个更有用？（IncMSE 还是 IncNodePurity？）
我如何向非数据挖掘者解释什么是“IncNodePurity”？
“IncNodePurity”列的单位是什么？我可以跨日期比较这些数字吗？
一个日期，例如 2008 年 9 月 18 日，大多数“IncNodePurity”数字远大于另一个日期，例如 2012 年 6 月 1 日。关于这两个不同日期的数据集，我能说些什么？（它们是在不同日期对相同变量的不同观察）

谢谢！