背景:
我已经建立了一个用于预测分类结果的神经网络,并希望使用Olden 等人提出的变量重要性方法来测试变量重要性。2004 年。
问题:
然而,我注意到更“重要”的变量,即在奥尔登算法的输出中具有更大绝对值的变量,在训练集中的样本往往比“不太重要”的变量少得多。例如,一个变量具有可变重要性值 5000 的训练集中可能只有 5 个观察值编码为真(我在这里使用了单热编码来编码观察结果)而变量重要性值为 72 的训练集中可能有 750 个观察值编码为真。
问题
- 有人遇到过这个问题吗?
- 你会如何解决这个问题?
- 说这个变量是否合理具有比变量更多的变量重要性,即使它的样本量要小得多?