我正在使用 sklearn 多输出 RF 回归器来学习我的数据中的统计信息。所以我的目标包含不同特征的几个概率,所有这些概率的总和是一个,因为它们是特征出现频率的分数。
尽管我没有在任何地方强制要求输出总和为 1,但 RF 实际上学习了这个属性。我还为我的目标添加了一个常数,然后 RF 得知输出的总和应该是该常数的一加,所以它不是某种标准化。我很确定我知道 RF 回归器是如何工作的,但我无法解释它如何学习我的数据的这些元特征。我本来希望我的输出总和在 1 左右,并不总是正好是 1。
有任何想法吗?
概率的 RF 回归器
数据挖掘
scikit-学习
回归
随机森林
2022-03-03 03:25:25
1个回答
这确实是预期的行为,因为树模型处理多输出问题的方式。节点包含一些样本,每个输出的分数是这些样本对应输出的平均值。由于平均通勤与总和,求和为 1 的性质得以保留。我不确定这是否有帮助,但在符号中:
然后对于整个森林,您只是应用另一个平均值,因此再次维护该属性。
其它你可能感兴趣的问题