对于随机森林树,哪个成本函数更好:基尼指数还是熵?
我正在尝试在 Clojure 中实现随机森林。
对于随机森林树,哪个成本函数更好:基尼指数还是熵?
我正在尝试在 Clojure 中实现随机森林。
正如我在 Tan 等人的数据挖掘简介中发现的那样。人:
研究表明,杂质测度的选择对决策树归纳算法的性能影响不大。这是因为许多杂质测量值彼此非常一致 [...]。实际上,用于修剪树的策略对最终树的影响比选择杂质度量的影响更大。
因此,您可以选择使用 CART 之类的 Gini 指数或 C4.5 之类的 Entropy。
我会使用 Entropy,更具体地说是 C4.5 的增益比,因为您可以轻松地按照 Quinlan 编写的好书:C4.5 Programs for Machine Learning。