数据挖掘 - 如何计算贝叶斯风险来修剪决策树？ - 吾爱随笔录

我一直在尝试关注这篇关于贝叶斯风险修剪的论文。我对这种修剪不是很熟悉，但我想知道一些事情：

(1) 本文描述了每个示例定义的风险率。我们有 $R_k(a_i|x)=\sum\limits_{j=1,j \neq i}^{T_c} L_k(a_i|C_j)p_k(C_j|x)$ . $L_k(a_i|C_j)$ 被定义为在类中预测的示例的损失 $C_j$ 当真正的班级是 $C_i$ . $p_k(C_j|x)$ 是一个例子属于的估计概率 $C_j$ . 以上是由 C4.5 算法生成的决策树。修剪从左到右，自下而上进行。我的主要问题：如何在决策树（例如节点 3）中找到风险率？

(2) 这里也有相互矛盾的说法：

第一个图像表明，如果父级风险率超过叶子的总风险率，则将父级修剪为叶子。然而，第二个声称如果叶子风险率超过父节点，就会发生修剪。为了确认，如果父节点的风险率小于父节点子树下叶子的风险率，那么我会将父节点设置为叶子吗？

(3) 根据 (1)，在二进制情况下损失将是 0-1。多类输出的合理损失可能是什么？

(4) 根据 (1)，将估计的概率 $C_j$ 成为比例 $C_j$ 在节点的分区输出类中？例如，在节点 3，我们正在查看 output = [No]。

(5) 根据 (1)，风险率是否会超过所有训练示例？