假设我有一个数据集 和两个不同的二进制标签 和. 类非常不平衡 - 3%的真实 和 2% . 此外,不存在 (0,1) 对,因此,如果 , 然后 .
我必须选择:
- 将标签相互关联,所以这是一个三类分类问题
- 建立一个模型 得分,然后加入 并评分 , 使用和 .
所以第一个想法被形式化为:
第二条路我可以这样形式化:
考虑到所有条件,投影最佳算法的可能理论背景是什么?我正在尝试对错误进行估计,即:偏差+方差+噪声。例如:对于两者:和,即
RandomForest
s,偏差和噪声将相同,方差会更高 (到目前为止只是直觉)。有人可以指出我正确的方法吗?