模型架构选择的理论背景

数据挖掘 机器学习 预测建模 预言 错误处理
2021-10-13 08:11:22

假设我有一个数据集 X 和两个不同的二进制标签 y1y2. 类非常不平衡 - 3%的真实y1 和 2% y2. 此外,不存在 (0,1) 对,因此,如果 y1=0, 然后 y2=0.

我必须选择:

  • 将标签相互关联,所以这是一个三类分类问题
  • 建立一个模型 y1 得分,然后加入 X并评分 y2, 使用Xy1.

所以第一个想法被形式化为:

yf=y1y2;yf={(1,1),(0,0),(1,0)};yf=Φf(X)

第二条路我可以这样形式化:

y1=Φ1(X);X=Xy1;y2=Φ2(X)
考虑到所有条件,投影最佳算法的可能理论背景是什么?我正在尝试对错误进行估计,即:偏差+方差+噪声例如:对于两者:ΦfΦ2,即RandomForests,偏差噪声将相同,方差会更高 Φf(到目前为止只是直觉)。有人可以指出我正确的方法吗?

1个回答

误差的理论估计取决于数据,以及标签可以通过变量 X 预测的事实。没有办法先验地知道这两个模型的最佳选择,所以试试吧。

但是,我敢打赌,如果 y2 以某种方式与 y1 相关,第二个选项会更好,如果它们是独立的,我会打赌第一个选项。

但是,当您训练模型时,我强烈建议以更平衡的方式对数据进行采样,这样模型就不会总是学会预测 (0, 0) 而不管 X 的值如何(作为执行这些虚拟预测的模型)精度高)。解决不平衡类的另一种方法是使用 ROC 中的 AUC 作为在不同模型中进行选择的指标。