使用一个主要预测变量进行分类

机器算法验证 机器学习 分类
2022-03-11 06:57:38

我有一个(类)分类问题,大约有 100 个实值预测变量,其中一个似乎比其他任何一个都具有更大的解释力。我想更深入地了解其他变量的影响。然而,标准的机器学习技术(随机森林、SVM 等)似乎被一个强大的预测器淹没了,并且没有给我太多关于其他的有趣信息。k

如果这是一个回归问题,我会简单地对强预测器进行回归,然后将残差用作其他算法的输入。不过,我真的不明白如何将这种方法转换为分类上下文。

我的直觉是这个问题一定是相当普遍的:是否有处理它的标准技术?

1个回答

对于 2 类问题,您可以使用R中的GBM,它将迭代地将分类树拟合到损失函数的残差。不幸的是,它还不支持多类问题。

这似乎是一个非常适合提升的问题,但我不知道有任何支持 k 类问题的提升包。我认为问题在于为多个类编写适当的损失函数。这些glmnet包具有多项损失函数,也许您可​​以通过它的源代码查看一些指针。

您可以尝试编写自己的提升算法,或者您可以将您的问题转化为 k 个二元分类问题(一个类与所有其他类),为每个问题拟合一个 gbm 模型,并对每个模型的类概率进行平均。