机器算法验证 - 使用一个主要预测变量进行分类 - 吾爱随笔录

机器算法验证机器学习分类

2022-03-11 06:57:38

我有一个（类）分类问题，大约有 100 个实值预测变量，其中一个似乎比其他任何一个都具有更大的解释力。我想更深入地了解其他变量的影响。然而，标准的机器学习技术（随机森林、SVM 等）似乎被一个强大的预测器淹没了，并且没有给我太多关于其他的有趣信息。 $k$

如果这是一个回归问题，我会简单地对强预测器进行回归，然后将残差用作其他算法的输入。不过，我真的不明白如何将这种方法转换为分类上下文。

我的直觉是这个问题一定是相当普遍的：是否有处理它的标准技术？

1个回答

对于 2 类问题，您可以使用R中的GBM包，它将迭代地将分类树拟合到损失函数的残差。不幸的是，它还不支持多类问题。

这似乎是一个非常适合提升的问题，但我不知道有任何支持 k 类问题的提升包。我认为问题在于为多个类编写适当的损失函数。这些glmnet包具有多项损失函数，也许您可以通过它的源代码查看一些指针。

您可以尝试编写自己的提升算法，或者您可以将您的问题转化为 k 个二元分类问题（一个类与所有其他类），为每个问题拟合一个 gbm 模型，并对每个模型的类概率进行平均。

其它你可能感兴趣的问题