我是机器学习的新手。我在同一个数据集上应用了逻辑回归和随机森林。所以我得到了变量重要性(逻辑回归的绝对系数和随机森林的变量重要性)。我正在考虑将两者结合起来以获得最终的变量重要性。谁能分享他/她的经验?我检查了 bagging、boosting、集成建模,但它们不是我需要的。它们更多地是跨复制组合同一模型的信息。我正在寻找的是结合多个模型的结果。
如何结合逻辑回归和随机森林的结果?
机器算法验证
机器学习
物流
随机森林
2022-03-04 02:37:16
2个回答
这可能取决于您要使用可变重要性的目的。是否要作为第三分类模型的特征选择标准?在这种情况下,您可以尝试计算各种值和平均权重的变量重要性(可能在将每个单独的变量重要性向量标准化为单位长度之后)的加权平均值,然后获取最终产生最佳交叉验证分数的值模型。
至于结合逻辑回归模型和随机森林模型的结果(不考虑变量重要性),以下博客文章提供了非常丰富的信息,并证明了输出的单个平均是回归模型的一种简单但非常有效的集成方法。
(评论上述回应和反馈)
感谢您阅读博客!
交叉熵误差函数有一点欺骗性,将预测值截断为 [1e-10, 1-1e-10] 作为防止日志函数错误的一种廉价且简单的方法。否则,这是标准公式。
对于数据集,很可能有随机森林远优于对数的数据集。注册 和日志。注册 没有给合奏增加任何东西。当然,请确保您使用的是保留数据 - 由于具有更有效的参数,随机森林几乎总是会在训练数据上获得更好的结果。
其它你可能感兴趣的问题