一般建议集成学习组合中的算法本质上应该不同。是否有分类表、尺度或一些规则可以评估算法之间的距离?什么是最好的组合?
如何为集成方法选择算法?
数据挖掘
机器学习
2021-09-24 00:44:24
2个回答
一般来说,在一个整体中,你会尝试结合多个分类器的意见。这个想法就像在同一件事上问一堆专家。你得到多种意见,然后你必须结合他们的答案(例如通过投票方案)。为了使这个技巧起作用,您希望分类器彼此不同,也就是说,您不想为同一件事向同一个“专家”询问两次。
在实践中,分类器在不同算法的意义上不必不同。您可以做的是使用不同的数据子集或不同的特征子集(或两者)训练相同的算法。如果您使用不同的训练集,您最终会得到不同的模型和不同的“独立”分类器。
对于一般来说什么效果最好,没有黄金法则。您必须尝试查看您的特定问题是否有改进。
根据经验,我总是提出三种不同的选择:
- 使用 bagging 学习技术,类似于 Random Forest 之后的那种。这种技术允许训练看到整个数据的一小部分的“小”分类器。之后,一个简单的投票方案(如在随机森林中)将引导您进行非常有趣且稳健的分类。
- 使用与融合信息或概率融合相关的任何技术。这是一个非常合适的解决方案,可以组合来自不同分类器的不同可能性。
- 我的最后一个建议是使用模糊逻辑,这是一个非常合适的工具,可以从概率(归属)的角度正确组合信息。
具体方法或策略的选择将在很大程度上取决于数据。
其它你可能感兴趣的问题