数据挖掘 - 如何为集成方法选择算法？ - 吾爱随笔录

数据挖掘机器学习

2021-09-24 00:44:24

一般建议集成学习组合中的算法本质上应该不同。是否有分类表、尺度或一些规则可以评估算法之间的距离？什么是最好的组合？

2个回答

一般来说，在一个整体中，你会尝试结合多个分类器的意见。这个想法就像在同一件事上问一堆专家。你得到多种意见，然后你必须结合他们的答案（例如通过投票方案）。为了使这个技巧起作用，您希望分类器彼此不同，也就是说，您不想为同一件事向同一个“专家”询问两次。

在实践中，分类器在不同算法的意义上不必不同。您可以做的是使用不同的数据子集或不同的特征子集（或两者）训练相同的算法。如果您使用不同的训练集，您最终会得到不同的模型和不同的“独立”分类器。

对于一般来说什么效果最好，没有黄金法则。您必须尝试查看您的特定问题是否有改进。

根据经验，我总是提出三种不同的选择：

使用 bagging 学习技术，类似于 Random Forest 之后的那种。这种技术允许训练看到整个数据的一小部分的“小”分类器。之后，一个简单的投票方案（如在随机森林中）将引导您进行非常有趣且稳健的分类。
使用与融合信息或概率融合相关的任何技术。这是一个非常合适的解决方案，可以组合来自不同分类器的不同可能性。
我的最后一个建议是使用模糊逻辑，这是一个非常合适的工具，可以从概率（归属）的角度正确组合信息。

具体方法或策略的选择将在很大程度上取决于数据。

其它你可能感兴趣的问题