什么是数据混合?
机器算法验证
机器学习
数据挖掘
无监督学习
统计学习
2022-01-30 03:06:42
4个回答
Boosting(如链接讨论中所述)是一种结合一组算法以获得比任何单一算法都更好的结果的方法。例如,随机森林是一种为分类算法组合各种分类树的方法。这种方法正式称为集成平均(尽管该算法通常应用多数规则)。混合似乎是一些人用来描述分类增强方法的词。
http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf 一些论文可以帮助您进一步了解什么是混合。我认为您也可以在 google 上进行集成选择/学习以及堆叠。
不过,您对“混合许多模型的结果并产生更好的结果”的一般理解是正确的。
在行业中,数据混合不是关于模型,而是关于预处理:它是来自不同来源的数据合并时,例如来自数据库的数据和来自 CSV 文件的其他数据。
似乎混合正在混合许多模型的结果并产生更好的结果。有什么资源可以帮助我更多地了解它吗?
事实上,这就是他们的工作方式。他们试图给其他学习者的输出一个最佳权重(或直接学习)。它们通常在几乎所有数据集上实现最先进的性能(经过仔细调整)。
这些权重实际上被赋予了对交叉验证模型的“不折叠”预测(以避免为在训练集上具有完美准确性的模型赋予最高权重,例如随机森林)
由于资源相当稀缺,我写了这两篇文章:
Python中的混合介绍(面向方法和实现)
为什么混合有效?(关于这种方法成功的理论论证)
其它你可能感兴趣的问题