什么是数据混合?

机器算法验证 机器学习 数据挖掘 无监督学习 统计学习
2022-01-30 03:06:42

这个术语经常出现在方法相关的线程中。

在数据挖掘和统计学习中混合一种特定的方法吗我无法从谷歌获得相关结果。

似乎混合正在混合许多模型的结果并产生更好的结果。有什么资源可以帮助我更多地了解它吗?

4个回答

Boosting(如链接讨论中所述)是一种结合一组算法以获得比任何单一算法都更好的结果的方法。例如,随机森林是一种为分类算法组合各种分类树的方法。这种方法正式称为集成平均(尽管该算法通常应用多数规则)。混合似乎是一些人用来描述分类增强方法的词。

http://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf 一些论文可以帮助您进一步了解什么是混合。我认为您也可以在 google 上进行集成选择/学习以及堆叠。

不过,您对“混合许多模型的结果并产生更好的结果”的一般理解是正确的。

在行业中,数据混合不是关于模型,而是关于预处理:它是来自不同来源的数据合并时,例如来自数据库的数据和来自 CSV 文件的其他数据。

似乎混合正在混合许多模型的结果并产生更好的结果。有什么资源可以帮助我更多地了解它吗?

事实上,这就是他们的工作方式。他们试图给其他学习者的输出一个最佳权重(或直接学习)。它们通常在几乎所有数据集上实现最先进的性能(经过仔细调整)。

这些权重实际上被赋予了对交叉验证模型的“不折叠”预测(以避免为在训练集上具有完美准确性的模型赋予最高权重,例如随机森林)

由于资源相当稀缺,我写了这两篇文章:

Python中的混合介绍(面向方法和实现)

为什么混合有效?(关于这种方法成功的理论论证)