数据挖掘 - 超参数优化，集成而不是使用 CV 标准进行选择 - 吾爱随笔录

超参数优化，集成而不是使用 CV 标准进行选择

数据挖掘交叉验证集成建模超参数

2022-03-06 10:45:57

在刻录 CPU 时，在细网格上执行 CV 选择时会放置一些超参数空间。我正在使用“ scikit-learn”API，其最终结果是超参数空间上的一个点，根据所选指标，其性能是最佳的。看起来很多信息都被丢弃了，我们正在探索超参数的性能情况并保持单点估计。诸如具有多种模式、局部最大值、可能相距甚远之类的信息。集成器方法可以很好地利用这些信息。是否有一个理论建立在集合各种超参数估计之上？

2个回答

我认为您正在寻找用于超参数搜索的 hyperopts、Optuna 和 Gpopy，而不会消耗大量 CPU。

我认为这是一个很好的问题。

sklearn 的超参数搜索实际上不会保留任何生成的模型，而是在最后（可选）在最佳超参数点上重新拟合模型。实际上，由于性能是使用交叉验证估计的，因此在改装之前您永远不会生成任何最终模型。

我不知道有任何工具可以满足您的要求，但自己生成一个应该不难。您得到了cv_results_表格，现在想要选择几个彼此“远离”的高性能点，然后使用每个点拟合模型。我想在集成时你可能需要一些进一步的训练集。主要困难似乎在于定义“远”？

其它你可能感兴趣的问题

上一篇例外：尝试提交时出现数据必须是一维的下一篇如何为 ML 模型选择特征