我正在尝试将AdaBoost.M1算法(作为基础学习者的树)实现到具有大特征空间(~ 20.000 个特征)和 100 个样本的数据集R
。为此目的存在各种不同的软件包;AdaBag
,Ada
和gbm
. gbm()
(来自gbm
-package)似乎是我唯一可用stack.overflow
的选项,就像其他选项一样,虽然它有效,但它非常耗时。
问题:
- 有什么办法可以克服
stack.overflow
其他包中的问题,或者gbm()
运行得更快?我尝试将 转换data.frame
为矩阵但没有成功。 - 在执行
AdaBoost
时gbm()
(分布设置为“AdaBoost”),统计学习简介(Hastie 等人)提到了调整所需的以下参数:
需求:
- 要适应的树的总数。
- 收缩参数表示为 lambda。
- 每棵树中的分割数,控制增强集成的复杂性。
由于该算法在 中执行非常耗时R
,因此我需要查找关于哪些调整参数在适合这种大特征空间数据的范围内的文献,然后在该范围内执行交叉验证以估计测试错误率。
有什么建议?