R 的 caret 包适用于 180 个模型。作者警告说,与首选模型相比,某些包可能会慢得难以处理或不太准确。
这一点作者没有错。我曾尝试训练 Boruta 和 evtree 模型,但在它们在集群上运行 > 5 小时后不得不放弃。
作者链接到一组机器学习基准,但这些仅涵盖少数算法的性能,比较不同的实现。
我是否可以求助于其他资源,以指导 180 种模型中的哪些值得尝试,哪些会非常不准确或不合理地缓慢?
R 的 caret 包适用于 180 个模型。作者警告说,与首选模型相比,某些包可能会慢得难以处理或不太准确。
这一点作者没有错。我曾尝试训练 Boruta 和 evtree 模型,但在它们在集群上运行 > 5 小时后不得不放弃。
作者链接到一组机器学习基准,但这些仅涵盖少数算法的性能,比较不同的实现。
我是否可以求助于其他资源,以指导 180 种模型中的哪些值得尝试,哪些会非常不准确或不合理地缓慢?
RStudio 的测试建议使用 SVM。
Mlmastery建议 LDA和Trial and Error。
我们是否需要数百个分类器来解决现实世界的分类问题?Fern ́andez-Delgado 等人。
论文得出的结论是并行随机森林(parRF_t)最好其次是随机森林、带有高斯核的 LibSVM(svm)、带有高斯核的极限学习机、C5.0 决策树和多层感知器(avNNet)。
最好的 boosting 和 bagging 集成使用 LibSVM 作为基础分类器(在 Weka 中),比单个 LibSVM 分类器和 adaboost R(使用 Adaboost.M1 训练的决策树集成)略好。Matlab 中的概率神经网络,调整高斯核扩展 (pnn m),以及 C 中的直接核感知器 (dkp C),这是我们提出的一个非常简单且快速的神经网络 (Fern ́andez-Delgado et al.,2014) ,也非常接近前 20 名。
Wainer, Jacques (2016) 基于 Fernandez-Delgado 等人在 115 个二进制数据集上比较 14 个不同类别的分类算法。(2014)。“我们已经证明,随机森林、RBF SVM 和梯度提升机器是最有可能产生最高准确度的分类算法”
Rich Caruana 和 Alexandru Niculescu-Mizil () 监督学习算法(分类)的实证比较以 Platt-Calibrated Boosted Trees 为最佳遵循 RF BagT Cal.SVM NN。
许多其他研究包括对所用模型的比较。一些论文更喜欢 SVM,而其他 SVM 则使用径向基或多项式内核进行分类。(也许同样的事情)
根据我自己对生成数据的回归,我推荐 earth(MARS) Cubist SVMlinear。
Manisha 论文首先在 UCI 机器学习存储库上运行测试,然后是土壤肥力,这是论文的重点。UCI 上的最佳模型是:“elm-kernel 是 ELM 神经网络,但带有高斯内核”,“svr 是回归的支持向量机,高斯内核使用带有 C++ 接口的 Lib-SVM 库”,extraTrees 和 cubist。论文包括对每个模型的详细描述以及更多论文的链接。“extraTrees 在 10 个土壤问题中的 7 个中实现了最佳 RMSE”。纸绝对值得一读。