统计预测方法性能的可重复基准?

机器算法验证 预测模型 参考
2022-03-22 06:19:03

有许多用于预测建模的统计模型。其中包括著名的方法,如朴素贝叶斯、knn、SVM、随机森林等。

我正在寻找可重现的示例(最好在 R 中)来展示各种预测方法的性能。我在哪里可以找到这样的资源?

谢谢。

1个回答

暂定答案在这里,但是,有一篇论文 [1] 比较了 22 种分类算法在 10 个公共领域 NASA Metrics Data 存储库数据集中预测软件故障的性能。

本研究中使用的数据来自 NASA MDP 存储库 [10]。分析了 10 个软件缺陷预测数据集,包括 [44] 中使用的 8 个数据集以及两个附加数据集(JM1 和 KC1,另见表 1)。每个数据集由几个软件模块以及它们的故障数量和特征代码属性组成。
基准测试旨在对比几种分类算法的竞争性能。为此,总共选择了 22 个分类器,这些分类器可以分为统计方法、最近邻方法、神经网络、支持向量机、基于树的方法和集成的类别。选择旨在在已建立的技术(例如朴素贝叶斯、决策树或逻辑回归)与尚未在缺陷预测中广泛使用的新方法(例如,支持向量机的不同变体、逻辑模型树、或随机森林)。表 2 中概述了这些分类器,并简要说明了它们的基本范式。

我还发现另一篇论文 [2] 比较了两个生态建模数据集中的一些算法。它对此类算法的易用性进行了有趣的讨论,并试图预测在给定地理特征的情况下找到标本的概率(检查图 3 和图 4)。

Logistic 多元回归、主成分回归和分类回归树分析 (CART),通常用于使用 GIS 进行生态建模,与相对较新的统计技术多元自适应回归样条 (MARS) 进行比较,以测试其准确性、可靠性、实施在 GIS 内和易于使用。所有这些都应用于相同的两个数据集,涵盖了预测建模中常见的广泛条件,即地理范围、规模、预测变量的性质和抽样方法。
Grimmia 数据集(1285 例;存在 419 例,缺席 866 例)代表了从墨西哥到霍尔诺斯角的拉丁美洲苔藓属 Grimmia 的物种分布(图 3)。Grimmia 最近针对拉丁美洲进行了修订,其分类学在世界范围内广为人知(Muñoz 1999;Muñoz & Pando 2000)。
选择 Fagus 数据集(103 181 例;存在和不存在各占 50%)代表区域尺度的高空间分辨率。因变量是 La Liébana 地区(西班牙西北部坎塔布里亚省)是否存在 Fagus sylvatica 贫营养森林。

[1] Lessmann, S., Baesens, B., Mues, C., & Pietsch, S. (2008)。软件缺陷预测的基准分类模型:提出的框架和新发现。软件工程,IEEE Transactions on,34(4),485-496。[IEEE 上的 PDF]

[2] Muñoz, J., & Felicísimo, Á. 米(2004)。预测建模中常用的统计方法的比较。植被科学杂志,15(2),285-292。[威利的 PDF]