ML算法审计的方法

数据挖掘 机器学习 机器学习模型
2022-02-17 11:30:38

对于机器学习算法设计的质量评估方法,是否有任何好的参考。范围很广,涵盖了从数据准备到通用性测试的每个步骤。

此外,是否有任何自动化的“压力测试工具”来确保算法没有偏见,它符合所谓的性能?

1个回答

以下是与您的问题相关的一些信息片段。

  • 对于通用性测试,最常见的做法是将您打算在其上应用机器学习模型的数据集拆分training为,validationtesting集合。K-Fold 交叉验证也很常见:将数据集随机分成训练集和验证集多次,以确保验证集的良好性能不仅仅是纯粹的运气。
  • 同样,为了确保您的算法没有偏差并符合所谓的性能,没有比在模型在训练期间未见过的测试数据集上对其进行基准测试更好的方法了。一些深度学习框架附带生成有关模型性能报告的工具,例如Tensorflow 的 Tensorboard
  • 要找出影响算法的属性,您可以采用多种方法。LIME 等可解释性工具将帮助您了解您训练模型所依据的数据的哪些特征对模型的预测影响最大。

    这篇关于可解释性的文章继续讨论,更深入地介绍了一些框架以及您可以遵循的教程。