外推问题:模型选择、性能指标和改进

机器算法验证 机器学习 模型选择 模型评估 外推
2022-04-20 15:56:54

机器学习模型适合给定范围内的响应变量。当涉及到实际响应变量超出该范围的实例时,这会导致性能较弱,有时甚至是灾难性的。当底层机制(基于物理的公式)已知时,如果将这样的公式合并为描述符(由这个答案
指出),则可以为 ML 模型获得更好的性能。但有时我们无法了解底层机制。还有一些例子说明某些模型在外推时效果不佳。是一篇比较一些模型的博客文章,这里是一个坐在 SE 存档中的未答复收藏夹)。

所以问题是:

1- 模型选择:是否有已建立的模型对外推问题的脆弱性较小?(例如,与基于回归的模型相比,神经网络模型在外推方面是否更有效)

2- 诊断:什么是(如果有的话)性能指标,专门用于表征模型的外推能力?一种明显的方法是仅在超出范围的实例上测试模型并报告错误,这既不系统也不具有统计意义。

3-改进:除了显而易见的(扩大训练集的范围),还有没有办法提高模型的外推性能?训练集中的有偏抽样、调整损失函数和增加对具有极端响应的实例的惩罚可能会有所帮助。是否有系统的方法或发表的文章对此提供指导?

0个回答
没有发现任何回复~