模型护栏

数据挖掘 预测建模
2022-02-14 23:27:53

假设我正在为不需要对所有新样本进行预测的应用程序构建机器学习模型,并且给定一个新样本,当担心预测不太可能时,最好根本不进行预测是好的(例如,如果新样本看起来与训练样本非常不同)。我称之为限制哪些新样本对“模型护栏”进行预测的想法,因为我不知道官方术语。

我的问题是,是否有任何标准方法可以放置此类护栏?有没有关于这个主题的研究可以指导我?我的一些基本想法是:

  1. 使用距离度量将新样本与训练数据进行比较,并且仅在有足够数量的训练数据与新数据足够接近时才进行预测。

  2. 尝试计算某种 p 值来指示新样本与训练数据的不同程度,并且仅在该 p 值不太高时进行预测。

为了扩展想法 2),确切的方法可能必须取决于训练分布,但在一个简单的情况下,也许可以计算一个 p 值,该值表示从训练数据中采样至少会产生样本的概率远不如新样本的平均值(例如,如果我们并且训练数据似乎是标准正态分布,则仅在范围内时进行预测)。yxx[2,2]

我希望参考文献、任何标准技术的描述,甚至只是使用正确的术语。

1个回答

贝叶斯机器学习是对预测中的不确定性进行建模的一般方法。

经过训练的贝叶斯机器学习模型将根据该分布产生预测目标值的分布,可以计算这些值的概率(也称为置信度)。然后可以将该概率阈值用于预测或不进行预测。

机器学习:Kevin P. Murphy 的概率视角涵盖了各种贝叶斯机器学习技术。