假设我正在为不需要对所有新样本进行预测的应用程序构建机器学习模型,并且给定一个新样本,当担心预测不太可能时,最好根本不进行预测是好的(例如,如果新样本看起来与训练样本非常不同)。我称之为限制哪些新样本对“模型护栏”进行预测的想法,因为我不知道官方术语。
我的问题是,是否有任何标准方法可以放置此类护栏?有没有关于这个主题的研究可以指导我?我的一些基本想法是:
使用距离度量将新样本与训练数据进行比较,并且仅在有足够数量的训练数据与新数据足够接近时才进行预测。
尝试计算某种 p 值来指示新样本与训练数据的不同程度,并且仅在该 p 值不太高时进行预测。
为了扩展想法 2),确切的方法可能必须取决于训练分布,但在一个简单的情况下,也许可以计算一个 p 值,该值表示从训练数据中采样至少会产生样本的概率远不如新样本的平均值(例如,如果我们在并且训练数据似乎是标准正态分布,则仅在在范围内时进行预测)。
我希望参考文献、任何标准技术的描述,甚至只是使用正确的术语。