我正在研究机器学习问题,我只对在我预测的可能性的窄带内获得高精度感兴趣。具体来说,我想要一种算法,当它预测高于特定阈值的可能性时,它会非常准确地得分。
一个励志的例子:
我收到了 100 万个封闭的盒子,其中 10% 包含一枚金币。包含金币的盒子的可能性与盒子的物理特性有关。我被允许打开随机选择的 50 万个盒子,看看里面装的是硬币。在此之后,我可以从剩余的 500K 盒子中选择 100 个,并保留我找到的任何黄金。
我正在寻找一个分类器来解决这个问题。具体来说,我正在寻找正确的方法来合并我只能在测试样本中打开 100 个盒子的约束。换句话说,我的性能度量仅限于测试数据的子样本,因此我需要一个在预测最高可能性时高度准确的分类器。这 100 个框之外的预测误差是零关注的。
我知道成本加权损失函数会以不同的方式惩罚误报/负数,但我不熟悉任何解决优化局部准确性的特定问题的方法。
具体来说,我试图回答两个问题:
1)是否有特定的分类算法非常适合这类问题?2) 我可以修改我的训练集上使用的损失函数,以在这 100 个特定的框内产生高本地化精度吗?