假设我们有一组需要为分类任务标记的数据点。在基于池的主动学习中,如果我们采用不确定性度量,AL 方法是否能够检测具有挑战性的案例?的预测得分较高(例如 >90%)的样本,但很有可能是正确的预测。
我的问题背后的基本原理是:向训练集中添加更多样本是否总能提高分类器的性能?
假设我们有一组需要为分类任务标记的数据点。在基于池的主动学习中,如果我们采用不确定性度量,AL 方法是否能够检测具有挑战性的案例?的预测得分较高(例如 >90%)的样本,但很有可能是正确的预测。
我的问题背后的基本原理是:向训练集中添加更多样本是否总能提高分类器的性能?
一般来说,它取决于用于选择实例的确切方法,当然也取决于数据。假设选择仅基于单个分类器的不确定性度量,那么根据定义,该方法将优先考虑以大约 50% 的概率预测的实例,即分类器“不确定”的情况。因此,不太可能选择以高概率预测的实例进行注释。然而,迭代训练过程将使分类器重新估计所有实例的概率,因此有可能在特定迭代中以 90% 的概率错误分类的实例稍后将被分配一个较低的概率,甚至是真实的类。但总体而言,并不能保证:就像任何统计系统一样,可能存在被错误分类的实例的概率很高。
我的问题背后的基本原理是:向训练集中添加更多样本是否总能提高分类器的性能?
在主动学习中,性能更多地取决于最终手动注释的实例数量,而不是未标记样本的大小。但像往常一样,性能很大程度上取决于数据本身。