数据挖掘 - 主动学习是否能够发现具有挑战性的案例？ - 吾爱随笔录

主动学习是否能够发现具有挑战性的案例？

数据挖掘分类主动学习

2022-02-06 11:21:08

假设我们有一组需要为分类任务标记的数据点。在基于池的主动学习中，如果我们采用不确定性度量，AL 方法是否能够检测具有挑战性的案例？的预测得分较高（例如 >90%）的样本，但很有可能是正确的预测。 $\hat{y}$ $\neg\hat{y}$

我的问题背后的基本原理是：向训练集中添加更多样本是否总能提高分类器的性能？

1个回答

一般来说，它取决于用于选择实例的确切方法，当然也取决于数据。假设选择仅基于单个分类器的不确定性度量，那么根据定义，该方法将优先考虑以大约 50% 的概率预测的实例，即分类器“不确定”的情况。因此，不太可能选择以高概率预测的实例进行注释。然而，迭代训练过程将使分类器重新估计所有实例的概率，因此有可能在特定迭代中以 90% 的概率错误分类的实例稍后将被分配一个较低的概率，甚至是真实的类。但总体而言，并不能保证：就像任何统计系统一样，可能存在被错误分类的实例的概率很高。

我的问题背后的基本原理是：向训练集中添加更多样本是否总能提高分类器的性能？

在主动学习中，性能更多地取决于最终手动注释的实例数量，而不是未标记样本的大小。但像往常一样，性能很大程度上取决于数据本身。

其它你可能感兴趣的问题

上一篇正态分布和随机森林下一篇当输出影响未来输入时的预测建模