我正面临一个问题,我想使用主动学习来改进我的分类器。基本上,我可以从一组候选数据集中的一个(并且只有一个)数据集中选择数据。问题是选择哪一个?
换句话说,给定一组我可以用来改进我的分类模型的候选数据集,哪一个对模型的改进最大?我可以使用批次的目标函数中的一些指标(例如,平均值)吗?我是否需要对所有数据集的目标进行标准化?是否提出了用于推断模型改进幅度的指标?
在这个阶段,我的目标函数如下所示:
a Uncertainty + (1-a) Diversity
其中a是权重因子,Uncertainty是给定数据点的模型预测中的不确定性,是Diversity数据点与训练人群之间距离的度量。
任何帮助将不胜感激。
干杯
弗朗茨