“hard-mining”,“hard examples”,... - “hard”在不应用于问题难度时是否意味着统计中的任何特定内容?

机器算法验证 术语
2022-03-16 21:38:55

会议论文 Jean Ogier Du Terrail,Frédéric Jurie。关于使用深度神经网络检测正射图像中的小型车辆。IEEE 图像处理国际会议,2017 年 9 月,中国北京。 ( PDF ) 使用术语 “硬挖掘” (6×)、 “硬挖掘” (2×)、 “硬示例” (3×)、 “硬示例挖掘” (1×)、 “硬否定” (2 ×), “硬负样本”(1×)和 “硬负挖掘策略”(1×)。

我不知道“硬”指定器在这种情况下的含义。正如与引导程序一起提到的那样,我怀疑它可能是统计术语,而不是 GIS 或 AI/IR/机器学习/视觉对象检测或(深度卷积)人工神经网络。(当然,它可能是一个特定于遥感的术语。)

[...]

2.3. 硬挖矿策略

Bootstrapping 在如何选择困难示例方面提供了很多自由。例如,可以为每张图像选择有限数量的误报,或者可以固定一个阈值,并且仅在其分数高于固定阈值(例如 0.5)时才选择误报。[...]

“硬”(一般而言,或在上面列出的术语中)是否意味着统计中的任何特定内容,如果是,是什么?从上下文来看,我不认为它指的是问题的难度。

我认为这可能是相关的“确凿证据”,但这并没有帮助我确定它在这里可能意味着什么。

1个回答

@Sycorax 是正确的。“困难示例”是指训练集中被当前版本的分类器错误标记的示例。通常它只用于背景类,这是一个太大的集合,任何人都无法在没有某种策略的情况下进行挖掘(不平衡集合上的二元分类很难)。

这个术语可能是 Girshick(我认为?)在开创性文章DPM中创造的,现在广泛用于对象检测社区,例如在OHEM中,其中在训练的每个步骤中使用的负窗口是根据它们当前的分数选择的.

后一篇文章是在线硬示例挖掘的示例(因此标题),而 ICIP 文章探讨了不同的离线硬示例挖掘策略。