我想训练一个用于命名实体识别的神经网络来标记未标记的文本数据集。然后将通过众包平台检查生成的标签。目标是注释数据集。因此,神经网络应该找到文本中所有可能的实体,即具有高召回率而不是精度。
训练神经网络以实现高召回率的最佳方法是什么,即为误报分配比误报更低的成本?是否可以将损失函数从负对数似然更改为其他东西以鼓励高召回率?
我想训练一个用于命名实体识别的神经网络来标记未标记的文本数据集。然后将通过众包平台检查生成的标签。目标是注释数据集。因此,神经网络应该找到文本中所有可能的实体,即具有高召回率而不是精度。
训练神经网络以实现高召回率的最佳方法是什么,即为误报分配比误报更低的成本?是否可以将损失函数从负对数似然更改为其他东西以鼓励高召回率?
有一种非常简单的方法可以增加网络的召回率,而无需重新训练:
网络的输出是它给出的样本属于一个类的概率,比如说类或类。网络的输出看起来像这样。这意味着网络给出了样本为类的概率为47。通常我们检查哪个类别的概率最高,并将其视为网络的预测。但是,您可以设置一个阈值,超过该阈值样本将被视为类。
这样,您将获得更多预测到类别的样本,这将增加该类别的召回率(尽管以牺牲其精度为代价)。