人工智能 - 如果我只能为标记为正面的示例获取基本事实标签，我如何让我的系统（在线）学习？ - 吾爱随笔录

如果我只能为标记为正面的示例获取基本事实标签，我如何让我的系统（在线）学习？

人工智能机器学习在线学习算法偏差

2021-10-22 17:46:27

我有一个二进制分类器（将其视为内容审核系统），它是在通过批量学习训练后部署的。

部署后，人类仅检查算法预测为阳性的项目并检查其正确性。

换句话说，一旦投入生产，如果我将模型的预测分组到混淆矩阵中未见过的示例上

+-----------+-----------------+
|           |   Ground-truth  |
|           +-----+-----------+
|           |     | Neg | Pos |
+-----------+-----+-----+-----+
|           | Neg | x11 | x12 |
| Predicted +-----+-----+-----+
|           | Pos | x21 | x22 |
+-----------+-----+-----+-----+

我可以访问计数元素的所有真实标签 $x_{21}$ , $x_{22}$ （预测阳性）
我知道总和 $x_{11}$ 和 $x_{12}$ ，但不是它们的值
我无法访问预测为负的元素的真实标签。

这种（次优）设置允许测量精度 $\frac{x_{22}}{x_{21} + x_{22}}$ ，而召回率保持未知，因为根本不检查预测为负的元素（由于资源限制，无法分配负的真实标签）。

从用户那里收集的关于（真假）正面元素的信息可用于提供再训练循环......但是

在这种情况下，是否有任何“智能”学习方案有望使算法提高其整体性能（例如，正类的 F1 分数）？
监控什么有意义的指标以确保模型的性能不会降低？*（鉴于此处指定的约束，F1 分数是未知的）。

感谢您提供有关如何处理此问题的任何提示！

_{* 一种解决方案可能是持续监控标记评估集上的 F1 分数，但也许还有更多方法可以做？}

1个回答

我认为需要考虑的第一个问题是：您是否期望您正在处理的数据会随着时间而变化（即您是否期望存在概念漂移）？这可能是任何类型的变化。简单地改变某些输入的频率，改变正面/负面的频率，甚至改变输入和真实的正面/负面标签之间的关系。

如果您不希望出现概念漂移，我几乎会考虑建议您可能没有那么大的问题。对您在线收到的数据完全不做任何事情可能是值得的，而只是坚持您最初从离线数据中学到的东西。或者，您可以尝试使用获得的那些额外的预测阳性样本进行微调。您只需要注意不要在此基础上过多地更改您的模型，因为您知道您在这里不再收到所有数据的代表性样本，因此如果您过分关注，您可能会偏向您的模型仅此在线数据相对于离线数据。

如果您确实希望存在概念漂移，我想这个问题会变得更加有趣，而且在大多数与问题描述相匹配的情况下，您似乎也确实在处理这个问题。在这种情况下，您确实希望充分利用您上网的新数据，因为它可以让您适应正在处理的数据的变化。

因此，一种“解决方案”可能是……忽略您仅从所有数据的有偏差样本（仅从预测的阳性样本）在线学习的问题，并且无论如何都要学习。这实际上可能不会表现得太差。除非您的模型已经非常出色，否则您可能仍然会得到误报，因此仍然可以从其中一些模型中学习——您并不是只从正例中学习。尽管如此，误报并不能代表所有的负面，所以你仍然有偏见。

我能想到的唯一更好的解决方案是放宽这个假设：

部署后，人类仅检查算法预测为阳性的项目并检查其正确性。

您仍然可以让人类专注于预测的积极因素，但有时也可能让他们检查预测的消极因素。不经常，就几次。您可以将其视为像在强化学习环境中一样进行探索。您可以随机进行（以一些小概率随机选择预测的负数），但您也可以对此更聪明，并明确针对您的模型“不确定”的实例或与您之前见过的数据不同的实例进行探索（专门针对概念漂移）。

我在这里有一篇与此非常相似的论文：Adapting to Concept Drift in Credit Card Transaction Data Streams Using Contextual Bandits and Decision Trees。这里假设我们正在处理（可能是欺诈性的）交易，我们可以从中挑选并手动检查一个非常小的在线样本。本文唯一真正的区别是，我们假设不同的交易也有不同的货币“奖励”，以根据交易金额被正确捕获为正数。因此，即使我们预测欺诈的可能性很低，一笔金额非常高的交易也可能值得检查，而金额非常低的交易可能会被忽略，即使它具有较高的欺诈预测概率。

监控什么有意义的指标以确保模型的性能不会降低？*（鉴于此处指定的约束，F1 分数是未知的）。

如果可能的话，为此设置一个带标签的评估集可能会很有用......但如果概念漂移预计是您的问题设置中的一个主要问题，它也可能不具有代表性（因为我认为您在线处理的概念漂移会不会反映在较旧的、有标签的评估集中）。

只需跟踪您可以在线测量的事物，例如精度，以及它如何随时间变化，就已经足够有用了。通过一些额外的假设，您可以获得其他指标的粗略估计。例如，如果您假设该比率 $\frac{TP + FN}{FP + TN}$ 在ground-truth-positives 和ground-truth-negatives 之间保持不变（与您的离线标记数据中的情况相同），您还可以尝试推断您错过了多少正面。如果你的精度随着时间的推移而下降（你的真阳性越来越低），你知道——假设分数保持不变——你在数据集中其他地方的假阴性必须以大约相同的绝对数增长。

其它你可能感兴趣的问题

上一篇为什么我们不在表格 Q-Learning 中使用重要性抽样？下一篇如果每次运行代码产生不同的结果，研究人员将如何确定最佳深度学习模型？