数据挖掘 - 积极无标签学习的利弊？ - 吾爱随笔录 - 问答

积极无标签学习的利弊？

数据挖掘机器学习半监督学习

2022-03-14 03:50:45

我一直在寻找讨论积极无标签学习的利弊的论文，但我找不到任何东西。

我希望比较创建基于正面未标记的问题与回归分类之间的一般差异。我有一个生物数据集，很难将样本明确定义为负数，但我可以制定规则来找到尽可能接近负数的东西 - 我的想法是我可以为样本分配分数（例如，0.1 而不是 0暗示缺乏确定性，但样本接近阴性）。但是，我试图了解我是否应该考虑积极的未标记学习（理论上我可以标记我的阳性样本并忽略其他所有内容，即使其他样本能够具有接近负标签/分数）但我是努力寻找有关尝试积极无标签学习的利弊的信息。

1个回答

我认为不可能确定 PU 学习是否适用于您的环境。它肯定与您描述的案例有关，因此值得尝试。但是还有其他有效的选择，即使在 PU 学习中，也有不同的方法可供选择（您可能对这个问题感兴趣）。

在我看来，你提出的回归替代方案是有道理的，它可能会起作用，但它在设计方面并不是很“干净”：首先选择 0.1 是任意的（为什么不是 0.2 或 0.05 或 ...？）。其次，这意味着你要告诉回归算法“这个实例应该有 0.1 的概率”对于许多负实例和一些负实例：这与说“我不知道这个实例的目标值”不同”。

请注意，您也可以在这种设置中考虑一个类分类（作为 PU 学习的一部分）。

其它你可能感兴趣的问题

上一篇一个神经网络中的回归和分类下一篇对不同长度的列执行 PCA