我一直在寻找讨论积极无标签学习的利弊的论文,但我找不到任何东西。
我希望比较创建基于正面未标记的问题与回归分类之间的一般差异。我有一个生物数据集,很难将样本明确定义为负数,但我可以制定规则来找到尽可能接近负数的东西 - 我的想法是我可以为样本分配分数(例如,0.1 而不是 0暗示缺乏确定性,但样本接近阴性)。但是,我试图了解我是否应该考虑积极的未标记学习(理论上我可以标记我的阳性样本并忽略其他所有内容,即使其他样本能够具有接近负标签/分数)但我是努力寻找有关尝试积极无标签学习的利弊的信息。
我一直在寻找讨论积极无标签学习的利弊的论文,但我找不到任何东西。
我希望比较创建基于正面未标记的问题与回归分类之间的一般差异。我有一个生物数据集,很难将样本明确定义为负数,但我可以制定规则来找到尽可能接近负数的东西 - 我的想法是我可以为样本分配分数(例如,0.1 而不是 0暗示缺乏确定性,但样本接近阴性)。但是,我试图了解我是否应该考虑积极的未标记学习(理论上我可以标记我的阳性样本并忽略其他所有内容,即使其他样本能够具有接近负标签/分数)但我是努力寻找有关尝试积极无标签学习的利弊的信息。
我认为不可能确定 PU 学习是否适用于您的环境。它肯定与您描述的案例有关,因此值得尝试。但是还有其他有效的选择,即使在 PU 学习中,也有不同的方法可供选择(您可能对这个问题感兴趣)。
在我看来,你提出的回归替代方案是有道理的,它可能会起作用,但它在设计方面并不是很“干净”:首先选择 0.1 是任意的(为什么不是 0.2 或 0.05 或 ...?)。其次,这意味着你要告诉回归算法“这个实例应该有 0.1 的概率”对于许多负实例和一些负实例:这与说“我不知道这个实例的目标值”不同”。
请注意,您也可以在这种设置中考虑一个类分类(作为 PU 学习的一部分)。