我有一个关于 PU-Learning 的问题,它涉及从正标记(没有标记的负样本)和正/负未标记数据中学习。
特别是,我的问题是关于仅从正面和未标记数据中学习分类器的论文。本文将一个非传统的分类器从标记/未标记的数据集中学习,并将被标记示例的概率输出到传统分类器中它输出一个例子为正的概率。我已经实现了第一个提议的方法(第 2 节,“从非传统输入中学习传统分类器”)。然而,概率对于几个示例,变得大于 1(这不应大于 1,因为它是概率)
用于学习非传统分类器,我使用的非传统数据集由
- 从整个标记数据中随机选择 100,000 个标记示例,以及
- 从整个未标记数据中随机选择 100,000 个未标记示例。
并且用于估计——使用第一个提议的估计器——我正在使用一个验证数据集,该数据集由从单独的标记数据集中随机选择的 30,000 个标记实例组成。
根据论文,概率如果 (1) 和 (2) 在示例空间中重叠,则保证格式正确。就我而言,(1) 和 (2) 有 20% 的重叠示例,但我仍然得到非良构概率 (>1)。
我怎样才能达到一个明确定义的概率?
编辑 8/21
根据论文,必须是一个产生正确概率作为其输出的分类器,如逻辑回归,或一个校准的分类器,如朴素贝叶斯/SVM,才能使该方法发挥作用。我只是使用最大熵分类器(来自 NLTK 包),也称为逻辑回归。因此,我想这应该没有任何问题。
尽管论文指出标记(1)和未标记(2)数据集用于训练是“来自特征空间中重叠区域的样本”,这样的数据集似乎是不相交的(参见第 5 节的实验,P 和 U 是不相交的)。我也尝试过使用不相交的标记和未标记数据集,但是我仍然得到超过一个的概率.
平衡数据集也没有任何区别。
我已经尝试过提出的第二个估计器(e2)。仍然获得超过 1 的概率.
编辑 8/29
在第 5 节中,描述了一个真实世界数据的示例,我们有一组来自数据库 TCDB 的标记+正例示例,以及一组从数据库 SwissProt 中随机采样的未标记示例,其中 P 和 U 不相交。然后他们使用 P,U 来学习一个非传统的分类器。我认为这种方法可以应用于我的问题,因为我也有一组正例,以及一组随机采样的未标记示例。你怎么看 ?
我已经尝试了建议的第三个估计器(e3)。由于它从正标记集中获取示例的最大概率(在我的情况下约为 0.98),因此我不再获得超过 1 的概率。但是,由于该估计仅基于一个示例,而不是所有示例之间的平均值,因此对我来说这看起来不是一个好的估计器。关于这个估计器的有效性有什么想法吗?
谢谢