当你没有任何负集时,如何找到与正集相似的点?

数据挖掘 机器学习 无监督学习 相似
2022-03-01 08:34:51

我习惯做的任务如下。一位客户带着一群客户(称为积极公司)来找我,他希望我找到其他类似的潜在客户。通常,他还会给我一组负面公司,而我有一大堆潜在公司(我称之为篮子)。

我通过做一个 Adaboost 分类器来执行这个任务,我用正面和负面进行训练。然后我在篮子上运行这个分类器。篮子中的每家公司都会获得一个分数,最高分代表客户最有希望的前景。

现在,一个新客户没有任何负面的东西可以给出,我有点迷路了。显然,我不能再进行监督学习了。我首先想到对每个正数执行k-最近邻,然后我会收到一个“接近”前景的列表。问题是我没有分数了。此外,使用 k-nearest 方法,我应该定义一个我不喜欢的距离,因为我不想给特征赋予主观权重。事实上,Adaboost 分类器会学习一些权重,并且自己会预测哪些特征是重要的。

有人可以告诉我如何解决这个问题吗?

1个回答

总而言之,您在一类(正)和未标记数据中标记了数据。您想在未标记的数据中找到正例。机器学习中这个设置的总称是一类分类,这是一个相当广泛的领域。

一个特别相关的子领域是positive-unlabeled learning,这是当一个分类器只有正面和未标记数据时训练分类器的问题。

另请注意,您拥有所有需要在训练时预测的示例。因此,您可以使用转导学习算法。特别是,如果你知道哪些公司是相似的,你可以通过边连接相似的公司来构建一个图。然后,您可以运行一个图传播算法,为未标记的项目分配分数。

最后,是一个类似的问题,其中的答案提出了一种积极的未标记学习方法。