我目前有一个数据集,其中大约 5% 的标记点和 95% 的未标记点。只有当我非常有信心并留下其余的 NaN 时,我才想标记一些未标记的点。就我个人而言,我想使用随机森林,但我不确定这是否可能 - 我假设我将不得不使用一些生成模型?
我想这样做的原因之一是因为已知点不包含所有标签,因此我想在对其余点使用无监督学习之前对尽可能多的未知点进行分类。
有我可以使用的图书馆吗?
我目前有一个数据集,其中大约 5% 的标记点和 95% 的未标记点。只有当我非常有信心并留下其余的 NaN 时,我才想标记一些未标记的点。就我个人而言,我想使用随机森林,但我不确定这是否可能 - 我假设我将不得不使用一些生成模型?
我想这样做的原因之一是因为已知点不包含所有标签,因此我想在对其余点使用无监督学习之前对尽可能多的未知点进行分类。
有我可以使用的图书馆吗?
大多数 sklearn 分类器都有概率输出。
CLF.predict_proba
从中您可以确定阈值。