我正在寻找一个分类器,该分类器将通过大约 10,000 个对象的相当大的训练集来区分对象Type A
和Type B
对象,其中大约一半Type A
是Type B
. 该数据集由 100 个连续特征组成,详细描述了细胞的物理特性(大小、平均半径等)。在成对散点图和密度图中可视化数据告诉我们,在许多特征中,癌细胞和正常细胞的分布存在显着重叠。
我目前正在探索随机森林作为该数据集的分类方法,并且已经看到了一些不错的结果。使用 R,随机森林能够正确分类大约 90% 的对象。
我们想要尝试和做的一件事是创建一种“确定性分数”,它将量化我们对对象分类的信心。我们知道我们的分类器永远不会是 100% 准确的,即使实现了高精度的预测,我们也需要训练有素的技术人员来识别哪些对象是真实的Type A
和Type B
. Type A
因此,我们不想提供对or的不折不扣的预测Type B
,而是希望为每个对象提供一个分数,以描述一个对象是如何A
或如何B
的。例如,如果我们设计一个从 0 到 10 的分数,0 分可能表示一个对象与对象非常相似Type A
,而 10 分表示一个对象非常相似Type B
。
我在想我可以使用随机森林中的投票来设计这样的分数。由于随机森林中的分类是通过生成树的森林中的多数投票来完成的,因此我假设被 100% 的树Type A
投票的对象与被投票的对象不同,例如,51% 的树投票是Type A
。
目前,我已经尝试为一个对象必须获得的投票比例设置一个任意阈值才能被归类为Type A
或Type B
,如果没有通过该阈值,它将被归类为Uncertain
。例如,如果我强制要求 80% 或更多的树必须同意一个分类才能通过的决定,我发现 99% 的类预测是正确的,但大约 40% 的对象被分类为Uncertain
.
那么,利用投票信息对预测的确定性进行评分是否有意义?还是我的想法走错了方向?