组合多个分类器

机器算法验证 可能性 分类 条件概率 朴素贝叶斯 集成学习
2022-03-31 20:18:03

我正在尝试将文本文章的二进制分类为{相关,不相关}。文本文章具有以下特点:[[ article text, author & source, 和image]]。因此,我构建了三个分类器,每个分类器都专注于不同的特征:

  1. 第一个是 NB 文本分类器,
  2. 其次绘制作者和来源的分布,以及
  3. 第三个是图像分类器。

这些分类器中的每一个都返回“文章相关的概率”。如果该概率大于 0.5,则文章被归类为相关,否则为不相关。

基于验证数据的分类成功,我已经确定了accuracy每个模型的分类。

问题:对于传入的测试文章,这些模型中的每一个都会生成相关文章的一些概率分数。我想在考虑每个模型的准确性的情况下生成最终概率分数。

我试过的

  1. 目前,我正在使用使用准确度作为权重的归一化加权分数。
  2. 我还建立了一个 NB 模型,以每个分类器的输出为条件,并假设输出的条件独立(考虑到问题陈述,这是一个有缺陷的假设。这就是为什么我不太倾向于为此使用 NB 模型)。

我觉得我在这里只是触及表面,并且必须有大量关于以下方面的文献:1)使用多个模型的优点/缺点,以及 2)结合多个分类器的输出。

但是,我无法找到正确的文章集(不知道如何称呼此类问题。搜索集成/组合会导致集成学习(https://en.wikipedia.org/wiki/Ensemble_learning),其中在我看来,这并不完全是我想要解决的问题)。

1个回答

这也可能有帮助:Kuncheva, LI (2004)。组合模式分类器:方法和算法

编辑:对于我的类似问题,我最终找到了基于准确度值的分类器概率,如下面的问题所述:Assigning probabilities to ensemble Experts (classification) using using Theorem 4.2 (p. 127) from Kuncheva, LI (2004)。组合模式分类器:方法和算法,表示这种情况下的最佳组合权重是,其中是第个专家的分类精度。然后我使用投影到概率单纯形上将权重转换为概率。然后可以将这些与每个预测的概率结合起来,您已经必须获得最终的概率值。wi=log(pi/(1pi))pii