我正在尝试将文本文章的二进制分类为{相关,不相关}。文本文章具有以下特点:[[ article text
, author & source
, 和image
]]。因此,我构建了三个分类器,每个分类器都专注于不同的特征:
- 第一个是 NB 文本分类器,
- 其次绘制作者和来源的分布,以及
- 第三个是图像分类器。
这些分类器中的每一个都返回“文章相关的概率”。如果该概率大于 0.5,则文章被归类为相关,否则为不相关。
基于验证数据的分类成功,我已经确定了accuracy
每个模型的分类。
问题:对于传入的测试文章,这些模型中的每一个都会生成相关文章的一些概率分数。我想在考虑每个模型的准确性的情况下生成最终概率分数。
我试过的
- 目前,我正在使用使用准确度作为权重的归一化加权分数。
- 我还建立了一个 NB 模型,以每个分类器的输出为条件,并假设输出的条件独立(考虑到问题陈述,这是一个有缺陷的假设。这就是为什么我不太倾向于为此使用 NB 模型)。
我觉得我在这里只是触及表面,并且必须有大量关于以下方面的文献:1)使用多个模型的优点/缺点,以及 2)结合多个分类器的输出。
但是,我无法找到正确的文章集(不知道如何称呼此类问题。搜索集成/组合会导致集成学习(https://en.wikipedia.org/wiki/Ensemble_learning),其中在我看来,这并不完全是我想要解决的问题)。