机器算法验证 - 组合多个分类器 - 吾爱随笔录

我正在尝试将文本文章的二进制分类为{相关，不相关}。文本文章具有以下特点：[[ article text, author & source, 和image]]。因此，我构建了三个分类器，每个分类器都专注于不同的特征：

这些分类器中的每一个都返回“文章相关的概率”。如果该概率大于 0.5，则文章被归类为相关，否则为不相关。

基于验证数据的分类成功，我已经确定了accuracy每个模型的分类。

问题：对于传入的测试文章，这些模型中的每一个都会生成相关文章的一些概率分数。我想在考虑每个模型的准确性的情况下生成最终概率分数。

我试过的

目前，我正在使用使用准确度作为权重的归一化加权分数。
我还建立了一个 NB 模型，以每个分类器的输出为条件，并假设输出的条件独立（考虑到问题陈述，这是一个有缺陷的假设。这就是为什么我不太倾向于为此使用 NB 模型）。

我觉得我在这里只是触及表面，并且必须有大量关于以下方面的文献：1）使用多个模型的优点/缺点，以及 2）结合多个分类器的输出。

但是，我无法找到正确的文章集（不知道如何称呼此类问题。搜索集成/组合会导致集成学习（https://en.wikipedia.org/wiki/Ensemble_learning），其中在我看来，这并不完全是我想要解决的问题）。