我有两个模型,A 和 B,在 Imagenet 上训练。他们在 Imagenet 验证集上的准确率分别为 35.6% 和 28.64%,而他们的整体准确率(平均他们的分数)为 35.68%。我有兴趣找出为什么合奏在这里无效。
具体来说,我打算检查每个模型的混淆矩阵,但 Imagenet 有 1000 多个类,这使得这变得难以处理。向我建议的另一件事是互信息,但我不知道如何在这种情况下应用它。
所以,我有一个两部分的问题:
- 为什么集成的准确度没有降低(达到两个准确度的平均值)或提高?
- 有没有办法对两个网络的输出进行可视化/评分以测量相关性?
编辑 1:两者都是 AlexNet 模型,但使用两种不同的预训练权重初始化进行了训练。预训练的权重本身来自两个不同的自我监督任务。此外,当这些模型在 Pascal 上进行训练(使用各自的预训练权重初始化)时,准确性会显着提高。因此,我想弄清楚如何衡量正在集成的模型之间的相关性。