在我的问题中,我有 2 个分类器,C1 和 C2。C1 和 C2 都是朴素贝叶斯分类器,但它们之间的区别在于它们使用不同的特征选择方法。两个分类器都在 10,000 个实例(噪声标记)的数据集上进行训练,并在 1,000 个实例(手动标记)的不同数据集上进行测试,两个数据集都是平衡的。
现在,我绘制了两个分类器在越来越多的实例上的准确度,通过目测发现 C2 通常比 C1 具有更好的准确度和召回率。我想知道这种差异是否具有统计学意义,以评估 C2 是否优于 C1。
以前,我使用相同的数据集进行 k-cross 验证,获得了两个分类器准确度的平均值和变化,并计算了特定数量特征的学生 t 检验。但是,现在我有 2 个不同的数据集用于训练和测试。在这种情况下我该如何进行测试?我应该得到所有不同特征量的准确度平均值吗?
提前致谢...
编辑
关于领域,我正在处理情感分析 (SA),将文本数据分为 3 类:正面、负面和中性。关于错误成本,在这个阶段,我假设所有错误成本都是相同的(尽管我知道将负面分类为正面的成本会高于将负面分类为中性的成本)。关于处理 SA 时的“实际显着差异”,我假设 1% 的改进是显着的,因为以前的论文通常会呈现这种改进。我想在对自动标记的数据进行训练并在手动标记的数据上进行测试时测试 C1 和 C2 的准确性。