我使用了我用 50 000 个样本训练的决策树分类器。我也设置了未标记的样本,所以我决定使用自训练算法。未标记集有 10 000 个样本。我想问一下这是否正常,用这10 000个未标记的样本重新训练模型后,准确性没有改变以及混淆矩阵具有相同的值?我预计会有一些变化(更好或更坏的预测)。先感谢您。
自我训练后的准确性没有改变
数据挖掘
准确性
半监督学习
2022-02-23 00:37:48
1个回答
好吧,这有点令人失望,但是:您的模型有局限性。
如果 50.000 个数据构成了您的问题的完整集合,则意味着不需要更多数据或没有帮助。
我所说的完整集是什么意思:有足够的样本在你的特征空间中形成一个满秩相关矩阵。因此,从您的样本中,您可以获得一组可以通过线性组合在您的特征空间中生成所有其他样本的集合。
此外,虽然您的数据可能代表决策三需要了解的所有信息,以便在生成的特征空间中对您的数据进行分类,但可能还有其他特征空间受益于额外数据(例如更深的树或其他模型)
您可以尝试通过为数据和特征工程提供一些规范化来帮助您做出决策树
其它你可能感兴趣的问题