在尝试了朴素贝叶斯之后,我一直在尝试在 Python 上使用随机森林,这使我的准确率低于我的预期,为 62%。我的 csv 文件有大约 14,000 条记录,我将 80% 用于训练集,20% 用于测试集。我尝试了不同的参数,比如 100 棵树,500 和 1000,n_jobs 的 -1 等等,但在所有这些测试中,准确度从未发生太大变化,它总是在 74% 或 75% 左右,有时几乎是 76%。我检查了教如何实现的在线教程得到了73%的准确率,因为我的测试得到了更高的准确率,我并不担心,认为这种算法是正常的。
然而,在我最近的测试中让我感到惊讶,唯一的区别是我将模型和矢量化器保存到文件中,因此我不必每次都训练模型。新脚本加载了这些文件,将加载的(训练的)模型应用于测试集,哇,我得到了迄今为止我见过的最高准确率,93.989%,几乎是 94%。
有人有类似的经历吗?这种大幅增加是否与将模型保存到文件并加载它有关?其余的代码都是一样的。还是我太幸运了,如果我尝试更多次,我会恢复到通常的 75% 左右的准确率?