数据挖掘 - RandomForest 惊人的高精度 - 吾爱随笔录

在尝试了朴素贝叶斯之后，我一直在尝试在 Python 上使用随机森林，这使我的准确率低于我的预期，为 62%。我的 csv 文件有大约 14,000 条记录，我将 80% 用于训练集，20% 用于测试集。我尝试了不同的参数，比如 100 棵树，500 和 1000，n_jobs 的 -1 等等，但在所有这些测试中，准确度从未发生太大变化，它总是在 74% 或 75% 左右，有时几乎是 76%。我检查了教如何实现的在线教程得到了73％的准确率，因为我的测试得到了更高的准确率，我并不担心，认为这种算法是正常的。

然而，在我最近的测试中让我感到惊讶，唯一的区别是我将模型和矢量化器保存到文件中，因此我不必每次都训练模型。新脚本加载了这些文件，将加载的（训练的）模型应用于测试集，哇，我得到了迄今为止我见过的最高准确率，93.989%，几乎是 94%。

有人有类似的经历吗？这种大幅增加是否与将模型保存到文件并加载它有关？其余的代码都是一样的。还是我太幸运了，如果我尝试更多次，我会恢复到通常的 75% 左右的准确率？