我一直在研究一个非常简单的文本分类模块(tfidf + Random Forest)。我的经理坚持使用简单的 .7/.3 拆分,而不是进行交叉验证,然后坚持将基于 70% 数据训练的模型投入生产(而不是对整个事物进行训练的模型)。她的理由是该模型将更加“可预测”,并且我们从添加剩余的 30% 中获得的任何收益都可以忽略不计。
出于好奇,我使用交叉验证进行了一些测试。首先是 3 倍,然后逐渐增加到 10 倍。随着倍数的增加,模型的精度会提高(首先非常强烈:精度从 3 倍增加到 5 倍,精度提高了 3 个点,然后每倍的收益变得更加微不足道,但是达到 10 倍时仍然加起来 5 点提升)。交叉验证分数之间的差异总是非常低。
我是否可以假设这可以解释为意味着模型很可能会受益于在整个数据集上而不是仅在 70% 上的训练?
我知道在训练数据上可能存在过度拟合的风险,但是 a)我真的不知道仅对 70% 的数据进行训练会如何显着降低风险,b)这些是非常正式的、标准化的沟通,而且是看不见的数据不太可能与训练数据集有显着差异。