我现在正在阅读的一本书,Pierro Giacomelli 的“Apache Mahout Cookbook”,指出
为避免 [this],您需要将矢量文件分成两组,称为 80-20 分割 <...> 一个好的分割百分比显示为 80% 和 20%。
是否有严格的统计证据证明这是最好的百分比,或者这是一个启发式的结果?
我现在正在阅读的一本书,Pierro Giacomelli 的“Apache Mahout Cookbook”,指出
为避免 [this],您需要将矢量文件分成两组,称为 80-20 分割 <...> 一个好的分割百分比显示为 80% 和 20%。
是否有严格的统计证据证明这是最好的百分比,或者这是一个启发式的结果?
如果这是关于将您的数据拆分为训练和测试数据,那么 80/20 是一个常见的经验法则。“最佳”拆分(需要进行操作)可能取决于您的样本量、分布和变量之间的关系。
将数据分成三种方式(例如,60/20/20 - 还是经验法则)也很常见,分为训练模型的训练集和测试模型的测试集。您将迭代训练和测试,直到您喜欢结果。然后,然后才在第三个验证集上应用最终模型(在训练集和测试集上都经过训练)。这避免了“在测试集上的过度拟合”。
但是,交叉验证比简单的数据拆分要好得多。您的教科书还应涵盖交叉验证。如果没有,请获得更好的教科书。