数据挖掘 - 分割百分比 - 吾爱随笔录

数据挖掘机器学习统计数据

2022-03-14 15:15:08

我现在正在阅读的一本书，Pierro Giacomelli 的“Apache Mahout Cookbook”，指出

为避免 [this]，您需要将矢量文件分成两组，称为 80-20 分割 <...> 一个好的分割百分比显示为 80% 和 20%。

是否有严格的统计证据证明这是最好的百分比，或者这是一个启发式的结果？

1个回答

如果这是关于将您的数据拆分为训练和测试数据，那么 80/20 是一个常见的经验法则。“最佳”拆分（需要进行操作）可能取决于您的样本量、分布和变量之间的关系。

将数据分成三种方式（例如，60/20/20 - 还是经验法则）也很常见，分为训练模型的训练集和测试模型的测试集。您将迭代训练和测试，直到您喜欢结果。然后，然后才在第三个验证集上应用最终模型（在训练集和测试集上都经过训练）。这避免了“在测试集上的过度拟合”。

但是，交叉验证比简单的数据拆分要好得多。您的教科书还应涵盖交叉验证。如果没有，请获得更好的教科书。

其它你可能感兴趣的问题