测试数据集和训练数据集有什么区别?根据我研究的博客和论文,我的理解是我们将拥有 100% 的数据集,分为 2 组(测试数据集为 30%,70% 为训练数据集)。我想了解更多点以及区分 100% 数据集以测试和训练数据集的用途。
训练数据集和测试数据集有什么区别?
在机器学习中,我们基本上尝试创建一个模型来预测测试数据。因此,我们使用训练数据来拟合模型并使用测试数据来测试它。生成的模型用于预测未知的结果,称为测试集。正如您所指出的,数据集分为训练集和测试集,以便通过对其进行训练和测试来检查准确性、精度。
要分配的比例完全取决于您和您面临的任务。70% 的数据必须用于训练而休息用于测试,这并不重要。这完全取决于正在使用的数据集和要完成的任务。例如,像reuters这样的简单数据集。因此,假设我们在 50% 的数据上训练它并在 50% 的数据上对其进行测试,精度将不同于在 90% 左右的数据上训练它。这主要是因为在机器学习中,要训练的数据集越大越好。你可以参考这篇论文,它根据数据集大小告诉精度值。现在取决于您,根据您的任务需要达到什么精度或准确度。
话虽如此,您将如何预测您没有答案的结果?(该模型最终被训练来预测我们没有答案的结果)。我想在这里补充一下验证数据集。
套:
训练集:在这里,您拥有完整的训练数据集。您可以提取特征并训练以适应模型等。
验证集:这对于为您的估算器选择正确的参数至关重要。我们可以将训练集分为训练集和验证集。根据验证测试结果,可以训练模型(例如,更改参数、分类器)。这将帮助我们获得最优化的模型。
测试集:在这里,一旦获得模型,您就可以使用在训练集上获得的模型进行预测。
请参阅此以获取更多信息。
^ 我完全同意 Hima Varsha 的上述回答,但我想补充一点,有时测试集有不同的名称。我曾经工作过的一家数据科学公司会使用训练集、验证集、测试集,有时还会使用第三个测试集,称为“保留集”。我不确定这是否是我所工作的公司所特有的,但你可能会在未来的文献或文档中看到它。此外,还有第三个指标几乎总是伴随着准确率和召回率,称为F1 分数。这实际上是从精确率和召回率两个方面计算出来的,但通常用作精确率和召回率的总结。