我正在阅读关于模式识别和机器学习的主教书。通过介绍部分,我不确定我是否得到了两个广泛使用的术语“测试数据”和“训练数据”之间的差异。训练数据是在预处理阶段(也称为特征提取)之后您将拥有的数据吗?其中测试数据是原始输入。我对吗?
测试数据与训练数据
信息处理
软问题
2021-12-23 23:50:30
3个回答
这就是问题所在。
使用不透明的学习算法,你必须弄清楚你的算法是否真的学到了一些关于所需问题区域共有的更深层结构的东西(假设有一些可以找到),或者刚刚学会识别一些特定的输入并吐出仅针对这些输入的期望答案(类似于仅“记住测试”但没有其他线索的学童)。当训练数据只包含所需问题空间的一小部分时,后者不是很有用。
因此,要找出答案,您可以在一组数据上训练您的算法,直到它吐出正确的答案。然后,您将输入更改为一些经过训练的算法从未见过的不同测试数据,看看它是否仍然可以为您提供有用的答案,或者仅对原始训练集中的唯一内容有效。那是测试数据集。
如果您有真实世界的数据,通常将其分成两个不相交的集合,并且在训练期间不要让算法看到测试集。类似于老师将测验问题锁定到学期结束。
直接回答 OP 的问题:“训练数据是在预处理阶段(也称为特征提取)之后您将拥有的数据吗?
不,这(即特征提取)并不是使一组数据成为“训练数据”的原因。您必须从测试数据中提取与训练数据相同的特征。以下是区分这些术语的一组示例步骤:
- 获取原始数据。[这组包括训练/验证/测试数据]。
- 将数据划分为训练/验证/测试拆分。
- 仅使用训练数据使用 SVM、神经网络等模型对数据进行拟合/分类。
- 现在使用测试/验证数据来检查您拥有的模型有多好。
其中测试数据是原始输入。我对吗?
测试数据是您在选择/学习模型参数时保留的数据。您稍后会使用这些数据来测试您拥有的模型有多好。关键假设是您的测试数据分布与您的训练数据分布相同。
其它你可能感兴趣的问题