我一直在构建模型,有人可以检查我的方法并让我知道我是否犯了错误?
我用支持向量机训练了一个模型,如下所示:
将数据拆分为 10 个分区的训练集和测试集,用于 K10 折交叉验证。
将训练集拆分为 K5 折的训练集和验证集。
通过选择从 K5 折叠测试中获得最佳结果的 ,使用验证集训练参数
使用参数和 K10 折叠的训练数据训练模型,从 K10 折叠的每个分区训练 10 次。
抽取 80% 的测试集划分数据的 1000 个随机样本,用 SVM 对这些随机样本进行分类。计算平均值和标准差。对每个 K10 折叠分区重复 10 次。计算所有 K10 分区均值的平均值,以及它们的组合标准差。
我正在将整个过程重复 10 次,然后我将计算所有 10 次实验的平均值和标准差。
对于真实世界的测试,我计划重复上述过程,但不是将数据拆分为训练、测试和验证,而是使用所有数据通过 K5 折叠交叉验证找到,然后在真实世界数据上进行测试。意思是,将没有测试集,测试集将成为训练集的一部分,因此训练集会更大。
这是正确的方法吗?
