数据挖掘 - 我的模型评估程序有什么遗漏吗？ - 吾爱随笔录

我一直在构建模型，有人可以检查我的方法并让我知道我是否犯了错误？

我用支持向量机训练了一个模型，如下所示：

将数据拆分为 10 个分区的训练集和测试集，用于 K10 折交叉验证。

将训练集拆分为 K5 折的训练集和验证集。

通过选择从 K5 折叠测试中获得最佳结果的，使用验证集训练参数 $C$ $C$

使用参数和 K10 折叠的训练数据训练模型，从 K10 折叠的每个分区训练 10 次。 $C$

抽取 80% 的测试集划分数据的 1000 个随机样本，用 SVM 对这些随机样本进行分类。计算平均值和标准差。对每个 K10 折叠分区重复 10 次。计算所有 K10 分区均值的平均值，以及它们的组合标准差。

我正在将整个过程重复 10 次，然后我将计算所有 10 次实验的平均值和标准差。

对于真实世界的测试，我计划重复上述过程，但不是将数据拆分为训练、测试和验证，而是使用所有数据通过 K5 折叠交叉验证找到，然后在真实世界数据上进行测试。意思是，将没有测试集，测试集将成为训练集的一部分，因此训练集会更大。 $C$

这是正确的方法吗？

编辑：这是一张图表，希望对您有所帮助。（超参数 =） $C$