规范化训练、验证和测试数据时使用哪些参数?

数据挖掘 Python 交叉验证 训练 正常化
2022-02-27 21:20:01

我知道在这里发表了类似的帖子,但我想问一些后续问题。我正在进行交叉验证搜索以查找一组超参数的值,并且需要对数据进行规范化。

如果我们按如下方式拆分数据:

  1. “训练”(暂时称这组“A”)和测试数据
  2. 将“培训”拆分为培训(暂时将此集称为“B”)和验证集

规范化数据集时应该使用哪些参数?

我的想法是否正确:

  1. 我们对数据集“B”进行归一化,然后提取其均值和标准差
  2. 然后,我们使用从集合“B”获得的那些参数对验证集进行归一化
  3. 一旦我们使用验证集通过交叉验证找到我的超参数,然后我们规范化集“A”并提取其参数
  4. 使用集合“A”中的参数来规范化测试集

这是正确的,还是我误解了什么?我知道这是基本的,但我似乎无法在任何地方找到一个直接的答案?

1个回答

我不确定您所说的“规范化数据集时应该使用哪些参数”是什么意思。

但是,重要的是要注意:

标准化是在构建模型之前对模型的部分或全部参数执行的预处理步骤。

但在回答你的问题时:

您总是对训练集和测试集中使用的相同参数进行归一化(否则如何比较结果?)。