数据二次采样是否适合超参数优化?

数据挖掘 神经网络 深度学习 超参数调整
2022-02-25 14:10:59

从根本上说,在什么情况下只对训练集的子样本进行 HPO 是合理的?

我正在使用基于人口的训练来优化序列模型的 h 参数。我的数据集由 20M 序列组成,并且想知道由于预算有限而对子样本进行优化是否有意义。

1个回答

您的子样本必须代表您的原始数据集。

为此,就像您在受监督的情况下一样,我会得到一个保持类分布的随机子样本(例如,随机获得每个类的 40%)。

注意
如果您的课程示例太少,我也会尽量不要对它们进行抽样。即使使用随机抽样,当集群太小时,您也可能会丢失信息。另外,如果您的问题是计算时间,那么在对大样本进行采样时保持太小的集群也不成问题。