取多个神经网络的平均值?

数据挖掘 机器学习 神经网络 深度学习 交叉验证 集成建模
2022-02-26 06:03:25

我正在使用非常小的数据集拟合神经网络,因此请尝试将数据拆分为训练集和验证集。(有一个单独的测试集)如果我将训练/验证随机拆分多次,为每个训练/验证拆分构建一个神经网络,并对测试集上的神经网络的预测值取平均值,是否可以称为集成模型?或者这种技术有特定的名称吗?

编辑:我刚刚发现一种类似的技术被称为“重复随机子抽样验证”,RRSSV但是它将数据分成训练集和测试集(虽然根据维基百科它被称为“验证数据”,但它实际上是测试数据)。我的方法将给定数据拆分为训练和验证集,并使用单独的测试数据。我觉得我的方法也可以调用RRSSV

2个回答

我认为即使这种方法也称为集成方法。

我怎么能得出这样的结论?

  • 您可能听说过这个名为Random Forest的算法,它有什么作用?它在行级别和列级别随机获取数据,构建不同的树并取平均值。它也被认为是预测和分类的最佳算法之一。可以通过这个解释更好地理解。随机森林被称为集成模型(树)。

一个建议,正如您在问题中提到的那样,您的数据非常少,当时模型无法很好地泛化并且您无法取得良好的结果。如果您有任何方法可以通过收集更多数据来增加数据集大小,那么它可以帮助您获得更高的准确性。这也解释了附加的链接(解释)。如果您有任何其他问题,请务必查看并告诉我。

您可以尝试扩展您的方法,包括在训练数据中添加随机噪声,有时称为噪声注入。通过这样做,理论上您可以几乎无限地扩展您拥有的训练数据量,并避免小训练样本的过度拟合。互联网搜索会找到几篇关于该主题的论文,例如Whiteout: Gaussian Adaptive Noise Regularization in FeedForward Neural Networks