- 在应用主动学习采样技术之前,如何确保在小数据集上训练的初始模型不会出现过拟合?因为我将使用这个模型来选择新的未标记样本。
主动学习中的过拟合
数据挖掘
机器学习
深度学习
过拟合
主动学习
2021-10-14 04:37:13
2个回答
我不完全确定我的答案,所以请谨慎对待。
我认为你不应该太担心初始模型被过度拟合:
- 这很可能发生,因为初始数据集很小,因此模型可能别无选择,只能捕获偶然发生的模式。
- 主动学习的过程旨在逐步“纠正”初始模型。这不仅是关于捕捉新细节的模型,还可能是关于模型根据数据重新评估以前的模式。
所以我的直觉是让模型在必要时稍微过拟合。但是,如果模型过度拟合和/或过于复杂,则意味着它需要标记很多(可能太多)实例。根据上下文,这可能是一个更严重的问题:初始模型应该足够好,以使主动学习过程不需要标记许多/所有实例。
您应该在验证数据集上测试您的模型:如果验证分数正确,则没有过度拟合。
如果您想确保完全没有过拟合,您将需要在多个验证数据集上测试您的模型。