我有一个分类器,我已经在一个小数据集上进行了训练和测试 - 收到了可靠的结果,尽管我希望改进它们。如果我理解正确,一种方法是添加更多数据以获得更精确的分类规则。
这样做时,我应该将数据添加到训练集和测试集吗?还是我应该只添加到训练集中?或者我应该从“新数据集”创建新的训练和测试集?(新 = 旧数据 + 新数据)。
我有一个分类器,我已经在一个小数据集上进行了训练和测试 - 收到了可靠的结果,尽管我希望改进它们。如果我理解正确,一种方法是添加更多数据以获得更精确的分类规则。
这样做时,我应该将数据添加到训练集和测试集吗?还是我应该只添加到训练集中?或者我应该从“新数据集”创建新的训练和测试集?(新 = 旧数据 + 新数据)。
为了改进您的分类器,您几乎没有选择。
添加更多数据并不总是有帮助。但是,如果更多数据对您有帮助,您可以通过以下步骤获得估计: 绘制图。轴上是训练示例的数量,从每个班级的一个示例开始,到您当前所在的任何地方。轴显示错误。现在您应该添加两条曲线:训练和测试误差。对于低,训练误差应该非常低(几乎为 0),而测试误差应该非常高。有了足够的数据,它们应该“差不多”。通过绘制这些曲线,您可以有根据地猜测有多少数据会给您带来多少改进。
这样做时,我应该将数据添加到训练集和测试集吗?
取决于你想要达到什么。如果只是得到一个更好的分类器,那么你只能将它添加到训练集中。但是,如果您在科学环境中这样做,这可能会更加困难。(我假设您的测试集大小合理)。
您可能想看看cross-validation。