我有一个数据集,其中至少 70% 的标签不正确。
我希望不正确的标签会相互补偿,而正确的标签会被正确教授(给定一个非常大的数据集)。
例如,如果我有 300 个样本说a => -1300 个样本说a => 1,则输入“a”的结果最终将为 0(对于回归问题)。
如果我在上面的示例中使用 Adam,由于其自适应性,它不会影响带有噪声标签的输入的结果吗?改用 SGD 并降低学习率不是更好吗,还是 Adam仅在每个 epoch 结束时更改其权重?
我有一个数据集,其中至少 70% 的标签不正确。
我希望不正确的标签会相互补偿,而正确的标签会被正确教授(给定一个非常大的数据集)。
例如,如果我有 300 个样本说a => -1300 个样本说a => 1,则输入“a”的结果最终将为 0(对于回归问题)。
如果我在上面的示例中使用 Adam,由于其自适应性,它不会影响带有噪声标签的输入的结果吗?改用 SGD 并降低学习率不是更好吗,还是 Adam仅在每个 epoch 结束时更改其权重?
Adam 在这方面的工作方式与 SGD 相同,它在每次迭代结束时更新权重,因此在一个 epoch 结束时应用了多个权重更新。
本质上,Adam 和 SGD 都没有做任何事情来抵消嘈杂的标签,他们只是试图找到最小化损失函数的最佳参数。如果使用 Adam 或 SGD 来解决您的问题会更好,我认为没有人可以先验地回答。