在最坏的情况下,我们可以将预训练的权重视为随机初始化,就像我们从头开始训练一样,对吧?如果是这样,那么总是从预训练模型开始不是更好吗,因为较低的权重层可能已经学习了可在所有数据集之间转移的一般图像模式?
我担心的是,如果我想用于微调的数据集是高度专业化的、高度不自然的并且与训练预训练模型的数据集非常不同,该怎么办。这是否仍然意味着从预训练模型进行微调不是最好的主意?(例如,对 cifar-1000 预训练模型的 X 射线图像而不是自然图像进行训练。)
在最坏的情况下,我们可以将预训练的权重视为随机初始化,就像我们从头开始训练一样,对吧?如果是这样,那么总是从预训练模型开始不是更好吗,因为较低的权重层可能已经学习了可在所有数据集之间转移的一般图像模式?
我担心的是,如果我想用于微调的数据集是高度专业化的、高度不自然的并且与训练预训练模型的数据集非常不同,该怎么办。这是否仍然意味着从预训练模型进行微调不是最好的主意?(例如,对 cifar-1000 预训练模型的 X 射线图像而不是自然图像进行训练。)
使用预训练模型的一个限制是您被迫使用相同的架构和权重。可能存在许多预训练架构受到限制的场景。如果您从头开始训练,您可以为特定问题定义自定义架构。