据我所见,基于转换器的架构总是使用分类任务(例如单热文本标记)进行训练。您是否知道任何使用注意力和解决回归任务的架构?例如,可以构建一个回归自动编码器吗?规范化如何适应这一点(因为 LayerNorm 破坏了输入中的一些信息)?
用于回归任务的基于 Transformer 的架构
数据挖掘
回归
自动编码器
变压器
注意机制
2021-10-12 16:06:11
1个回答
在最简单的情况下,使用 Transformers 进行回归只是改变损失函数的问题。
使用第一个技术标记的表示作为分类器输入的类 BERT 模型。您可以用回归器替换分类器,几乎什么都不会改变。来自回归器的错误将传播到网络的其余部分,您既可以训练回归器,也可以微调/训练底层 Transformer。
另外,我不认为层规范化会导致严重的信息丢失。当网络训练时它已经存在,所以其余的网络参数需要处理,这应该不是问题,因为梯度“非常清楚”有一个归一化层。
其它你可能感兴趣的问题