数据挖掘 - 用于回归任务的基于 Transformer 的架构 - 吾爱随笔录

数据挖掘回归自动编码器变压器注意机制

2021-10-12 16:06:11

据我所见，基于转换器的架构总是使用分类任务（例如单热文本标记）进行训练。您是否知道任何使用注意力和解决回归任务的架构？例如，可以构建一个回归自动编码器吗？规范化如何适应这一点（因为 LayerNorm 破坏了输入中的一些信息）？

1个回答

在最简单的情况下，使用 Transformers 进行回归只是改变损失函数的问题。

使用第一个技术标记的表示作为分类器输入的类 BERT 模型。您可以用回归器替换分类器，几乎什么都不会改变。来自回归器的错误将传播到网络的其余部分，您既可以训练回归器，也可以微调/训练底层 Transformer。

另外，我不认为层规范化会导致严重的信息丢失。当网络训练时它已经存在，所以其余的网络参数需要处理，这应该不是问题，因为梯度“非常清楚”有一个归一化层。

其它你可能感兴趣的问题