深度学习中编码/表示XY坐标的论文名称

人工智能 神经网络 深度学习 计算机视觉 文件
2021-10-27 12:28:36

这是 Oriol Vinyals 和 Lex Friedman 之间的播客:https ://youtu.be/Kedt2or9xlo?t=1769,29: 29,Oriol Vinyals 引用了一篇论文:

如果您查看计算机视觉研究,将图像视为二维数组是很有意义的……实际上,Facebook 有一篇非常好的论文。我忘记了作者是谁,但我认为[它]是何开明小组的一部分。他们所做的是他们拍摄一个图像,这是一个 2D 信号,他们实际上是逐个像素地拍摄,并对图像进行打乱,就好像它只是一个像素列表一样,关键的是,他们用XY 坐标。这是我们在星际争霸 2 中顺便使用的一种新架构,称为变压器,这是去年非常受欢迎的一篇论文,在机器翻译中产生了非常好的结果。

你知道他指的是哪篇论文吗?

我猜他可能在谈论非局部神经网络,但我可能猜错了。

编辑:在回顾了何凯明最近的出版物(http://kaiminghe.com/)之后,也许我猜对了。有什么想法吗?

1个回答

所以这篇论文是 google 的,但是在他们使用 2D 位置嵌入并对展平图像执行 MHA 的地方非常相似。你在谈论注意力增强卷积网络吗