这是 Oriol Vinyals 和 Lex Friedman 之间的播客:https ://youtu.be/Kedt2or9xlo?t=1769,29: 29,Oriol Vinyals 引用了一篇论文:
如果您查看计算机视觉研究,将图像视为二维数组是很有意义的……实际上,Facebook 有一篇非常好的论文。我忘记了作者是谁,但我认为[它]是何开明小组的一部分。他们所做的是他们拍摄一个图像,这是一个 2D 信号,他们实际上是逐个像素地拍摄,并对图像进行打乱,就好像它只是一个像素列表一样,关键的是,他们用XY 坐标。这是我们在星际争霸 2 中顺便使用的一种新架构,称为变压器,这是去年非常受欢迎的一篇论文,在机器翻译中产生了非常好的结果。
你知道他指的是哪篇论文吗?
我猜他可能在谈论非局部神经网络,但我可能猜错了。
编辑:在回顾了何凯明最近的出版物(http://kaiminghe.com/)之后,也许我猜对了。有什么想法吗?