对于涉及层次结构的问题,胶囊神经网络似乎是一个很好的解决方案。例如,一张脸是由眼睛、鼻子和耳朵组成的;手是由手指、指甲和手掌组成的;人是由脸和手组成的。
NLP 中的很多问题可以看作是层次问题:有单词、句子、段落和章节,它们的含义会根据较低层次的风格而变化。
是否有任何关于将胶囊神经网络应用于 NLP 问题的研究论文(我应该知道)?
是否有相关研究论文一直在研究 NLP 领域内的层次复杂性,可以很容易地翻译成胶囊网络?
对于涉及层次结构的问题,胶囊神经网络似乎是一个很好的解决方案。例如,一张脸是由眼睛、鼻子和耳朵组成的;手是由手指、指甲和手掌组成的;人是由脸和手组成的。
NLP 中的很多问题可以看作是层次问题:有单词、句子、段落和章节,它们的含义会根据较低层次的风格而变化。
是否有任何关于将胶囊神经网络应用于 NLP 问题的研究论文(我应该知道)?
是否有相关研究论文一直在研究 NLP 领域内的层次复杂性,可以很容易地翻译成胶囊网络?
为我们回答这个问题。首先,我们需要看看为什么胶囊网络在识别已旋转、平移或处于不同姿势下的图像方面优于卷积神经网络高达 45%。我们可以在这里找到 Geof Hinton 关于胶囊网络的论文以供参考https://arxiv.org/pdf/1710.09829v1.pdf
在 CNN 架构中,卷积层之后通常是最大池化层。这样低层可以检测低层特征,比如边缘,而高层可以检测抽象层,比如眼睛。然而,最大池化的应用导致某些特征之间的位置和空间关系的重要信息丢失。
另一方面,这是胶囊网络擅长的地方,它们表示某些特征的方式是局部不变的。这就是胶囊网络可以识别不同光照条件和变形下的图像的原因。他们可能擅长视频和对象跟踪等应用程序,但不一定是 NLP。
NLP 中的当前方法将单词和短语映射到向量。从那里,我们利用向量和它们之间的距离(余弦、欧几里得等)的概念来执行操作,例如:查找单词甚至文档之间的相似性、机器翻译和自然语言理解 (NLU)。
胶囊网络不太可能在 NLP 中取得成功。这是因为旨在寻找自然语言层次结构的算法或专注于语法的方法几乎没有成功。斯坦福大学旨在寻找自然语言层次结构的研究可以在这里找到https://nlp.stanford.edu/projects/project-induction.shtml
尽管尚未进行关于胶囊网络其他应用的结论性研究。他们可能擅长视频智能和对象跟踪等应用程序,但不一定是 NLP。
Geoffrey Hinton 已开始在 Google 研究思想向量:https ://en.wikipedia.org/wiki/Thought_vector
基本思想与他最初的 Capsule Networks 想法相似,其中通过向量而不是标量进行激活,这允许网络捕获转换:例如,虽然传统 CNN 需要从 3 维空间的所有角度查看对象,但 Capsule 网络能够更好地推断诸如拉伸之类的转换。
思想向量同样指导 NLP;可以说有两种语法,语言语法和更普遍的叙述语法(弗拉基米尔·普罗普,约瑟夫·坎贝尔,约翰·韦瓦克)。虽然依存语法在理解语言语法方面做得很好,但我们缺乏用于意义提取的工具,这是叙述性的。因此,思想向量至少在理论上可以为我们提供一个在上下文中匹配单词含义的框架,而不仅仅是在词汇和语法上试图通过平均共现来近似含义。
具有思想向量的神经网络将非常复杂并且超出我们今天的计算资源(Hinton 在一篇论文中预测,我们将在 2035 年左右到达那里),然而,人们可以通过利用叙述为思想向量提供启发式结构来进行实证研究更容易计算的系统。例如,可以使用书写理论或其他类似设备来注释文本片段,这些设备将在概念上近似于思想向量。例如,使用冲突驱动的部分有序因果链接规划器(cPOCL,Gervas 等人)的状态转换来注释文本,或者使用诸如 Dramatica 之类的写作理论框架来注释已知的电影剧本(http://dramatica.com/theory http: //dramatica.com/analysis)。
Hinton 本人目前活跃于 NLP 研究:https ://research.google/people/GeoffreyHinton/
这是对思想向量的一个很好的解释:https ://pathmind.com/wiki/thought-vectors
最近有一些关于这方面的工作:Investigating Capsule Networks with Dynamic Routing for Text Classification
似乎有些人在这方面取得了一些成功。