自然语言处理中注意力机制综述

内容隐藏

1 注意力汇聚

1.1 1、加性注意力

1.2 2、缩放点积注意力

2 1. 写在前面

3 2、NLP中Attention mechanism的起源

4 3. NLP中的注意力机制

4.1 3.1 Hierarchical（层次） Attention

4.2 3.2 Self-Attention

4.3 3.3 Memory-based Attention

4.4 3.4 Soft/Hard Attention

4.5 3.5 Global/Local Attention

5 参考文献

6 相关文章：

注意力汇聚

查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚（attentionpooling）。注意力汇聚有选择地聚合了值（感官输入）以生成最终的输
出。注意力汇聚（attention pooling）公式：

其中 x 是查询，(xi; yi) 是键值对。注意力汇聚是 yi 的加权平均。将查询 x 和键 xi之间的关系建模为注意力权重（attetnion weight） (x; xi)，如 (10.2.4) 所示，这个权重将被分配给每一个对应值 yi。对于任何查询，模型在所有键值对上的注意力权重都是一个有效的概率分布：它们是非负数的，并且总和为1。

正如我们所看到的，选择不同的注意力评分函数 a 会导致不同的注意力汇聚操作。

1、加性注意力

2、缩放点积注意力

使用点积可以得到计算效率更高的评分函数。但是点积操作要求查询和键具有相同的⻓度d。假设查询和键的所有元素都是独立的随机变量，并且都满足均值为 0 和方差为 1。那么两个向量的点积的均值为 0，方差为 d。为确保无论向量⻓度如何，点积的方差在不考虑向量⻓度的情况下仍然是 1，则可以使用缩放点积注意力（scaled dot-product attention）评分函数：

1. 写在前面

近些年来，注意力机制一直频繁的出现在目之所及的文献或者博文中，可见在nlp中算得上是个相当流行的概念，事实也证明其在nlp领域散发出不小得作用。这几年得顶会paper就能看出这一点。本文深入浅出地介绍了自然语言处理中的注意力机制技术。据Lilian Weng博主总结以及一些资料显示，Attention机制最早应该是在视觉图像领域提出来的，这方面的工作应该很多，历史也比较悠久。人类的视觉注意力虽然存在很多不同的模型，但它们都基本上归结为给予需要重点关注的目标区域(注意力焦点)更重要的注意力，同时给予周围的图像低的注意力，然后随着时间的推移调整焦点。而直到Bahdanau等人发表了论文《Neural Machine Translation by Jointly Learning to Align and Translate》，该论文使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，这个工作目前是最被认可为是第一个提出attention机制应用到NLP领域中，值得一提的是，该论文2015年被ICLR录用，截至现在，谷歌引用量为5596，可见后续nlp在这一块的研究火爆程度。

注意力机制首先从人类直觉中得到，在nlp领域的机器翻译任务上首先取得不错的应用成功。简而言之，深度学习中的注意力可以广义地解释为重要性权重的向量：为了预测一个元素，例如句子中的单词，使用注意力向量来估计它与其他元素的相关程度有多强，并将其值的总和作为目标的近似值。

既然注意力机制最早在nlp领域应用于机器翻译任务，那在这个之前又是怎么做的呢？传统的基于短语的翻译系统通过将源句分成多个块然后逐个词地翻译它们来完成它们的任务。这导致了翻译输出的不流畅。想想我们人类是如何翻译的？我们首先会阅读整个待翻译的句子，然后结合上下文理解其含义，最后产生翻译。在某种程度上，神经机器翻译（NMT）的提出正是想去模仿这一过程。而在NMT的翻译模型中经典的做法是由编码器 – 解码器架构制定(encoder-decoder)，用作encoder和decoder常用的是循环神经网络。这类模型大概过程是首先将源句子的输入序列送入到编码器中，提取最后隐藏的表示并用于初始化解码器的隐藏状态，然后一个接一个地生成目标单词，这个过程广义上可以理解为不断地将前一个时刻 t-1 的输出作为后一个时刻 t 的输入，循环解码，直到输出停止符为止。通过这种方式，NMT解决了传统的基于短语的方法中的局部翻译问题：它可以捕获语言中的长距离依赖性，并提供更流畅的翻译。但是这样做也存在很多缺点，譬如，RNN是健忘的，这意味着前面的信息在经过多个时间步骤传播后会被逐渐消弱乃至消失。其次，在解码期间没有进行对齐操作，因此在解码每个元素的过程中，焦点分散在整个序列中。对于前面那个问题，LSTM、GRU在一定程度能够缓解。而后者正是Bahdanau等人重视的问题。

2、NLP中Attention mechanism的起源

在Seq2Seq结构中，encoder把所有的输入序列都编码成一个统一的语义向量context，然后再由decoder解码。而context自然也就成了限制模型性能的瓶颈。譬如机器翻译问题，当要翻译的句子较长时，一个context可能存不下那么多信息。除此之外，只用编码器的最后一个隐藏层状态，感觉上都不是很合理。实际上当我们翻译的时候譬如：Source:机器学习–>Target:machine learning。当decoder要生成”machine”的时候，应该更关注”机器”，而生成”learning”的时候，应该给予”学习”更大的权重。所以如果要改进Seq2Seq结构，一个不错的想法自然就是利用encoder所有隐藏层状态解决context限制问题。

Bahdanau等人把attention机制用到了神经网络机器翻译（NMT）上。传统的encoder-decoder模型通过encoder将Source序列编码到一个固定维度的中间语义向量context，然后在使用decoder进行解码翻译到目标语言序列。前面谈到了这种做法的局限性，而且，Bahdanau等人在摘要也说到这个context可能是提高这种基本编码器 – 解码器架构性能的瓶颈，那Bahdanau等人又是如何尝试缓解这个问题的呢？让我们来一探究竟，作者为了缓解中间向量context很难将Source序列所有必要信息压缩进来的问题，特别是对于那些很长的句子。提出在机器翻译任务上在 encoder–decoder 做出了如下扩展：将翻译和对齐联合学习。这个操作在生成Target序列的每个词时，用到的中间语义向量context是Source序列通过encoder的隐藏层的加权和，而传统的做法是只用encoder最后一个输出 ht 作为context，这样就能保证在解码不同词的时候，Source序列对现在解码词的贡献是不一样的。想想前面那个例子：”Source:机器学习–>Target:machine learning”(假如中文按照字切分)。decoder在解码”machine”时，”机”和”器”提供的权重要更大一些，同样，在解码”learning”时，”学”和”习”提供的权重相应的会更大一些，这在直觉也和人类翻译也是一致的。通过这种attention的设计，作者将Source序列的每个词(通过encoder的隐藏层输出)和Target序列(当前要翻译的词)的每个词巧妙的建立了联系。想一想，翻译每个词的时候，都有一个语义向量，而这个语义向量是Source序列每个词通过encoder之后的隐藏层的加权和。由此可以得到一个Source序列和Target序列的对齐矩阵，通过可视化这个矩阵，可以看出在翻译一个词的时候，Source序列的每个词对当前要翻译词的重要性分布，这在直觉上也能给人一种可解释性的感觉。

3. NLP中的注意力机制

随着注意力机制的广泛应用，在某种程度上缓解了源序列和目标序列由于距离限制而难以建模依赖关系的问题。现在已经涌现出了一大批基于基本形式的注意力的不同变体来处理更复杂的任务。让我们一起来看看其在不同NLP问题中的注意力机制。

其实我们可能已经意识到了，对齐模型的设计不是唯一的，确实，在某种意义上说，根据不同的任务设计适应于特定任务的对齐模型可以看作设计出了新的attention变体，让我们再看看这个模型(函数)： score(st,hi) 。再来看几个代表性的work。

Citation等人提出Content-base attention，其对齐函数模型设计为：

Bahdanau等人的Additive(*)，其设计为：

Luong[4]等人文献包含了几种方式：

以及Luong等人还尝试过location-based function。这种方法的对齐分数仅从目标隐藏状态学习得到。

Vaswani[6]等人的Scaled Dot-Product(^)缩放点积注意：

细心的童鞋可能早就发现了这东东和点积注意力很像，只是加了个scale factor。当输入较大时，softmax函数可能具有极小的梯度，难以有效学习，所以作者加入比例因子 1/n 。

Cheng[7]等人的Self-Attention(&)可以关联相同输入序列的不同位置。从理论上讲，Self-Attention可以采用上面的任何 score functions。在一些文章中也称为“intra-attention”

Hu[7]对此分了个类：

前面谈到的一些Basic Attention给人的感觉能够从序列中根据权重分布提取重要元素。而Multi-dimensional Attention能够捕获不同表示空间中的term之间的多个交互，这一点简单的实现可以通过直接将多个单维表示堆叠在一起构建。Wang[8]等人提出了coupled multi-layer attentions，该模型属于多层注意力网络模型。作者称，通过这种多层方式，该模型可以进一步利用术语之间的间接关系，以获得更精确的信息。

3.1 Hierarchical（层次） Attention

再来看看Hierarchical Attention，Yang[9]等人提出了Hierarchical Attention Networks，看下面的图可能会更直观：

Hierarchical Attention Networks

这种结构能够反映文档的层次结构。模型在单词和句子级别分别设计了两个不同级别的注意力机制，这样做能够在构建文档表示时区别地对待这些内容。Hierarchical attention可以相应地构建分层注意力，自下而上（即，词级到句子级）或自上而下（词级到字符级），以提取全局和本地的重要信息。自下而上的方法上面刚谈完。那么自上而下又是如何做的呢？让我们看看Ji[10]等人的模型：

Nested Attention Hybrid Model

和机器翻译类似，作者依旧采用encoder-decoder架构，然后用word-level attention对全局语法和流畅性纠错，设计character-level attention对本地拼写错误纠正。

3.2 Self-Attention

那Self-Attention又是指什么呢？

Self-Attention(自注意力)，也称为”intra-attention”(内部注意力)，是关联单个序列的不同位置的注意力机制，以便计算序列的交互表示。它已被证明在很多领域十分有效比如机器阅读，文本摘要或图像描述生成。

比如Cheng[11]等人在机器阅读里面利用了自注意力。当前单词为红色，蓝色阴影的大小表示激活程度，自注意力机制使得能够学习当前单词和句子前一部分词之间的相关性。

当前单词为红色，蓝色阴影的大小表示激活程度

比如Xu[12]等人利用自注意力在图像描述生成任务。注意力权重的可视化清楚地表明了模型关注的图像的哪些区域以便输出某个单词。

我们假设序列元素为 V=vi ，其匹配向量为 u 。让我们再来回顾下前面说的基本注意力的对齐函数，attention score通过 a(u,vi) 计算得到，由于是通过将外部 u 与每个元素 vi 匹配来计算注意力，所以这种形式可以看作是外部注意力。当我们把外部u替换成序列本身(或部分本身)，这种形式就可以看作为内部注意力(internal attention)。

我们根据文章[7]中的例子来看看这个过程，例如句子:”Volleyball match is in progress between ladies”。句子中其它单词都依赖着”match”，理想情况下，我们希望使用自我注意力来自动捕获这种内在依赖。换句话说，自注意力可以解释为，每个单词 vi 去和V序列中的内部模式 v′ ，匹配函数 a(v′,vi) 。 v′ 很自然的选择为V中其它单词 vj ，这样遍可以计算成对注意力得分。为了完全捕捉序列中单词之间的复杂相互作用，我们可以进一步扩展它以计算序列中每对单词之间的注意力。这种方式让每个单词和序列中其它单词交互了关系。

另一方面，自注意力还可以自适应方式学习复杂的上下文单词表示。譬如经典文章：”A structured self-attentive sentence embedding”。这篇文章提出了一种通过引入自注意力机制来提取可解释句子嵌入的新模型。使用二维矩阵而不是向量来代表嵌入，矩阵的每一行都在句子的不同部分，想深入了解的可以去看看这篇文章，另外，文章的公式感觉真的很漂亮。

值得一提还有2017年谷歌提出的Transformer[6]，这是一种新颖的基于注意力的机器翻译架构，也是一个混合神经网络，具有前馈层和自注意层。论文的题目挺霸气：Attention is All you Need，毫无疑问，它是2017年最具影响力和最有趣的论文之一。那这篇文章的Transformer的庐山真面目到底是这样的呢？

这篇文章为提出许多改进，在完全抛弃了RNN的情况下进行seq2seq建模。接下来一起来详细看看吧。

Key, Value and Query：

众所周知，在NLP任务中，通常的处理方法是先分词，然后每个词转化为对应的词向量。接着一般最常见的有二类操作，第一类是接RNN（变体LSTM、GRU、SRU等），但是这一类方法没有摆脱时序这个局限，也就是说无法并行，也导致了在大数据集上的速度效率问题。第二类是接CNN，CNN方便并行，而且容易捕捉到一些全局的结构信息。很长一段时间都是以上二种的抉择以及改造，知道谷歌提供了第三类思路：纯靠注意力，也就是现在要讲的这个东东。

将输入序列编码表示视为一组键值对（K，V）以及查询 Q，因为文章取K=V=Q，所以也自然称为Self Attention。

K, V像是key-value的关系从而是一一对应的，那么上式的意思就是通过Q中每个元素query，与K中各个元素求内积然后softmax的方式，来得到Q中元素与V中元素的相似度，然后加权求和，得到一个新的向量。其中因子 n 为了使得内积不至于太大。以上公式在文中也称为点积注意力(scaled dot-product attention)：输出是值的加权和，其中分配给每个值的权重由查询的点积与所有键确定

而Transformer主要由多头自注意力(Multi-Head Self-Attention)单元组成。在NMT的上下文中，键和值都是编码器隐藏状态。在解码器中，先前的输出被压缩成查询Q，并且通过映射该查询以及该组键和值来产生下一个输出。

3.3 Memory-based Attention

Memory-based Attention又是什么呢？我们先换种方式来看前面的注意力，假设有一系列的键值对 (ki,vi) 存在内存中和查询向量q，这样便能重写为以下过程：

这种解释是把注意力作为使用查询q的寻址过程，这个过程基于注意力分数从memory中读取内容。聪明的童鞋肯定已经发现了，如果我们假设ki=vi ，这不就是前面谈到的基础注意力么？然而，由于结合了额外的函数，可以实现可重用性和增加灵活性，所以Memory-based attention mechanism可以设计得更加强大。

那为什么又要这样做呢？在nlp的一些任务上比如问答匹配任务，答案往往与问题间接相关，因此基本的注意力技术就显得很无力了。那处理这一任务该如何做才好呢？这个时候就体现了Memory-based attention mechanism的强大了，譬如Sukhbaatar[18]等人通过迭代内存更新（也称为多跳）来模拟时间推理过程，以逐步引导注意到答案的正确位置：

在每次迭代中，使用新内容更新查询，并且使用更新的查询来检索相关内容。一种简单的更新方法为相加 qt+1=qt+ct 。那么还有其它更新方法么？当然有，直觉敏感的童鞋肯定想到了，光是这一点，就可以根据特定任务去设计，比如Kuma[13]等人的工作。这种方式的灵活度也体现在key和value可以自由的被设计，比如我们可以自由地将先验知识结合到key和value嵌入中，以允许它们分别更好地捕获相关信息。看到这里是不是觉得文章灌水其实也不是什么难事了。

3.4 Soft/Hard Attention

这个概念由《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》提出，这是对attention另一种分类。SoftAttention本质上和Bahdanau等人[3]很相似，其权重取值在0到1之间，而Hard Attention取值为0或者1。

3.5 Global/Local Attention

Luong等人[4]提出了Global Attention和Local Attention。Global Attention本质上和Bahdanau等人[3]很相似。Global方法顾名思义就是会关注源句子序列的所有词，具体地说，在计算语义向量时，会考虑编码器所有的隐藏状态。而在Local Attention中，计算语义向量时只关注每个目标词的一部分编码器隐藏状态。由于Global方法必须计算源句子序列所有隐藏状态，当句子长度过长会使得计算代价昂贵并使得翻译变得不太实际，比如在翻译段落和文档的时候。