Attention——深度学习中的注意力机制

什么是 Attention ?

我们来一起看着下面这张图片,并且读一下下面这句话。

一只黄色的小猫带着一个鹿角帽子趴在沙发上。

cat

在读这句话的过程中,你的注意力是不是会发生变化?我相信大多数人是这样的:当读到“小猫”的时候,注意力在猫身上;当读到“鹿角帽子”的时候,注意力在鹿角帽子上。

这就是人类的注意力,它是会随着时间发生变化的。

LSTM

简介

LSTM全称是 Long Short Term Memory Network(长短时记忆网络),它也是一种循环神经网络(RNN)算法。

循环神经网络(Recurrent Neural Network)

简介

在自然语言处理(NLP)中,需要处理的数据通常都是不定长的。例如,我们要构建一个神经网络模型,将下面这两句话翻译成英文:

  • 这一世诺言从不曾忘。
  • 深度学习的概念源于人工神经网络的研究。

这两句话的长度是不一样的,一般的神经网络输入的特征纬度是固定的,显然不能很好的解决这个问题,于是便出现了循环神经网络(Recurrent Neural Network,RNN)。

模型

基本的循环神经网络

一个最基本的循环神经网络由输入层,隐藏层和输出层构成,如下图所示:

rnn-1