LSTM详解

长期依赖(Long Term Dependencies)

传统的RNN节点输出仅由权值，偏置以及激活函数决定（图3）。RNN是一个链式结构，每个时间片使用的是相同的参数。

在深度学习领域中（尤其是RNN），“长期依赖“问题是普遍存在的。长期依赖产生的原因是当神经网络的节点经过许多阶段的计算后，之前比较长的时间片的特征已经被覆盖，例如下面例子

eg1: The cat, which already ate a bunch of food, was full.
      |   |     |      |     |  |   |   |   |     |   |
     t0  t1    t2      t3    t4 t5  t6  t7  t8    t9 t10
eg2: The cats, which already ate a bunch of food, were full.
      |   |      |      |     |  |   |   |   |     |    |
     t0  t1     t2     t3    t4 t5  t6  t7  t8    t9   t10

我们想预测'full'之前系动词的单复数情况，显然full是取决于第二个单词’cat‘的单复数情况，而非其前面的单词food。随着数据时间片的增加，RNN丧失了学习连接如此远的信息的能力。

梯度消失和梯度爆炸

梯度消失和梯度爆炸是困扰RNN模型训练的关键原因之一，产生梯度消失和梯度爆炸是由于RNN的权值矩阵循环相乘导致的，相同函数的多次组合会导致极端的非线性行为。梯度消失和梯度爆炸主要存在RNN中，因为RNN中每个时间片使用相同的权值矩阵。对于一个DNN，虽然也涉及多个矩阵的相乘，但是通过精心设计权值的比例可以避免梯度消失和梯度爆炸的问题。

处理梯度爆炸可以采用梯度截断的方法。所谓梯度截断是指将梯度值超过阈值 $\theta$ 的梯度手动降到 $\theta$ 。虽然梯度截断会一定程度上改变梯度的方向，但梯度截断的方向依旧是朝向损失函数减小的方向。

对比梯度爆炸，梯度消失不能简单的通过类似梯度截断的阈值式方法来解决，因为长期依赖的现象也会产生很小的梯度。在上面例子中，我们希望 $t_9$ 时刻能够读到 $t_1$ 时刻的特征，在这期间内我们自然不希望隐层节点状态发生很大的变化，所以 [$t_2, t_8$] 时刻的梯度要尽可能的小才能保证梯度变化小。很明显，如果我们刻意提高小梯度的值将会使模型失去捕捉长期依赖的能力。

LSTM

LSTM的全称是Long Short Term Memory，顾名思义，它具有记忆长短期信息的能力的神经网络。
LSTM提出的动机是为了解决上面我们提到的长期依赖问题。
LSTM之所以能够解决RNN的长期依赖问题，是因为LSTM引入了门（gate）机制用于控制特征的流通和损失。

原始的 RNN 只有一个隐藏层的状态，即$h$，它对于短期的输入非常敏感。
再增加一个状态，即$c$，让它来保存长期的状态，称为单元状态(cell state)。

把上图按照时间维度展开：

在 $t$ 时刻，LSTM 的输入有三个：当前时刻网络的输入值 $x_t$、上一时刻 LSTM 的输出值 $h_t-1$、以及上一时刻的单元状态 $c_t-1$；
LSTM 的输出有两个：当前时刻 LSTM 输出值 $h_t$、和当前时刻的单元状态 $c_t$

关键问题是：怎样控制长期状态 c ？

方法是：使用三个控制开关

第一个开关，负责控制继续保存长期状态c；
第二个开关，负责控制把即时状态输入到长期状态c；
第三个开关，负责控制是否把长期状态c作为当前的LSTM的输出。

如何在算法中实现这三个开关？
方法：用门（gate）

定义：gate 实际上就是一层全连接层，输入是一个向量，输出是一个 0到1 之间的实数向量。
公式为：

回忆一下它的样子：

gate 如何进行控制？
方法：用门的输出向量按元素乘以我们需要控制的那个向量
原理：门的输出是 0到1 之间的实数向量，
当门输出为 0 时，任何向量与之相乘都会得到 0 向量，这就相当于什么都不能通过；
输出为 1 时，任何向量与之相乘都不会有任何改变，这就相当于什么都可以通过。

LSTM 的前向计算:
遗忘门（forget gate）
它决定了上一时刻的单元状态 $c_t-1$ 有多少保留到当前时刻 $c_t$

输入门（input gate）
它决定了当前时刻网络的输入 $x_t$ 有多少保存到单元状态 $c_t$

输出门（output gate）
控制单元状态 $c_t$ 有多少输出到 LSTM 的当前输出值 $h_t$

（１）遗忘门（forget gate）：
它决定了上一时刻的单元状态 $c_t-1$ 有多少保留到当前时刻 $c_t$

（２）输入门（input gate）：
它决定了当前时刻网络的输入 $x_t$ 有多少保存到单元状态 $c_t$

（３）输出门（output gate）：
控制单元状态 $c_t$ 有多少输出到 LSTM 的当前输出值 $h_t$

LSTM 的反向传播训练算法

主要有三步：

前向计算每个神经元的输出值，一共有 5 个变量，计算方法就是前一部分：
反向计算每个神经元的误差项值。与 RNN 一样，LSTM 误差项的反向传播也是包括两个方向：
一个是沿时间的反向传播，即从当前 t 时刻开始，计算每个时刻的误差项；
一个是将误差项向上一层传播。
根据相应的误差项，计算每个权重的梯度。