vanilla RNN与LSTM: 探索时间序列建模

一：vanilla RNN

在处理基于时间的序列问题时，vanilla RNN（经典循环神经网络）通过递归公式逐步更新状态信息。其核心公式为：

hₜ = f_W(h_t-1, x_t)

其中，x_t为第t个时间步的输入向量，h_t为新状态，包含前t个时间步的信息；h_t-1为上一个状态。参数W通过反向传播优化。

vanilla RNN的结构简单，但在时间步数较多时容易出现梯度爆炸或消失问题。为解决这一痛点，LSTM和GRU等结构应运而生。

LSTM通过引入四个门（f、i、g、o）来解决vanilla RNN的梯度问题。每个LSTM单元接受当前输入x_t、上一个状态h_t-1和细胞状态c_t-1，输出新的细胞状态c_t和新状态h_t。其核心公式为：

c_t = f_g(c_t-1 + i_g)

h_t = o_g(c_t tan)

LSTM通过门控机制有效抑制梯度问题，且能够长期记住信息。

Hochreiter等在论文中设计了多个实验验证LSTM的有效性。以下是部分实验摘要：

Reber Grammar实验：验证LSTM学习递归结构的能力。实验使用7个输入单元和7个输出单元，结果显示LSTM能够有效学习复杂的递归关系。

Noise-Free与Noisy序列实验：研究LSTM在不同噪声条件下的性能。实验表明LSTM能够在长时间步数下保持较好的预测能力。

Long Time Lags实验：测试LSTM在高延迟条件下的性能。结果显示LSTM能够完美通过测试，而传统RNN则不然。

其他实验：包括信息存储、离散表示、乘法问题及时间顺序问题等。实验结果均表明LSTM在复杂任务中的优越性。

尽管LSTM解决了梯度问题，但仍存在一些限制，如训练难度大、门控机制的复杂性等。

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory.

Stanford CS231n课程内容

转载地址：http://ezbuz.baihongyu.com/

你可能感兴趣的文章