1.RNN(递归神经网络)

RNN:用于处理序列数据和时间序列数据。RNN具有循环连接,允许信息在网络内部传递。

1.1 RNN的结构:

1

注:权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重

1.2 RNN的优劣

RNN的主要优点包括:

1.处理序列数据:RNN能够有效地处理变长序列数据,因为它的隐藏状态可以捕获先前时间步的信息。

2.上下文理解:RNN能够理解上下文信息。

RNN的缺点:

1.长期依赖问题:由于梯度消失或梯度爆炸的问题,传统的RNN在处理长序列时可能会失去对远距离时间步的依赖性。

2.计算效率:RNN的计算效率较低,难以处理大规模数据和长序列。

2.LSTM(长短期记忆)

LSTM:为了解决RNN在长序列训练过程中的梯度消失和梯度爆炸问题。

2.1 LSTM的结构原理:

输入:Z、输入门$Z_i$、输出门 $Z_o$、遗忘门 $Z_f$

输出:a

2

输入门$Z_i$:决定了哪些新信息要被存储到细胞状态中。它也考虑前一个时间步的隐藏状态和当前时间步的输入,以及一个候选值,用于更新细胞状态。

遗忘门 $Z_f$:决定了哪些信息要被遗忘或丢弃。输出一个介于0和1之间的值,表示要保留多少以前的信息。

输出门 $Z_o$:决定哪些将会被当成当前状态的输出。

细胞状态:在LSTM中负责存储和传递信息,以便于捕获长期依赖关系。

2.2 LSTM的工作流程

1.遗忘门的输出($f_t$):

3

2.候选细胞状态($\tilde{C}$)及输入门($i_t$)

4

3.更新状态值($C_t$)

5

4.输出

6

注:

*利用tanh来映射细胞状态信息的原因:tanh函数其输出在-1-1之间,这与大多数场景下特征分布是0中心的吻合。tanh函数在输入为0附近相比 Sigmoid函数有更大的梯度,通常使模型收敛更快。*