门控机制

介绍有关门控机制有关的模型
深度学习
Tensorflow
Author

Hahabula

Published

2025-05-21

Modified

2025-05-21

1 门控机制

1.1 核心思想

门控机制用于控制信息流动,决定哪些信息该保留、哪些该遗忘。可理解为一种“信息开关”。

1.2 常见形式

最为经典的门控机制是LSTM中的门控单元,例如:

\[ \begin{aligned} i_t &= \sigma(W_i x_t + U_i h_{t-1} + b_i) \\ f_t &= \sigma(W_f x_t + U_f h_{t-1} + b_f) \\ o_t &= \sigma(W_o x_t + U_o h_{t-1} + b_o) \\ \end{aligned} \]

其中,\(i_t\)\(f_t\)\(o_t\) 分别是输入门、遗忘门和输出门,\(W\)\(U\)\(b\) 分别是权重和偏置。

2 注意力机制和门控机制的区别

对比项 注意力机制(Attention) 门控机制(Gating)
目的 聚焦于重要部分(赋权) 控制信息是否通过
实现方式 软选择,生成权重后加权求和 通常为sigmoid控制的乘法门
输出 权重加权后的向量 输入经过选择性过滤后的向量
是否依赖上下文 是,Query 影响权重计算 是,状态决定门值
常见场景 Transformer、推荐系统 RNN、GNN、融合网络
是否归一化 通常需要(softmax) 不需要,门值在 [0, 1]
形象理解
类比维度 注意力机制 门控机制
类似什么? 把注意力集中在重点内容 像开关,决定是否让信息通过
例子 看书时重点画线标记句子 收邮件时根据标题决定是否打开
Back to top