1 门控机制
1.1 核心思想
门控机制用于控制信息流动,决定哪些信息该保留、哪些该遗忘。可理解为一种“信息开关”。
1.2 常见形式
最为经典的门控机制是LSTM中的门控单元,例如:
\[ \begin{aligned} i_t &= \sigma(W_i x_t + U_i h_{t-1} + b_i) \\ f_t &= \sigma(W_f x_t + U_f h_{t-1} + b_f) \\ o_t &= \sigma(W_o x_t + U_o h_{t-1} + b_o) \\ \end{aligned} \]
其中,\(i_t\)、\(f_t\)、\(o_t\) 分别是输入门、遗忘门和输出门,\(W\)、\(U\)、\(b\) 分别是权重和偏置。
2 注意力机制和门控机制的区别
对比项 | 注意力机制(Attention) | 门控机制(Gating) |
---|---|---|
目的 | 聚焦于重要部分(赋权) | 控制信息是否通过 |
实现方式 | 软选择,生成权重后加权求和 | 通常为sigmoid控制的乘法门 |
输出 | 权重加权后的向量 | 输入经过选择性过滤后的向量 |
是否依赖上下文 | 是,Query 影响权重计算 | 是,状态决定门值 |
常见场景 | Transformer、推荐系统 | RNN、GNN、融合网络 |
是否归一化 | 通常需要(softmax) | 不需要,门值在 [0, 1] |
形象理解
类比维度 | 注意力机制 | 门控机制 |
---|---|---|
类似什么? | 把注意力集中在重点内容 | 像开关,决定是否让信息通过 |
例子 | 看书时重点画线标记句子 | 收邮件时根据标题决定是否打开 |