Transformer详解
左边处理源语言,称之为Encoder,右边处理目标语言,被称为Decoder,分别由N个Block组成。然后每个block都有这么几个模块:
Multi-Head Attention
Masked Multi-Head Attention
Add & Norm
Feed Forward
Positional Encoding
Linear
其中, Feed Forward和Linear是神经网络的基本操作全连接层,Add & Norm以及延伸出来的一条侧边也是一个常见的神经网络结构残差连接
Attentionattention说白了就是权重计算和加权求和。图上的循环神经网络中的每一步都会输出一个向量,在预测目标语言到某一步时,用当前步的向量去和源语言中的每一步的向量去做内积,然后经过softmax得到归一化后的权重,再用权重去把源语言上的每一步的向量去做加权平均。然后做预测的时候也作为输入进入全连接层
Multi-Head Attention
Multi-Head Attention是由多个Scaled Dot-Product Attention的函数组合而成的。 ...