标签: Transformer | 在下小宋

更新于2022-01-24|Transformer| 条评论

左边处理源语言，称之为Encoder，右边处理目标语言，被称为Decoder，分别由N个Block组成。然后每个block都有这么几个模块： Multi-Head Attention Masked Multi-Head Attention Add & Norm Feed Forward Positional Encoding Linear 其中， Feed Forward和Linear是神经网络的基本操作全连接层，Add & Norm以及延伸出来的一条侧边也是一个常见的神经网络结构残差连接 Attentionattention说白了就是权重计算和加权求和。图上的循环神经网络中的每一步都会输出一个向量，在预测目标语言到某一步时，用当前步的向量去和源语言中的每一步的向量去做内积，然后经过softmax得到归一化后的权重，再用权重去把源语言上的每一步的向量去做加权平均。然后做预测的时候也作为输入进入全连接层 Multi-Head Attention Multi-Head Attention是由多个Scaled Dot-Product Attention的函数组合而成的。 ...