标签: Bert | 在下小宋

更新于2022-01-24|Bert| 条评论

Bert含义BERT模型的全称是：BidirectionalEncoder Representations from Transformer。双向Transformer编码表达，其中双向指的是attention矩阵中，每个字都包含前后所有字的信息。 BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation，即：文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。模型结构Bert依然是依赖Transformer模型结构，我们知道GPT采用的是Transformer中的Decoder部分的模型结构，当前位置只能attend到之前的位置。而Bert中则没有这样的限制，因此它是用的Transformer的Encoder部分。而Transformer是由一个一个的block组成的，其主要参数如下： L: 多少个blockH: 隐含状态尺寸，不同block上的隐含状态尺寸一般相等，这个尺寸单指多头注意力层的尺寸，有一个惯例就是在Transformer Block中全连接层的尺寸是多头注意力层的4倍。所以指定了H相当 ...