Bert详解
Bert含义BERT模型的全称是:BidirectionalEncoder Representations from Transformer。双向Transformer编码表达,其中双向指的是attention矩阵中,每个字都包含前后所有字的信息。
BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。
模型结构Bert依然是依赖Transformer模型结构,我们知道GPT采用的是Transformer中的Decoder部分的模型结构,当前位置只能attend到之前的位置。而Bert中则没有这样的限制,因此它是用的Transformer的Encoder部分。
而Transformer是由一个一个的block组成的,其主要参数如下:
L: 多少个blockH: 隐含状态尺寸,不同block上的隐含状态尺寸一般相等,这个尺寸单指多头注意力层的尺寸,有一个惯例就是在Transformer Block中全连接层的尺寸是多头注意力层的4倍。所以指定了H相当 ...