Albert详解
Bert超参数的分布红色部分是embedding层,蓝色部分是encoder,注意蓝色部分总共有12个。
这两部分的参数分别是,其中每个encoder参数是0.85亿/12=700万
讲了BERT的参数分布,再说一下ALBERT对BERT的参数减少是从哪个方向。
一,12个encoder换成一个encoder,但是这个encoder会encode12次,这样encoder参数直接从84M变成7M,少了77M参数。
二,从embedding层参数最大的word embedding下手,原来word embedding的参数是
$$word_{num}*embedding_{dim}$$
记为$VH$,这里用$H$因为encoder要保持向量为$H$的大小,下面进行参数减少改造,仅需通过一个低维空间$E$作为中转,由$VH$变为$VE+EH$
比如语料库单词数为3W,$embedding_dim=768$,没改造的参数量为$30000*768=23M$
改造后假设$E$为128,$30000128 + 128768 =4M$,少了19M参数 ...