图示详解BERT模型的输入与输出 一、BERT整体结构 BERT主要用了Transformer的Encoder,而没有用其Decoder,我想是因为BERT是一个预训练模型,只要学到其中语义关 … Continue reading 图示详解BERT模型的输入与输出