GPT是在變壓器的基礎上提出的,但它略有不同:
句子中每個詞的嵌入向量
是單變壓器,最後壹層的輸出是H L。
根據最後壹層的輸出,連接壹個矩陣w,生成1的維數,然後計算softmax得到每個詞的概率,使概率最大化。得到損耗L 1 (C)。這裏註意,計算P(u)時,使用的是詞典詞的嵌入向量W e,這也是語言模型中的常用技巧。
給定Text1SEPText2,法向變換器只保留掩蔽自我註意的解碼器,使最後壹層的每個位置都能輸出壹個概率;然後用對應的下壹個詞計算損失。
使用少量的標記數據來微調模型參數。
取上壹步最後壹個詞的輸出h l作為下遊監督學習的輸入。
根據監督標簽,計算損失得到L 2 (C)。
L 2 (C)和L 2 (C)相加,就是做了之後的損失,如下圖所示:
單向轉換器,不能使用當前單詞後的單詞的語義。但是翻譯的場景好像用不上,就是不知道是什麽詞。真的是這樣嗎?