深度語言模型-GPT

OpenAI在2018提出了GPT(Generative Pre-Training)模型。模型采用預訓練+微調的訓練模式，可用於分類、推理、問答、相似等任務。

GPT是在變壓器的基礎上提出的，但它略有不同:

句子中每個詞的嵌入向量

是單變壓器，最後壹層的輸出是H L。

根據最後壹層的輸出，連接壹個矩陣w，生成1的維數，然後計算softmax得到每個詞的概率，使概率最大化。得到損耗L 1 (C)。這裏註意，計算P(u)時，使用的是詞典詞的嵌入向量W e，這也是語言模型中的常用技巧。

給定Text1SEPText2，法向變換器只保留掩蔽自我註意的解碼器，使最後壹層的每個位置都能輸出壹個概率；然後用對應的下壹個詞計算損失。

使用少量的標記數據來微調模型參數。

取上壹步最後壹個詞的輸出h l作為下遊監督學習的輸入。

根據監督標簽，計算損失得到L 2 (C)。

L 2 (C)和L 2 (C)相加，就是做了之後的損失，如下圖所示:

單向轉換器，不能使用當前單詞後的單詞的語義。但是翻譯的場景好像用不上，就是不知道是什麽詞。真的是這樣嗎？