當前位置:星座運勢大全官網 - 八字算命 - 深度語言模型-GPT

深度語言模型-GPT

OpenAI在2018提出了GPT(Generative Pre-Training)模型。模型采用預訓練+微調的訓練模式,可用於分類、推理、問答、相似等任務。

GPT是在變壓器的基礎上提出的,但它略有不同:

句子中每個詞的嵌入向量

是單變壓器,最後壹層的輸出是H L。

根據最後壹層的輸出,連接壹個矩陣w,生成1的維數,然後計算softmax得到每個詞的概率,使概率最大化。得到損耗L 1 (C)。這裏註意,計算P(u)時,使用的是詞典詞的嵌入向量W e,這也是語言模型中的常用技巧。

給定Text1SEPText2,法向變換器只保留掩蔽自我註意的解碼器,使最後壹層的每個位置都能輸出壹個概率;然後用對應的下壹個詞計算損失。

使用少量的標記數據來微調模型參數。

取上壹步最後壹個詞的輸出h l作為下遊監督學習的輸入。

根據監督標簽,計算損失得到L 2 (C)。

L 2 (C)和L 2 (C)相加,就是做了之後的損失,如下圖所示:

單向轉換器,不能使用當前單詞後的單詞的語義。但是翻譯的場景好像用不上,就是不知道是什麽詞。真的是這樣嗎?