以深度學習為基礎的發展
2013
word2vec
2014
2017
2018
2020
Seq2seq
Transformer
BERT
GPT-3
透過分散式表徵,模型可以
輸出固定長度的單詞向量
透過注意力機制
使模型能夠平行運算
用龐大的資料進行訓練
成功生成自然的文章
用 Encode-decode 構造的模型提高器翻譯的精度
透過微調在多種任務上
取得高精度的結果
例句:我 看了 那 張 照片
RNN 和 LSTM 的差異
會取捨資訊選擇記憶
LSTM 的閘門概念
LSTM 的構造
LSTM 的三種閘門
透過減少閘門數量來縮短計算時間
RNN vs LSTM vs GRU
輸出的不是單詞,而是序列資料
Sequence to Sequence
又稱為 Encoder-decoder 模型
Seq2Seq 的構造
注意力機制
不論輸入的文本是長是短,都會生成固定長度的向量,因此,輸入的文本愈長,模型精度愈低。
用機率來代表翻譯時用來對照的原始語言中各單字的重要程度
Context Vector 脈絡向量
加上注意力機制的 Seq2Seq 結構
可平行計算的自注意力機制
舉例:I take pictures and send them.
(我拍了幾張照片,並把它們發送出去)
先找出輸入文章的各單詞之間的對應關係
用自注意力計算相似度
替每個單詞建立 Q (query), K (key) ,V (value) 三個向量
Transformer 透過比較 query 和 key 的向量來計算相似度
Bidirectional Encoder Representations from Transformers
(2018, Google)
(2019年巴西遊客到美國需要簽証)
重點在『to』介系詞的重要性
GLUE (The General Language Understanding Evaluation)
自然語言模型的綜合評價基準
評估語言模型在情緒分析、含義、等價性判斷各方面的性能表現
首次超越人類
的平均正確率
堆疊了 24 層的 Transformer
BERT 訓練:
Generative Pre-Training
OpenAI's GPT-3 may be the biggest thing since bitcoin
Transformer 層數
12
48
96
正確判斷出「這是 GPT-3 生成文章」的受試者:52%
a painting of a fox sitting in a field at sunrise in the style of Claude Monet