各式文本
前處理
文本
理解、關聯
文本
編排、輸出
理解指令
理解語意
理解邏輯
以深度學習為基礎的發展
自然語言
NLP
機器翻譯
資訊檢索
文書分類
文件總結
說話
新聞
社群網站
其他文本
電腦
字元編碼
將文字資料轉換成一種更標準或統一的格式的過程
轉換字母大小寫:消除大小寫引起的差異。
去除標點符號和特殊字符:可以減少數據的雜亂無章。
刪除停用詞:停用詞是指在文本中經常出現但對於理解文本的含義貢獻不大的詞,如“的”、“是”、“在”。刪除這些詞可以幫助減少數據集的大小和複雜性。
詞幹提取(Stemming)和詞形還原(Lemmatization):這兩種技術都旨在將詞彙還原到其基本形式。詞幹提取通過刪除詞尾來實現,而詞形還原則考慮了詞的詞性和完整的詞形變化規則 (如 running, runs, ran 都還原成 run)。
分詞:對於使用空白字符分隔單詞的語言(如英語),分詞是將文本分解成單個單詞或詞素的基本步驟。
統一詞彙:將文本中的同義詞替換為標準詞彙。
數字和日期的標準化:將所有數字格式統一,日期和時間也轉換為標準格式,以便於比較和處理。
斷詞法
將文本分割為較小單位的工具或方法,這些單位可以是單詞、子詞、字元甚至句子,具體取決於應用場景和模型需求。
通過使用明確的規則(如空格、標點符號等)將文本分割為 Token
TF (Term Frequency) 詞彙頻率
DF (Document Frequecny) 文檔頻率
相當於文字雲中的字體大小
單詞在文檔中出現了多少次
IDF (Inverted Document Frequecny)
逆向文檔頻率
預測單詞出現機率的語言模型
二元語言模型 (Bigram Language Model)
預測下一個單詞出現的機率
具有相似概念的單字會嵌入在相似的位置中
由於每個概念彼此相關,分佈式表示允許在表示不同概念的向量之間進行計算。例如
king - man + woman = queen
向量具有方向及大小
座標軸即維度
餅乾的維度:甜辣、軟硬。氣味、外觀…
將字詞依照特定規則轉換
One-hot
Encode
Distributed
Rerpresentation
將單詞嵌入固定長度的向量空間,故又稱為『Word Embedding』
分散式表徵的理是基於「在相似脈絡中出現的兩個單詞通常擁有相似意義」的「分散假說 (distributional hypothesis)」。
篩選出有出現「美味」或「好吃」的評論時,假如這兩個單詞前後出現的單詞是「非常」和「餅乾」,那麼根據上下文資訊和分散假說,電腦就能推斷「美味」和「好吃」的意義很大機率是一樣的。
兩個代表模型『CBow』和『連續跳躍式模型』
Continuous Bag of Words Model, CBoW
使用神經網路進行學習,取得分散式表徵。
要預測的單詞稱為『目標詞 (target word)』
目標詞附近出現的單詞稱為『語境詞 (context word)』
Continuous Skip-Gram Model, Skip-Gram
和CBOW 相反,是用目標詞去推算語境詞出現機率的模型。
小明
小明
目標與上下文的共現性 (共同出現)
兔子 是 一種 ____ 的 生物
在空格裡可以填入的詞可能是
『可愛』『傲嬌』『兇狠』
這些詞轉換成語意就會有一定程度上的相似
(1) 可以計算單詞之間的相似度
(1) 可以用單詞進行數學運算
(3) 可以作為 NLP 多個任務的輸入資訊
例如:
2013
word2vec
2014
2017
2018
2020
Seq2seq
Transformer
BERT
GPT-3
透過分散式表徵,模型可以
輸出固定長度的單詞向量
透過注意力機制
使模型能夠平行運算
用龐大的資料進行訓練
成功生成自然的文章
用 Encode-decode 構造的模型提高器翻譯的精度
透過微調在多種任務上
取得高精度的結果
例句:我 看了 那 張 照片
RNN 和 LSTM 的差異
會取捨資訊選擇記憶
LSTM 的閘門概念
LSTM 的構造
LSTM 的三種閘門
透過減少閘門數量來縮短計算時間
RNN vs LSTM vs GRU
輸出的不是單詞,而是序列資料
Sequence to Sequence
又稱為 Encoder-decoder 模型
Seq2Seq 的構造
注意力機制
不論輸入的文本是長是短,都會生成固定長度的向量,因此,輸入的文本愈長,模型精度愈低。
用機率來代表翻譯時用來對照的原始語言中各單字的重要程度
Context Vector 脈絡向量
加上注意力機制的 Seq2Seq 結構
可平行計算的自注意力機制
舉例:I take pictures and send them.
(我拍了幾張照片,並把它們發送出去)
先找出輸入文章的各單詞之間的對應關係
用自注意力計算相似度
替每個單詞建立 Q (query), K (key) ,V (value) 三個向量
Transformer 透過比較 query 和 key 的向量來計算相似度
Bidirectional Encoder Representations from Transformers
(2018, Google)
(2019年巴西遊客到美國需要簽証)
重點在『to』介系詞的重要性
GLUE (The General Language Understanding Evaluation)
自然語言模型的綜合評價基準
評估語言模型在情緒分析、含義、等價性判斷各方面的性能表現
首次超越人類
的平均正確率
堆疊了 24 層的 Transformer
BERT 訓練:
Generative Pre-Training
OpenAI's GPT-3 may be the biggest thing since bitcoin
Transformer 層數
12
48
96
正確判斷出「這是 GPT-3 生成文章」的受試者:52%
a painting of a fox sitting in a field at sunrise in the style of Claude Monet