Word Embeddings

為什麼我們需要

Word Embeddings?

在機器學習的世界裡

  • 處處充滿「特徵」
  • 特徵都是「數值」
  • 但「文字」不是數值

將文字轉成數值的方法

  • One-Hot Encoding
  • 統計方法
  • 推論方法

One-Hot Encoding

範例文章

  • You say goodbye and I say hello
  • 這 7 個字總共有 6 種 Words

you

say

goodbye

and

i

hello

→  0

→  1

→  2

→  3

→  4

→  5

→  [1, 0, 0, 0, 0, 0]

→  [0, 1, 0, 0, 0, 0]

→  [0, 0, 1, 0, 0, 0]

→  [0, 0, 0, 1, 0, 0]

→  [0, 0, 0, 0, 1, 0]

→  [0, 0, 0, 0, 0, 1]

優點 & 缺點

  • 優點:
    • 簡單易懂
  • 缺點:
    • 維度太高
    • 無法表達詞本身的意義

統計方法

範例文章

  • You say goodbye and I say hello
  • 以此例句產生一個統計上下文的矩陣
  • 對此矩陣進行降維
you say goodbye and i hello
you 0 1 0 0 0 0
say 1 0 1 0 1 1
goodbye 0 1 0 1 0 0
and 0 0 1 0 1 0
i 0 1 0 1 0 0
hello 0 1 0 0 0 0

SVD 降維

  • 奇異值分解 (Singular Value Decomposition, SVD)
  • 把任意矩陣分解成三個矩陣的乘積
    • \(X=USV^T\)
  • U 與 V 為正交矩陣,S 是對角矩陣

Word Representation

By Penut Chen (PenutChen)