Machine learning

社課 - 11

lecturer : lemon

topic : Application

ㄛㄛ

今天是這學期最後一堂小社

也是最後一堂ML小社QAQ

蔗糖課並沒有程式碼

希望大家都能好好享受這最後一堂課的時光

那就Let's Go

Photo OCR

今天主要要講ML的應用

其中一個最具有代表性的問題

照片光學字元辨識(Photo OCR)

 

就是一個掃描字元的概念

這能夠讓電腦看懂照片裡的文字

並且將其轉化為文字檔

透過這個技術,我們便可以做出很多酷事情

Photo OCR

這個問題其實不如想像的那麼容易

我們必須要蒐集足夠多的資料

提供模型來做訓練

 

同時,我們的圖片並沒有經過事前的處理

所以我們拿到的資料是比較雜ㄉ

Photo OCR

我們希望能達到這樣的效果ouo

pipeline

pipeline

Step-1 Text detection

pipeline

Step-2 Character segmention

pipeline

Step-3 Character classification

         臺   北  市  立  建  國  高  級  中  學

pipeline

the偷 (雖然整個學期都用偷ㄉ

sliding window

跟某單調隊列優化無關

sliding window

我們有一個固定大小的框框

我們會逐漸移動直到歷遍整張圖片

然後我們便可以嘗試確定框框內的東東

是否是一串文字

 

然後

改變框框ㄉ大小

再做一ㄘ

sliding window

一次解決ㄌ兩個問題

where can you get data

我自己用ㄉ

kaggle

但如果我們要開發一些大型專案

這樣的資料量還是有些太少w

我們常常會需要 \(10^6\) 以上的數據做為訓練資料

where can you get data

就實務上來說

可能要有專門的人負責資料的蒐集

 

但我們會遇到一個很大的問題:

如果資料並沒有標籤(答案)該怎麼辦

artificial data

人工資料!

ㄜ 其實就是暴力法

我們會先隨便打一些字

然後加入雜訊

Real

Artificial

synthesization

discussion

當你決定要蒐集更多資料前,

你要先確定你的模型現在是Low bias

之前ㄉslides

主要方法:

  1. 自己來找資料、給資料上標籤
  2. 人工資料(合成)
  3. "Crowd source"

estimate

紀錄每個步驟的準確度

72% 89% 90% 100%

btw 這裡的準確度指的是

在該步驟以前(包含)的執行準確度為100%時,

最後得到答案的準確度

estimate

72% 89% 90% 100%

做簡單的減法

我們便可以得到每個步驟損失的準確度ㄌ

17% 1% 10%

我們便可以針對特定問題做解決ㄌouo

e.g.

更多資料、更大的DNN之類ㄉ

estimate

附註:

你們是不是不曉得我要怎麼保證前面的結果都是對ㄉ

問就是

用眼睛看w

 

因為人類常常都可以表現得很好

得出的結果也更值得信賴

其實花一些時間對資料標籤

是一種很好ㄉ考量

last thing to say

機器學習的極限在哪裡?

human level

Human Level performance

人類往往能夠有很好的表現。

辨識ㄉ準確度:

  • 一般人:10%
  • 有認真讀生物的人:30%
  • 醫生:70%
  • 一群頂尖的醫生:80%

人類的表現就會是80%

Bayes optimal

這就是極限。

這學期最後一堂社課

希望你們都有學到很多東西w

你們的進步是最讓我們欣慰ㄉouob

the end

Application

By lemonilemon

Application

  • 155