Machine learning
社課 - 11
lecturer : lemon
topic : Application
ㄛㄛ
今天是這學期最後一堂小社
也是最後一堂ML小社QAQ
蔗糖課並沒有程式碼
希望大家都能好好享受這最後一堂課的時光
那就Let's Go
Photo OCR
今天主要要講ML的應用
其中一個最具有代表性的問題
照片光學字元辨識(Photo OCR)
就是一個掃描字元的概念
這能夠讓電腦看懂照片裡的文字
並且將其轉化為文字檔
透過這個技術,我們便可以做出很多酷事情
Photo OCR
這個問題其實不如想像的那麼容易
我們必須要蒐集足夠多的資料
提供模型來做訓練
同時,我們的圖片並沒有經過事前的處理
所以我們拿到的資料是比較雜ㄉ
Photo OCR
我們希望能達到這樣的效果ouo
pipeline
pipeline
Step-1 Text detection
pipeline
Step-2 Character segmention
pipeline
Step-3 Character classification
臺 北 市 立 建 國 高 級 中 學
pipeline
the偷 (雖然整個學期都用偷ㄉ
sliding window
跟某單調隊列優化無關
sliding window
我們有一個固定大小的框框
我們會逐漸移動直到歷遍整張圖片
然後我們便可以嘗試確定框框內的東東
是否是一串文字
然後
改變框框ㄉ大小
再做一ㄘ
sliding window
一次解決ㄌ兩個問題
where can you get data
我自己用ㄉ
但如果我們要開發一些大型專案
這樣的資料量還是有些太少w
我們常常會需要 \(10^6\) 以上的數據做為訓練資料
where can you get data
就實務上來說
可能要有專門的人負責資料的蒐集
但我們會遇到一個很大的問題:
如果資料並沒有標籤(答案)該怎麼辦
artificial data
人工資料!
ㄜ 其實就是暴力法
我們會先隨便打一些字
然後加入雜訊
Real
Artificial
synthesization
discussion
主要方法:
- 自己來找資料、給資料上標籤
- 人工資料(合成)
- "Crowd source"
estimate
紀錄每個步驟的準確度
72% | 89% | 90% | 100% |
---|
btw 這裡的準確度指的是
在該步驟以前(包含)的執行準確度為100%時,
最後得到答案的準確度
estimate
72% | 89% | 90% | 100% |
---|
做簡單的減法
我們便可以得到每個步驟損失的準確度ㄌ
17% | 1% | 10% |
---|
我們便可以針對特定問題做解決ㄌouo
e.g.
更多資料、更大的DNN之類ㄉ
estimate
附註:
你們是不是不曉得我要怎麼保證前面的結果都是對ㄉ
問就是
用眼睛看w
因為人類常常都可以表現得很好
得出的結果也更值得信賴
其實花一些時間對資料標籤
是一種很好ㄉ考量
last thing to say
機器學習的極限在哪裡?
human level
Human Level performance
人類往往能夠有很好的表現。
辨識ㄉ準確度:
- 一般人:10%
- 有認真讀生物的人:30%
- 醫生:70%
- 一群頂尖的醫生:80%
人類的表現就會是80%
Bayes optimal
這就是極限。
這學期最後一堂社課
希望你們都有學到很多東西w
你們的進步是最讓我們欣慰ㄉouob
the end
Application
By lemonilemon
Application
- 166