Progress Report

台語 ASR

我們原本 train 在 1800 hrs 的 data 上面

這次找到了一個小的 corpus

數萬個詞,每個詞一筆 data

拿 general 的 params 當參數訓練在這個 corpus 上

validation 表現很爛

我以為只是 add_lexicon 但是仲翊說是直接 train 在新 corpus 上面

CER BLEU BLEU-1 BLEU-2 BLEU-3 BLEU-4
before add lexicon 37.9% 49.97 72.1 58.6 47.4 38.4
after add lexicon 64.4% 22.85 43.7 28.8 19.1 13.4

短期方向

全部資料一起重 train 一個新 model

問題:資料超過 1T

Progress Report

By qitar888

Progress Report

  • 183