AI專案分享

2021 May 湯沂達

湯沂達

現為台灣人工智慧學校之AI工程師/助教

畢業於交通大學應用數學所

 

曾拿過IEEE機器學習競賽第二名(亞東醫院聲道疾病聲音分類競賽)

 

有看過一陣子深度學習模型壓縮、Google Coral API

近期感興趣項目為風格轉換、強化學習

大綱

  • 學習
  • 比賽、專案分享
  • 心法
  • 實用資源分享

學習

  • 傳統機器學習
  • 深度學習
  • 機器學習/深度學習/AI??

https://www.wpgdadatong.com/cn/blog/detail?BID=B0286

找到一組最好的W,使得

y_pred <- WX

y_true越近越好

傳統機器學習

找到一組最好的W={W1, W2,...},使得

y_pred <- σ(...σ(W3σ(W2σ(W1X)))

y_true越近越好

深度學習

W1

W2

Activation function

σ

不同之處

傳統機器學習的特徵通常來自人工定義的強烈特徵

而深度學習在很多任務上有能力直接從原始資料做預測

傳統機器學習特徵

深度學習模型自己學到的特徵

  • 聲音分類競賽分享 & 失敗的語者轉換
  • 曾領導之專案
  • AIA學員專案:判斷鏡頭生產品質
  • AIA學員專案:智慧手機架
  • AIA學員專案:店商推薦系統

比賽、專案分享

聲音分類競賽分享

所花時間:3周

緣起(2019)

這邊有個比賽,有沒有人要玩看看?

AIA前員工

台大讀博中

亞東醫院辦的,但是主辦是IEEE

參加的人不多,應該很好得名

語音相關在以後應該會是一個很重要的議題

以後搞不好可以靠這個去騙吃騙喝

競賽描述

  • 要用資料來預測病人的喉嚨疾病是哪一種

  • 一筆資料對應一個聲音檔以及一個結構型資料

 

  • 四種疾病:

    • 功能障礙    :Functional dysphonia

    • 腫瘤            :Neoplasm

    • 聲音創傷    :Phonotrauma

    • 聲帶麻痺    :Vocal palsy

 

  • 可以用非侵入性的方式來快速診斷病人的疾病

一筆資料

使用者發出的母音

啊~~

打地基

找個相關競賽,然後抄襲精神

打地基

盡人事聽天命

盡人事聽天命

盡人事聽天命

盡人事聽天命

盡人事聽天命

盡人事聽天命

失敗專案:語者轉換

所花時間:約四個月

緣起

希望能做火力展示,大家來搞些展示專案吧

(比完比賽、看過李宏毅影片的我)

語者轉換好像不錯玩喔~

語者轉換好像不錯玩喔~

語者轉換好像不錯玩喔~

語者轉換好像不錯玩喔~

A

B

C

為了成為語者轉換大師

我要做足充分準備

couresa信號處理

李琳山 數位語音處理概論

李宏毅 機器學習 youtube

arxiv 語者轉換論文搜尋

2 month

為了成為語者轉換大師

我要做足充分準備

couresa信號處理

李琳山 數位語音處理概論

李宏毅 機器學習 youtube

arxiv 語者轉換論文搜尋

基礎知識看是看了,但是不知道怎麼實際應用

語者轉換論文是有搜尋到,但是看不懂、不會實作,嗚嗚

2 month

A

B

C

你們怎麼這麼久都沒搞出點東西啊?

題目一樣的怎麼沒有一起做?

把東西做大一點

實驗 github A、串介面

嘗試實作Paper B

實驗 github A、換資料集

擷取蔡英文演講片段

結果不好

非專業UI人員,介面零零落落

非領域專家,信號處理部分需要的工實在太大,看過開放課程但沒有實際動手試過是不夠的

該課題非常困難,並非像傳統影像分類問題那麼單純,隨便都可以達成不錯的效果

開放、有品質的中文語料資料集不夠多

語者轉換在當時的open source實在太少

找到的open source要改核心需要花的工實在太大

當時的技術極限並未在專案開始前檢視過,達不到預期成果

得到什麼?

知道自己其實沒那麼厲害

知道必須先做survey再開始做專案,而不要想要從0開始

知道當時一些語者轉換的核心演算法

知道一個專案必須要有各方人才

曾領導之專案

我做的事情

評估專案提案是否過於簡單、困難

評估專案提案的東西是否可以增加延伸應用、是否需要導正

人力資源整合

 

以技術指導的定位,定時追蹤專題進度,看看是否有達成預期成效,並時時將其導正

 

有興趣的專案可能會下海一起玩

判斷鏡頭生產品質

學員知道的

學員想用的

原先提案

用深度學習物件偵測找出希望量測之位置

對該位置做一個深度學習二元分類問題

(清楚、不清楚)

我的改動

用深度學習物件偵測找出希望量測之位置

用成熟的傳統演算法做照片位置註冊

對該位置做一個深度學習、各種演算法的二元分類問題

(清楚、不清楚)

 

物件對齊

傳統演算法嘗試

直接嘗試檢視有幾條

Variance of Laplician

深度學習演算法測試

一開始發現資料標註人員亂標註,結果很差

個人事後回看

很多時候是資料的問題很重要

 

傳統演算法有其重要性,不要一開始就想著全部靠AI來搞定

 

opencv真棒

智慧手機架

原先提案

https://github.com/shamangary/FSA-Net

把人頭姿勢偵測的模型整合到硬體上

模型

----

------

點這個連結

專案人數:5

我的改動

把人頭姿勢偵測的模型整合到硬體上

 

多提額外的想法給學員選

影片控制=>影片開始/停下、上一部片下一部片、音量大小...

手臂控制=>開始/停下、遠近(保護視力,有你有我)、微調

額外資料產出=>是否對這部影片有強烈情緒反應(也許未來可以用在推薦系統上

 

表情辨識=>控制、影片重要位置預測

手勢辨識=>控制

啟動字偵測=>控制

專案人數:5

最後實作

把人頭姿勢偵測的模型整合到硬體上

 

多提額外的想法給學員選

影片控制=>影片開始/停下、上一部片下一部片、音量大小...

手臂控制=>開始/停下、遠近(保護視力,有你有我)、微調

額外資料產出=>是否對這部影片有強烈情緒反應(也許未來可以用在推薦系統上​

 

表情辨識=>控制、影片重要位置預測

手勢辨識=>控制

啟動字偵測=>控制

專案人數:5

需要步驟

物件辨識模型所需資料、重新訓練

與硬體API接起

原本API中已經有手臂追蹤程式碼,將其換為模型的輸出結果即可

USD 499

棄用方案

土炮版本硬體

 

載重、控制達不到原本期望

原來我是反指標

與當期其他專題比起來,他們的技術細節相對較少

因此內部人員打分時分數偏低

但是最後在期末評分上,在純學員互評得了第一名的佳績

(純學員互評的人員不含內部人員,來自於技術班、經理人班的與會人員)

個人事後回看

選擇大於努力

 

別人的github真棒

 

他們的專案如果有很會硬體控制的人員會更好

購物網站訪客瀏覽行為分析

原先提案

從使用者的點擊紀錄來預測他會不會購買當前瀏覽頁面

如果感覺是猶豫者的話,給其個打折,讓其想購買

困境

資料中,購買筆數太少

資料中,有很大的偏見,絕大部分(約40%)來自於直接在各大社群網站投放的橘子工坊洗衣精

如果將其當分類問題下去做,會不知所措

我所知道的

keyword : 推薦系統

陳弘軒老師曾來過我們這邊講過很基礎的推薦系統

Netflex辦的比賽

M[user_i, movie_j] 為 使用者 i 對電影 j 的評分

其有很多空值,預測這些空值的方法可以嘗試使用矩陣分解,用低維度的矩陣去預測這些空值為和

下一步、角色定位、專題定位

既然知道了有推薦系統這個主題

那麼就看看推薦系統在幹嘛吧!

角色定位
學員:
被我撒下netflex推薦系統演算法的種子後,去讀推薦系統,以及找什麼樣的資料集與自家狀況類似。

 

我:

看看他們的網站、看看他們的資料。

數學方面比他們敏感,可以對他們看不懂的東西提出解釋。

如果其他事情忙完了,也幫忙看這個主題、找相關文獻、方法、找會的人問。

專題定位(事前)

Survey 推薦系統、實驗

 

專題定位(事後)

有人幫我survey、整理reference真棒

最後步驟

EDA、傳統分析(如購物籃分析:啤酒、尿布)

 

嘗試建立深度推薦系統模型,去預測點擊紀錄,而非購買事項

 

網站線上AB Test(來不及)

 

精美簡報(被驚呆了)

精美簡報擷取

精美簡報擷取

精美簡報擷取

精美簡報擷取

對我最有用的一頁

個人事後回看

推薦系統的水好深

 

忘記叫他們先去看台灣各大購物網站的介面了(像是MOMO有:別人也逛過、您可能也需要...

 

這種不熟悉的主題的疼痛期更常,若真的要做應該要有時間久了才會有回報的覺悟

心法

資料Ready?人才Ready?

 

當代技術成熟度?技術成熟速度?

最新技術能解決原本不能解的問題嗎?

 

是否傳統方法就能做?Baseline?

是否需要追求最新技術?

是否能夠一步登天?

市場?

只用Open Source是否就能完成目前任務?

技術趨勢?

 

自身於AI的定位:主管?工程師?For Fun?

是否已經找到了適合自己的方法?

AI要怎麼幫助你?

KPMG 賴偉晏怎麼講

技術成熟速度

以風格轉換為例

 

2015 Aug 任意風格轉換(2 min)

2016 Mar 1 Style Model

2016 Oct n Style Model

2017 Mar Arbitrary Style Model

食用資源不變惟變

Deep Learning Monitor

機器之心

Reddit/MachineLearning

 

Paper With Code

 

Medium(讓推薦系統幫助你

 

李宏毅Youtube

 

Colab

Top Conference(Thanks Covid-19?

 

辦個比賽吧

Deep Learning Monitor

機器之心

Reddit/MachineLearning

PaperWithCode

Medium(只要推薦系統懂你,他就能幫助你

李宏毅Youtube

Colab With Opensource

Top Conference Tutorial/Video

工程師很貴,辦比賽很便宜

工程師(不一定能WORK)

870,000 TWD

 

辦比賽(很高機率能WORK)

300,000 TWD

200,000 TWD

100,000 TWD

獎狀

(600,000 TWD)

 

YAHAMAの奇妙な冒険

Made with Slides.com