資料職涯分享

connor (leafwind)

從資料科學到資料工程、從台灣到日本的學習歷程

自我介紹

資工系＋資工所
Appier 軟體工程師 2014 - 2019
- Data Science (2y)
- Data Engineering/Backend (3y)
SmartNews 軟體工程師 2019 - 2020
- Data Engineering

自我介紹

資料科學到資料工程
- 十年前就在做 AI，AI 紅了之後反而做工程
通才打雜工具人
- Project Management
- Mentor, Scrum Master

https://i.am.ai/roadmap/

工作經驗（選最接近的）

學生
職場新鮮人（第一份工作）
稍有經驗（三到五年）
中等～資深（五年以上）

新創那些事
- 資料科學的理想與現實
新創職涯發展
- 最容易被忽略的職涯風險
Data job landscape
- 台灣與日本的職缺觀察

大綱

都是個人經驗！

新創那些事

資料科學的理想與現實

資料科學角色光譜圖

ref: 《資料科學角色光譜圖》

ref: 資料科學的職稱分類演進

如果你是那條龍

對老闆來說，不管你的職位叫什麼

你就是產品，產品就是你

ref:「全棧科學家」模式不適用的可能原因

最趕的流程

看資料、收集資料（沒資料什麼都是假的）
決定最快能動的 baseline
- domain knowledge => feature engineering
- rule based (decision tree, statistical history)
- evaluation？maybe.
進入優化循環
- 一邊實驗新模型，一邊（偷偷）收技術債

（草創時期，一人一條龍）

理想的分工

Data Collection
- 有人幫你生 log 或是爬蟲抓資料
Data Lake / Data Warehouse
- 有人幫你弄好分散式儲存、管理所有資料庫
Data Pipelining
- 有人幫你管理、維護錯綜複雜的資料流
Data Cleansing
- 有人幫你清資料、進來的資料都可以直接用
Modeling/Analysis（prediction/insight）
- 我的專業

實際的分工

Data Collection
- ~~有人幫你生 log 或是爬蟲抓資料~~
Data Lake / Data Warehouse
- ~~有人幫你弄好分散式儲存、管理所有資料庫~~
Data Pipelining
- ~~有人幫你管理、維護錯綜複雜的資料流~~
Data Cleansing
- ~~有人幫你清資料、進來的資料都可以直接用~~
Modeling/Analysis（prediction/insight）
- 剩下的時間才是這裡

ref: 為何資料工程人才難以培養？

ML 在哪裡？

A mature system might end up being (at most) 5% machine learning code and (at least) 95% glue code — "Hidden Technical Debt in Machine Learning Systems", Sculley, NIPS 2015

這些問題誰來解決

ML model 以外的系統佔了 95%
- 通常問題有大半都不是出在模型，如何 debug？
- 例子：廣告出價失敗
data cleansing
- raw log 非結構化、雜訊、被污染
data governance
- 隱私控管、上下游管理、知識管理
data migration
- 空中加油

找很多工程師？

科學 vs. 工程

工程比科學還多

但非工程的部份可能更多

管理、溝通、實驗流程

貫穿全部的專案管理
跟其他 team 的橫向需求/供給協調
向上管理、presentation
跑大地、考古挖資料
A/B 測試如何設計
上線之後如何根據得到的結果修正、砍掉重練、嘗試新的模型

解決的問題不同

垂直應用 vs. 橫向平台

business problem (vertical) vs. generalized platform/solution (horizontal)

大平台

平台

應用

思考模式不同

商業問題
- 產品價值
- 客戶需求
- 試錯、驗證最小可行方案
- 容易看得見的成果
工程平台
- 可靠性、穩定性
- 泛用性、可擴展性
- 較難看見的長期成效

解決 X-Y 問題
- 照著要求做很可能事倍功半
- 了解科學家的痛點則會事半功倍
建立合作關係
- 提供工程師能理解的急迫原因與作法
- 規劃償還技術債

常見案例：緊急 pipeline

資料科學的不確定性

開發模型與開發軟體的差別

資料產品能否做得起來

跨團隊合作經驗
- 一個人什麼都做不了
- 小組織 vs. 大公司的合作模式完全不同
領域知識
- feature, feature, feature!
應用模型的實務經驗
- 太多現實問題，影響因素政治>>工程>>科學
客戶買不買單是另一回事

探索的過程，時程難估

一開始：不知道問題是什麼、資料是什麼
要試多少 feature/model？做到多好才算完成？
- ~~Accuracy 100%？~~有更緊急專案的出現
Cold Start 成效差，要多久才能收集足夠資料？
- ~~根據統計與檢定~~直到客戶不抱怨為止
Sprint 一次多長？
- Task: 測試 A 模型、測試 B 模型、測試 C 模型...
- 兩週不夠再兩週？
- 有時候跑看板更實際

Evaluation
- offline performance
- online performance
  - offline 跟 online 表現可能會差很多（Dataset shift）
實驗
- 人工 transfer learning
  - 人都不知道要用什麼策略，所以人要先學習
  - 實驗在另一個類似的專案，再轉移經驗過來

無止盡的優化

人人有模型練

資料科學家這個職缺卻變得稀有

ref: 為什麼資料科學「曾經」比資料工程流行？

這些職缺還需要嗎？

讀 paper 研究機器學習模型實作的科學家
- 多數只存在於研究單位與巨頭公司
一條龍的假科學家/真工程師
- 極少數小新創才有，而且台灣所剩不多

2020年建模型的門檻極低

五分鐘嘗試第一個深度學習(Caffe)

60分鐘入門PyTorch

新科技廣泛被運用，工程需求凸顯

《資料科學的職稱分類演進》

MLOps：除了中間，全都歸他管

MLOps vs. 一條龍科學家

乍看都管很寬，實際上卻剛好相反
- 一條龍科學家是要科學家扛 95% 工程活
- MLOps 則是從工程角度全盤考量
然而實際上卻不一定找得到...
- 找 DevOps 卻變成 Ops
- 找 SRE 卻變成 on call support eng..

科學

工程

MLOps

Dragon Scientiest

實務上都很極端

人數不夠的新團隊
- 只有一條龍
擴張之後
- 反而切割過細、溝通成本太高
- 一個產品好幾個團隊來做
- 一個功能有多個類似的團隊可以做
政治/管理問題比技術更難解決

新創職涯發展

最容易被忽略的職涯風險

【📣資料工程師來開講】在求職市場我有價值嗎？如何歸納經驗

就職的公司規模

（選主要的經驗即可）

自己創業過或 10 人以下新創
10 - 30 員工
30 - 100 員工
100 - 300 員工
300 - 1000 員工
1000+ 員工

很多人會擔心新創倒閉

比起公司的風險，自己的職涯風險更大

更重要的問題：職涯成長

當新鮮人進了新創...
- 基礎學歪的機率高
- 整天瞎忙、成長緩慢的風險也高
- 時間永遠是最大的成本

通才（打雜）困境

第一份工作在新創最大的風險

我的情況

資料科學、資料工程、後端、專案管理都碰過
- 但並不專精
面試責任分工明確的大公司相較吃虧
- 新創或小團隊的機會較多
通才的經驗對擔任 Leader/Manager 有幫助
- 因此常猶豫轉換跑道
習慣彈性、跨團隊、轉換環境較容易適應
- 工程師同事認為我是科學家
  科學家同事也認為我比他們懂工程
- 完成工作也幫助團隊，卻常常陷入冒牌者症候群

面試的優劣勢

專精技術職
- 較容易在技術/刷題取得優勢，拿到較高的階級
- 大公司職缺量較多
擁有多樣領域與非技術經驗的工程師
- 能力不容易用客觀標準衡量
- 有多項優勢互補，較不會因為單一缺陷被刷掉
很多人在 behavior 或溝通被刷掉，我則是相反，但拿到的工程師 level 似乎比較低

選擇公司

同時從外人角度理解自己

資料先行 vs. 演算法先行？

資料先行（通常已經有產品需要 AI 加值）
- 護城河高
- 看得到自家的 Data 很有趣
- Domain knowledge 吃重
- 比較務實（髒資料、合作夥伴關係）
- 使用者行為相關（廣告、行銷、社群、電商、媒體）
AI 先行（通常先做 AI 才）
- 專注研究、馬上應用最先進演算法
- 電腦視覺相關

了解市場概況跟自身定位

透過周遭人脈
- 公司（多數人都會在幾年內離開）
- 社群（Meetup、讀書會）
透過面試
- 定時面試很重要，就算原本工作不差
- 少數有業界人士認真對話的機會
- 只有自己清楚自己想要的工作

我適合很小的團隊嗎？

移動開火能力
- 仰賴個人時間管理、學習能力與工作經驗
- 移動開火能力低於公司要求 -> 瞎忙

Data job landscape

台灣與日本的職缺觀察

海外就職意向

人在台灣，想找日本工作
人在台灣，想找日本以外的國家工作
人在台灣，暫時不會離開目前國家
已經在國外，但想換國家
已經在國外，暫時不會離開目前國家

日本 vs. 台灣（軟體）

台灣軟體業
- 有一些外商開始移入 e.g. 微軟，但像 Google 的軟體工程師還是著重在硬體產品
日本 IT
- 日本不是軟體產業大國（相較於新加坡、美國）
- 但相較於台灣，還是有較大的本土市場
- 往上跳的選擇不多，幾乎只剩外商

日本 vs. 台灣（Data）

台灣
- 較多資料分析、較少工程
日本
- 職缺比台灣多一點, e.g.
  - 樂天 Data Engineer
  - Google Data Scientist
- 薪資天花板比台灣高
- 語言問題，資料科學與分析比較吃溝通

日本 IT 職場文化

精神狀態也是重要的考量
簡單的判斷標準：語言
英文化程度高：文化越不像傳統日商
樂天？

2019 我的資料科學轉職歷程

Thanks for your attention!!

聯絡我

個人
- Telegram
- Email: leafwind.cs@gmail.co
群組
- 資料森友會（Telegram）
- 閒聊吧！軟工森友會（Discord）

資料職涯分享

自我介紹

自我介紹

工作經驗（選最接近的）

新創那些事

新創職涯發展

Data job landscape

大綱

都是個人經驗！

新創那些事

資料科學的理想與現實

資料科學角色光譜圖

如果你是那條龍

最趕的流程

理想的分工

實際的分工

ML 在哪裡？

這些問題誰來解決

找很多工程師？

科學 vs. 工程

工程比科學還多

但非工程的部份可能更多

管理、溝通、實驗流程

解決的問題不同

垂直應用 vs. 橫向平台

思考模式不同

常見案例：緊急 pipeline

資料科學的不確定性

資料產品能否做得起來

探索的過程，時程難估

無止盡的優化

人人有模型練

資料科學家這個職缺卻變得稀有

這些職缺還需要嗎？

2020年建模型的門檻極低

新科技廣泛被運用，工程需求凸顯

MLOps：除了中間，全都歸他管

MLOps vs. 一條龍科學家

乍看都管很寬，實際上卻剛好相反

然而實際上卻不一定找得到...

實務上都很極端

人數不夠的新團隊

擴張之後

政治/管理問題比技術更難解決

新創職涯發展

最容易被忽略的職涯風險

就職的公司規模

很多人會擔心新創倒閉

更重要的問題：職涯成長

當新鮮人進了新創...

通才（打雜）困境

第一份工作在新創最大的風險

我的情況

面試的優劣勢

選擇公司

同時從外人角度理解自己

資料先行 vs. 演算法先行？

了解市場概況跟自身定位

我適合很小的團隊嗎？

移動開火能力

Data job landscape

海外就職意向

日本 vs. 台灣（軟體）

台灣軟體業

日本 IT

日本 vs. 台灣（Data）

台灣

日本

日本 IT 職場文化

2019 我的資料科學轉職歷程

Thanks for your attention!!

聯絡我

更多文章