Pinkoi Interview
Denny
Data Scientist - Analytics
A. 電商應用
1.
- 請列舉出五個你認為最重要的指標,並解釋選取的原因。
- 有別於其他電商,Pinkoi有哪些更值得觀察的指標?
A. 電商應用
A-1
營運指標
1. 流量
2. 轉化
3. 用戶
4. 商品類
5. 風險控管
Session
Unique Visitor
Page Views
CVR
客單價(AOV)
客戶黏性
用戶留存
Daily Active Users(DAU)
Monthly Active Users(MAU)
留存率 Retention
商品總數
商品優勢性
Stock Keeping Unit (SKU)
Inventory
個別轉化率
收入占比
評價數、評分、投訴率、退貨率
1. 流量
2. 轉化
3. 用戶
4. 商品類
5. 風險控管
Session
Unique Visitor
Page Views
CVR
客單價(AOV, ABS)
客戶黏性
用戶留存
Daily Active Users(DAU)
Monthly Active Users(MAU)
留存率 Retention
商品總數
商品優勢性
Stock Keeping Unit (SKU)
Inventory
個別轉化率
收入占比
評價數、評分、投訴率、退貨率
營運指標
A-1
- Profits -
A-1
Gross Merchandise Value (GMV) =流量 x 轉化率 x 客單價
流量
轉化率
客單價
1. 流量
2. 轉化
3. 用戶
指標
Work Session 工作流程
CVR : 訂單÷流程
Average Basket Size (ABS)
- Risk Control -
A-1
5. 風險控管
"退貨率"
0 獲利
- Product Advantage -
A-1
4. 商品類
Order Delta (%) =
單一品項被做活動期間的average daily order
非活動期間的average daily order數
檢視一檔活動的成效,這檔活動對單一品項帶動的單量成長
A-1 . Conclusion
Profits
Risk Control
Product Advantages
- 流量
- 轉化率
- Average Basket Size
- 退貨(款)率
- Order Delta (%)
獲利首要考量
維持平台穩定
尋找優勢商品
A. 電商應用
2.
- 對於電商,資料科學、機器學習有什麼高價值的應用?
- 對於Pinkoi,是否有更有利基點值得做的事?
A-2
Analytical Data Science
A-2
"資料科學"
影響力
價值
Tools
Skills
Domain
Knowledge
Fundamental Knowledge
Collaboration
A-2
Target:
"電商平台"
資料比自己更了解自己
平台獲利
客戶付款
客戶下單
客戶喜歡
客戶下單
客戶需求
核心營運都須資料來輔佐,以精確執行決策判斷
A-2
Target:
"Pinkoi"
平台獲利
客戶付款
客戶下單
客戶喜歡
客戶下單
客戶需求
- 獲取更多客戶資料,建立完整的客戶畫像,盡管有些客戶會流失,但他的特徵依然會留存下來。
- 擁有充分的資料之後,才能針對這些目標去應用「資料科學、機器學習」以獲取更多資訊。
A-2 . Conclusion
平台獲利
客戶付款
客戶下單
客戶喜歡
客戶下單
客戶需求
- 獲取更多客戶資料,建立完整的客群畫像,盡管有些客戶會流失,但他的特徵依然會留存下來。
- 擁有充分的資料之後,才能針對這些目標去應用「資料科學、機器學習」以獲取更多資訊,執行商業決策。
B. 使用者分群
B. 使用者分群
1.
- 為何需要分群? 分群後有什麼應用可以幫助平台在那些面向做得更好? 評估方式?
B-1
尋找、建立差異點:
增加商業決策的精準性
B-1
STP 理論
- Segmentation
- Targeting
- Positioning
B-1
使用者分群、商品分群、地理分群
依照目標導向,鎖定對象群體
行銷、風險控制、UI / UX、物流
1.
2.
3.
資源有限
行銷
風險控制
UI / UX
推薦(CTR/CVR)
活動行銷
優勢族群
重購率
損失
不良買家、賣家
使用者體驗
客製化BANNER
B-1 . Conclusion
User面向
評估方式
非監督式學習
定義商業目標
分群前/分群後
OR
不同分群之間
判斷指標是否顯著有差異,且符合期待
B. 使用者分群
2.
- 如何對使用者分群,可從Algorithm, Datasets, System Design等方向去說明,並假設有用的資料都有
B-2
K-Means? DBSCAN? HDBSCAN?
Prototype-Based
Density-Based
Graph-Based
- Fuzzy c-means
- Mixture Model Clustering
- Self-Organizing Maps
-
Grid-based clustering
-
Subspace clustering
- Chameleon
- Jarvis-Patrick
- Shared Nearest Neighbor (SNN)
CLUSTERING
Algorithm
B-2
CLUSTERING
Algorithm
B-2
= 不同的資料樣態有其適合的聚類方法。 =
CLUSTERING
Algorithm
There's more
B-2
CLUSTERING
Dataset
Runtime Issue ( if needed)
B-2
CLUSTERING
Dataset
Dimension Issue
通常維度太高會導致資料在高維度空間呈現非常稀疏,導致分群效果不好。
Dimension Reduction
(PCA / SVD)
也可以先在高維度空間進行分群,降維到2維用視覺化呈現分群效果。
Dimension Reduction
(LDA / t-SNE)
B-2
CLUSTERING
Business Insights
假設:
已知 Pinkoi 目標客群已經精準鎖定,且主要收入來源由忠實使用者貢獻
Loyal
Customers
Last order day
上次下單幾天
Active status
上次登入平台天數
ABS
平均購物車價格
Order CNT
訂單數
基本資訊
B-2
CLUSTERING
Business Insights
假設:
特定檔期想針對低頻率但高消費力的使用者進行促銷或是優惠。
市場區隔:
Ex1: 日本:
情人節 女生送男生禮物
白色情人節 男生回禮
時間單位一致
某時間區段內下單數量
(區段: 周/月/季)
全年平均下單數量
(區段: 周/月/季)
Ex2: 聖誕節
針對年輕消費族群 (交換禮物)
Ex3: 春節
針對華人市場
B-2
CLUSTERING
Business Insights
假設:
拓展用戶時,對於新客戶怎麼處理冷啟動?
Recommend From Social Platform Info
Item
Rate
Cart
Like
B-2
CLUSTERING
System Design
Connect
-
Stories
-
Favorite Designers
-
VIP Customers
User
Designer
C. 商品、設計館曝光
C. 商品、設計館曝光
1.
- 商品順序對設計師、平台、使用者分別會有什麼考量?
- 如何設計Metrics去衡量這些考量?
C-1
設計館
設計師
使用者
Supply
Demand
商品排序
搓合 供需
C-1
SORTING
Designers
曝光程度
有折扣、活動
點擊率高的
價格高
存貨時間久的
Users
越快找到想要的
Platform
照片
評價
價格
運費
成交量
買家
賣家
獲 利
C-1
SORTING
Metrics
Designers
曝光程度
有折扣、活動
點擊率高的
價格高
存貨時間久的
Click Through Rate (CTR)
Rank :
Clicks
Impression
=
出現在商品分類頁面的第幾個?
Impression 曝光次數 :
出現在商品分類頁面幾次?
如果是設計館頁面則是看使用者的回饋了
C-1
SORTING
Metrics
Users
越快找到想要的
照片
評價
價格
運費
Time to Click
Click ?
是否有點擊?
多久才點擊
Idle Time
閒置時間
Hot Searches +
Customized
UX
分類瀏覽頁
UX
Customization
C-1
SORTING
Metrics
Platform
成交量
面向賣家
面向買家
-
設計館"曝光"次數
-
新品曝光次數
-
或是設計館/設計師主要推銷的產品曝光次數
-
Sort 依據
-
增加平台營收(供>需)
-
CTR
-
Idle Time
-
Time To Click
-
Click at Rank n
買家
賣家
獲 利
2.
- 我會用什麼方法去決定這些商品的順序?
C. 商品、設計館曝光
C-2
SORTING
相關性
重要性
商品對人
商品對商品
C-2
SORTING
Rank
Item
1
2
3
4
5
6
Preference
Picture
Goods_Name
Ratings
Fee_Free
Similarity
顧客歷史資料對商品呈現的喜好
- 照片 : 轉換成向量擷取重要的pixel資訊。
- 產品名稱: 字串也能轉換成向量。
- 過去收藏、放入購物車、購買的產品的評價。
- 價格範圍
- 是否偏好免運。
- 設計館是否是喜好賣家? ( 對於過去該設計館的評分、成交量、收藏量...等等)
- 偶爾穿插一些新設計館或是新產品增加新穎性。
Products
C-2
SORTING
相關性
重要性
人對人
商品對人
C-2
SORTING
Rank
Item
1
2
3
4
5
6
Preference
Behaviors
Similarity
藉由相似使用者資料去推薦排序
- 消費行為: 消費行為接近的客群
- 購買偏好相近的客群
- 社群資料有關連性的
- 資本資訊相近的
Users
Purchasing_Preference
Social
C-2
SORTING
Rank
Item
1
2
3
4
5
6
Preference
CTR / Ratings
針對單一使用者去建立模型
- 直接針對每個客戶對於某項產品的評分或是他的CTR進行鍵模。
- 並把推薦候選產品放入訓練好的模行進行預測CTR或是評分。
- 針對產出的CTR或是評分結果進行排序,並依CTR、評分高到低給予推薦順序。
Features
C-2
SORTING
Platform
Business Strategies
面向賣家
面向買家
-
設計館"曝光"次數
-
新品曝光次數
-
或是設計館/設計師主要推銷的產品曝光次數
-
Sort 依據
-
增加平台營收(供>需)
-
CTR
-
Idle Time
-
Time To Click
-
Click at Rank n
藉由相似設計館喜好去推薦排序
3.
- 模型線上/線下的評估怎麼做?
- 判斷是否可上線以及上線後是否符合期待?
C. 商品、設計館曝光
C-3
RECOMMENDATION SYSTEM
Offline
Online
Train
Test
fit
Evaluation
Recommender
Label
Label
Loss
Error
Build Recommneder
A/B Test
CTR
顯著改變
符合預期
Business
Strategy
Performance Monitor
Impression
Click
Buy
Add to Cart
CVR
CVR
CVR
C-3
RECOMMENDATION SYSTEM
Offline
Build Recommneder
排序算法來說:
推的準確性以及給予的順序都是很重要的指標。
● MAP
Mean Average Precision
● NDCG
Normalized Discounted Cumulative Gain
● MRR
Mean Reciprocal Rank
Online
A/B Test
CTR
符合預期
Business
Strategy
Performance Monitor
顯著改變
模型是否及時調整?
模型更新頻率以及發送排序結果的頻率
流量暴漲壓力測試
各階段的轉化率指標:
對應到是哪個環節出問題,是不是推薦算法有miss考量哪一點?
還是說算法的影響不符合我們當初的商業目標以及方向?
群體間的比較:
有受推薦算法影響vs沒有受推薦算法影響的群體
上線時間點前後比較
長尾能力:
衡量排序較後面的是否也有一定的影響力。
D. 商品頁推薦系統
D. 商品頁推薦系統
1.
- 使用者、平台、設計師對商品頁上的推薦版面各有什麼需求?
- 如何設計Metrics評估這些需求?
D-1
相關性
重要性
商品對商品
商品與商品
RECOMMENDER
D-1
Metrics
Platform
成交量
買家
賣家
獲 利
RECOMMENDER
面向賣家
面向買家
IMPRESSION
REACTION
D. 商品頁推薦系統
2.
- 如何做線上/ 線下評估確認推薦成效?
- 片段是否可上線以及上線後是否符合期待?
D-2
Offline
Online
Train
Test
fit
Evaluation
Recommender
Label
Label
Loss
Error
Build Recommneder
A/B Test
CTR
顯著改變
符合預期
Business
Strategy
Performance Monitor
Impression
Click
Buy
Add to Cart
CVR
CVR
CVR
RECOMMENDER
D-2
Offline
Build Recommneder
推薦算法來說:
推薦準確性指標:
● 評分預測模型
- MAE
- RMSE
● 推薦集合模型指標
- Precision
- Recall (Hit Rate)
Online
A/B Test
CTR
符合預期
Business
Strategy
Performance Monitor
顯著改變
模型是否及時調整?
模型更新頻率以及發送推薦結果的頻率
流量暴漲壓力測試
各階段的轉化率指標:
對應到是哪個環節出問題,是不是推薦算法有miss考量哪一點?
還是說算法的影響不符合我們當初的商業目標以及方向?
群體間的比較:
有受推薦算法影響vs沒有受推薦算法影響的群體
上線時間點前後比較
長尾能力:
衡量排序較後面的是否也有一定的影響力。
RECOMMENDER
RECOMMENDER SYSTEM
D-2 . Conclusion
Database
Business
Objective
START
Segmentation
Generate Data
Develop Models
Deployment
Collect New Data
Store Data
Monitor
Maintainence
RESTART
Pinkoi Interview
Denny
Thank you!
Pinkoi Interview
By Chen Ta Hung
Pinkoi Interview
- 85