Pinkoi Interview

Denny

Data Scientist - Analytics

A. 電商應用

1. 

  • 請列舉出五個你認為最重要的指標,並解釋選取的原因。
  • 有別於其他電商,Pinkoi有哪些更值得觀察的指標?

A. 電商應用

A-1

營運指標

1. 流量

2. 轉化

3. 用戶

4. 商品類

5. 風險控管

Session

Unique Visitor

Page Views

CVR

客單價(AOV)

客戶黏性

用戶留存

Daily Active Users(DAU)

Monthly Active Users(MAU)

留存率 Retention

商品總數

商品優勢性

Stock Keeping Unit (SKU)

Inventory

個別轉化率

收入占比

評價數、評分、投訴率、退貨率

1. 流量

2. 轉化

3. 用戶

4. 商品類

5. 風險控管

Session

Unique Visitor

Page Views

CVR

客單價(AOV, ABS)

客戶黏性

用戶留存

Daily Active Users(DAU)

Monthly Active Users(MAU)

留存率 Retention

商品總數

商品優勢性

Stock Keeping Unit (SKU)

Inventory

個別轉化率

收入占比

評價數、評分、投訴率、退貨率

營運指標

A-1

- Profits -

A-1

Gross Merchandise Value (GMV) =流量 x 轉化率 x 客單價

流量

轉化率

客單價

1. 流量

2. 轉化

3. 用戶

指標

Work Session 工作流程

CVR : 訂單÷流程

Average Basket Size (ABS)

- Risk Control -

A-1

5. 風險控管

"退貨率"

0 獲利

- Product Advantage -

A-1

4. 商品類

Order Delta (%) =

單一品項被做活動期間的average daily order

非活動期間的average daily order數

檢視一檔活動的成效,這檔活動對單一品項帶動的單量成長

A-1 . Conclusion

Profits

Risk Control

Product Advantages

  1. 流量
  2. 轉化率
  3. Average Basket Size
  • 退貨(款)率
  • Order Delta (%)

獲利首要考量

維持平台穩定

尋找優勢商品


A. 電商應用

2. 

  • 對於電商,資料科學、機器學習有什麼高價值的應用?
  • 對於Pinkoi,是否有更有利基點值得做的事?

A-2

Analytical Data Science

A-2

"資料科學"

影響力

價值

Tools

Skills

Domain

Knowledge

Fundamental Knowledge

Collaboration

A-2

Target:

"電商平台"

資料比自己更了解自己

平台獲利

客戶付款

客戶下單

客戶喜歡

客戶下單

客戶需求

核心營運都須資料來輔佐,以精確執行決策判斷

A-2

Target:

"Pinkoi"

平台獲利

客戶付款

客戶下單

客戶喜歡

客戶下單

客戶需求

  • 獲取更多客戶資料,建立完整的客戶畫像,盡管有些客戶會流失,但他的特徵依然會留存下來。
  • 擁有充分的資料之後,才能針對這些目標去應用「資料科學、機器學習」以獲取更多資訊。

A-2 . Conclusion

平台獲利

客戶付款

客戶下單

客戶喜歡

客戶下單

客戶需求

  • 獲取更多客戶資料,建立完整的客群畫像,盡管有些客戶會流失,但他的特徵依然會留存下來。
  • 擁有充分的資料之後,才能針對這些目標去應用「資料科學、機器學習」以獲取更多資訊,執行商業決策

B. 使用者分群


B. 使用者分群

1. 

  • 為何需要分群? 分群後有什麼應用可以幫助平台在那些面向做得更好? 評估方式?

B-1

尋找、建立差異點:

增加商業決策的精準性

B-1

STP 理論

  1. Segmentation
  2. Targeting
  3. Positioning

B-1

使用者分群、商品分群、地理分群

依照目標導向,鎖定對象群體

行銷風險控制UI / UX、物流

1.

2.

3.

資源有限

行銷

風險控制

UI / UX

推薦(CTR/CVR)

活動行銷

優勢族群

重購率

損失

不良買家、賣家

使用者體驗

客製化BANNER

B-1 . Conclusion

User面向

評估方式

非監督式學習

定義商業目標

 

分群前/分群後

OR

不同分群之間

 

判斷指標是否顯著有差異,且符合期待


B. 使用者分群

2. 

  • 如何對使用者分群,可從Algorithm, Datasets, System Design等方向去說明,並假設有用的資料都有

B-2

K-Means?   DBSCAN?  HDBSCAN?

Prototype-Based

Density-Based

Graph-Based

  • Fuzzy c-means
  • Mixture Model Clustering
  • Self-Organizing Maps
  • Grid-based clustering

  • Subspace clustering

  • Chameleon
  • Jarvis-Patrick
  • Shared Nearest Neighbor (SNN) 

CLUSTERING

Algorithm

B-2

CLUSTERING

Algorithm

B-2

= 不同的資料樣態有其適合的聚類方法。 =

CLUSTERING

Algorithm

There's more

B-2

CLUSTERING

Dataset

Runtime Issue ( if needed)

B-2

CLUSTERING

Dataset

Dimension Issue

通常維度太高會導致資料在高維度空間呈現非常稀疏,導致分群效果不好。

Dimension Reduction

(PCA / SVD)

也可以先在高維度空間進行分群,降維到2維用視覺化呈現分群效果。

Dimension Reduction

(LDA / t-SNE)

B-2

CLUSTERING

Business Insights

假設:

   已知 Pinkoi 目標客群已經精準鎖定,且主要收入來源由忠實使用者貢獻 

Loyal

Customers

Last order day

上次下單幾天

Active status

上次登入平台天數

ABS

平均購物車價格

Order CNT

訂單數

基本資訊

B-2

CLUSTERING

Business Insights

假設:

   特定檔期想針對低頻率但高消費力的使用者進行促銷或是優惠。

市場區隔:

Ex1: 日本:
    情人節 女生送男生禮物

    白色情人節 男生回禮

時間單位一致

某時間區段內下單數量

(區段: 周/月/季)

全年平均下單數量

(區段: 周/月/季)

Ex2: 聖誕節
    針對年輕消費族群 (交換禮物)

Ex3: 春節
    針對華人市場

B-2

CLUSTERING

Business Insights

假設:

    拓展用戶時,對於新客戶怎麼處理冷啟動?

Recommend 
From 
Social Platform Info

Item

Rate

Cart

Like

B-2

CLUSTERING

System Design

Connect

  1. Stories

  2. Favorite Designers

  3. VIP Customers

User

Designer

C. 商品、設計館曝光


C. 商品、設計館曝光

1. 

  • 商品順序對設計師、平台、使用者分別會有什麼考量?
  • 如何設計Metrics去衡量這些考量?

C-1

設計館

設計師

使用者

Supply

Demand

商品排序

搓合 供需

C-1

SORTING

Designers

曝光程度

有折扣、活動

點擊率高的

價格高

存貨時間久的

Users

越快找到想要的

Platform

照片

評價

價格

運費

成交量

買家

賣家

獲            利  

C-1

SORTING

Metrics
Designers

曝光程度

有折扣、活動

點擊率高的

價格高

存貨時間久的

Click Through Rate (CTR)

Rank :

Clicks 

Impression

=

出現在商品分類頁面的第幾個?

Impression 曝光次數 :

出現在商品分類頁面幾次?

如果是設計館頁面則是看使用者的回饋了

C-1

SORTING

Metrics
Users

越快找到想要的

照片

評價

價格

運費

Time to Click

Click ?

是否有點擊?

多久才點擊

Idle Time

閒置時間

Hot Searches +

Customized

UX

分類瀏覽頁

UX

Customization

C-1

SORTING

Metrics
Platform

成交量

面向賣家

面向買家

  • 設計館"曝光"次數

  • 新品曝光次數

  • 或是設計館/設計師主要推銷的產品曝光次數

  • Sort 依據

  • 增加平台營收(供>需)

  • CTR

  • Idle Time

  • Time To Click

  • Click at Rank n

買家

賣家

獲           利


2. 

  • 我會用什麼方法去決定這些商品的順序?

C. 商品、設計館曝光

C-2

SORTING

相關性

重要性

商品對人

商品對商品

C-2

SORTING

Rank

Item

1

2

3

4

5

6

Preference

Picture

Goods_Name

Ratings

Fee_Free

Similarity

顧客歷史資料對商品呈現的喜好

  1. 照片 : 轉換成向量擷取重要的pixel資訊。
  2. 產品名稱: 字串也能轉換成向量。
  3. 過去收藏、放入購物車、購買的產品的評價。
  4. 價格範圍
  5. 是否偏好免運。
  6. 設計館是否是喜好賣家? ( 對於過去該設計館的評分、成交量、收藏量...等等)
  7. 偶爾穿插一些新設計館或是新產品增加新穎性。
Products

C-2

SORTING

相關性

重要性

人對人

商品對人

C-2

SORTING

Rank

Item

1

2

3

4

5

6

Preference

Behaviors

Similarity

藉由相似使用者資料去推薦排序

  1. 消費行為: 消費行為接近的客群
  2. 購買偏好相近的客群
  3. 社群資料有關連性的
  4. 資本資訊相近的
Users

Purchasing_Preference

Social

C-2

SORTING

Rank

Item

1

2

3

4

5

6

Preference

CTR / Ratings

針對單一使用者去建立模型

  1. 直接針對每個客戶對於某項產品的評分或是他的CTR進行鍵模。
  2. 並把推薦候選產品放入訓練好的模行進行預測CTR或是評分。
  3. 針對產出的CTR或是評分結果進行排序,並依CTR、評分高到低給予推薦順序。

Features

C-2

SORTING

Platform

Business Strategies

面向賣家

面向買家

  • 設計館"曝光"次數

  • 新品曝光次數

  • 或是設計館/設計師主要推銷的產品曝光次數

  • Sort 依據

  • 增加平台營收(供>需)

  • CTR

  • Idle Time

  • Time To Click

  • Click at Rank n

藉由相似設計館喜好去推薦排序


3. 

  • 模型線上/線下的評估怎麼做?
  • 判斷是否可上線以及上線後是否符合期待?

C. 商品、設計館曝光

C-3

RECOMMENDATION SYSTEM

Offline

Online

Train

Test

fit
Evaluation

Recommender

Label

Label

Loss

Error

Build Recommneder

A/B Test

CTR

顯著改變

符合預期

Business

Strategy

Performance Monitor

Impression

Click

Buy

Add to Cart

CVR
CVR
CVR

C-3

RECOMMENDATION SYSTEM

Offline

Build Recommneder

排序算法來說:

    推的準確性以及給予的順序都是很重要的指標。

    ● MAP

        Mean Average Precision

    ● NDCG

        Normalized Discounted Cumulative Gain

    ● MRR

        Mean Reciprocal Rank

Online

A/B Test

CTR

符合預期

Business

Strategy

Performance Monitor

顯著改變

    模型是否及時調整?

    模型更新頻率以及發送排序結果的頻率

    流量暴漲壓力測試

各階段的轉化率指標:

    對應到是哪個環節出問題,是不是推薦算法有miss考量哪一點?

    還是說算法的影響不符合我們當初的商業目標以及方向?

群體間的比較:

    有受推薦算法影響vs沒有受推薦算法影響的群體

    上線時間點前後比較

長尾能力:

    衡量排序較後面的是否也有一定的影響力。

D. 商品頁推薦系統


D. 商品頁推薦系統

1. 

  • 使用者、平台、設計師對商品頁上的推薦版面各有什麼需求?
  • 如何設計Metrics評估這些需求?

D-1

相關性

重要性

商品對商品

商品與商品

RECOMMENDER

D-1

Metrics
Platform

成交量

買家

賣家

獲           利

RECOMMENDER

面向賣家

面向買家

IMPRESSION

REACTION


D. 商品頁推薦系統

2. 

  • 如何做線上/ 線下評估確認推薦成效?
  • 片段是否可上線以及上線後是否符合期待?

D-2

Offline

Online

Train

Test

fit
Evaluation

Recommender

Label

Label

Loss

Error

Build Recommneder

A/B Test

CTR

顯著改變

符合預期

Business

Strategy

Performance Monitor

Impression

Click

Buy

Add to Cart

CVR
CVR
CVR

RECOMMENDER

D-2

Offline

Build Recommneder

推薦算法來說:

    推薦準確性指標:

    ● 評分預測模型

        - MAE

        - RMSE

    ● 推薦集合模型指標

        - Precision

        - Recall (Hit Rate)

Online

A/B Test

CTR

符合預期

Business

Strategy

Performance Monitor

顯著改變

    模型是否及時調整?

    模型更新頻率以及發送推薦結果的頻率

    流量暴漲壓力測試

各階段的轉化率指標:

    對應到是哪個環節出問題,是不是推薦算法有miss考量哪一點?

    還是說算法的影響不符合我們當初的商業目標以及方向?

群體間的比較:

    有受推薦算法影響vs沒有受推薦算法影響的群體

    上線時間點前後比較

長尾能力:

    衡量排序較後面的是否也有一定的影響力。

RECOMMENDER

RECOMMENDER SYSTEM

D-2 . Conclusion

Database

Business

Objective

START

Segmentation

Generate Data

Develop Models

Deployment

Collect New Data

Store Data

Monitor

Maintainence

RESTART

Pinkoi Interview

Denny

Thank you!

Pinkoi Interview

By Chen Ta Hung

Pinkoi Interview

  • 83