AI CUP論文分類競賽參賽心得
分享人: 楊平
日期: 2020/03/27
題目
資料來源: Arxiv網站上的論文資料
任務: 利用人工智慧將論文進行自動多類別分類(multi label classification)
論文類別
可以同屬多類別
- Theoretical Paper
- Engineering Paper
- Empirical Paper
- Others
資料集(Public)
總計7000筆
- Id: 流水編號,無特別意義。
- Title: 論文文章標題。
- Abstract: 論文摘要,以 **$$$** 將句子隔開。
- Authors: 論文作者,每個作者以 **/** 將句子分開。
- Categories: 該論文在arXiv上的分類,多個分類以 **/** 做分割。
- Created Date: 論文上傳至 www.arxiv.com 的日期。
- Task 2: 論文的分類,多個分類以 **空格** 做分割。
資料集(Private)
總計20000筆
- Id: 流水編號,無特別意義。
- Title: 論文文章標題。
- Abstract: 論文摘要,以 **$$$** 將句子隔開。
- Authors: 論文作者,每個作者以 **/** 將句子分開。
- Categories: 該論文在arXiv上的分類,多個分類以 **/** 做分割。
- Created Date: 論文上傳至 www.arxiv.com 的日期。
有多少是multi label
每類有多少個
評分方式
訓練環境
平台: google colaboratory
神經網路架構: XLNet (BERT的一種)
套件: fast-bert
預訓練模型: uncased_L-12_H-768_A-12
(12-layer, 768-hidden, 12-heads, 110M parameters)
BERT
Pre-training of Deep Bidirectional Transformers for Language Understanding
Transfer Learning
訓練方式 - 1
資料只留Abstract
epoch = 6
max seq length = 512
batch size = 16
測試成績 0.6958947788
訓練方式 - 2 (最終繳交)
資料為Title以及被標示為研究方法的句子
epoch = 12
max seq length = 512
batch size = 16
測試成績 0.6982248521
第三名的作法
神經網路架構一樣是BERT
預訓練模型: SciBERT (利用科學資料train的model)
前 3 epoch對SciBERT進行fine tune
後 10 epoch凍結SciBERT,對最後一層進行訓練
AI CUP論文分類競賽參賽心得
By Sam Yang
AI CUP論文分類競賽參賽心得
- 599