AI CUP論文分類競賽參賽心得

分享人: 楊平

日期: 2020/03/27

題目

資料來源: Arxiv網站上的論文資料

任務: 利用人工智慧將論文進行自動多類別分類(multi label classification)

論文類別

可以同屬多類別

Theoretical Paper
Engineering Paper
Empirical Paper
Others

資料集(Public)

總計7000筆

Id: 流水編號，無特別意義。
Title: 論文文章標題。
Abstract: 論文摘要，以 **$$$** 將句子隔開。
Authors: 論文作者，每個作者以 **/** 將句子分開。
Categories: 該論文在arXiv上的分類，多個分類以 **/** 做分割。
Created Date: 論文上傳至 www.arxiv.com 的日期。
Task 2: 論文的分類，多個分類以 **空格** 做分割。

資料集(Private)

總計20000筆

Id: 流水編號，無特別意義。
Title: 論文文章標題。
Abstract: 論文摘要，以 **$$$** 將句子隔開。
Authors: 論文作者，每個作者以 **/** 將句子分開。
Categories: 該論文在arXiv上的分類，多個分類以 **/** 做分割。
Created Date: 論文上傳至 www.arxiv.com 的日期。

有多少是multi label

每類有多少個

評分方式

訓練環境

平台: google colaboratory

神經網路架構: XLNet (BERT的一種)

套件: fast-bert

預訓練模型: uncased_L-12_H-768_A-12

(12-layer, 768-hidden, 12-heads, 110M parameters)

BERT

Pre-training of Deep Bidirectional Transformers for Language Understanding

Transfer Learning

訓練方式 - 1

資料只留Abstract

epoch = 6

max seq length = 512

batch size = 16

測試成績 0.6958947788

訓練方式 - 2 (最終繳交)

資料為Title以及被標示為研究方法的句子

epoch = 12

max seq length = 512

batch size = 16

測試成績 0.6982248521

第三名的作法

神經網路架構一樣是BERT

預訓練模型: SciBERT (利用科學資料train的model)

前 3 epoch對SciBERT進行fine tune

後 10 epoch凍結SciBERT，對最後一層進行訓練

AI CUP論文分類競賽參賽心得

By Sam Yang

AI CUP論文分類競賽參賽心得

Sam Yang

netjagaimo.github.io