AI CUP論文分類競賽參賽心得

分享人: 楊平

日期: 2020/03/27

題目

資料來源: Arxiv網站上的論文資料

任務: 利用人工智慧將論文進行自動多類別分類(multi label classification)

論文類別

可以同屬多類別

  • Theoretical Paper
  • Engineering Paper
  • Empirical Paper
  • Others

資料集(Public)

總計7000筆

  • Id: 流水編號,無特別意義。
  • Title: 論文文章標題。
  • Abstract: 論文摘要,以 **$$$** 將句子隔開。
  • Authors: 論文作者,每個作者以 **/** 將句子分開。
  • Categories: 該論文在arXiv上的分類,多個分類以 **/** 做分割。
  • Created Date: 論文上傳至 www.arxiv.com 的日期。
  • Task 2: 論文的分類,多個分類以 **空格** 做分割。

資料集(Private)

總計20000筆

  • Id: 流水編號,無特別意義。
  • Title: 論文文章標題。
  • Abstract: 論文摘要,以 **$$$** 將句子隔開。
  • Authors: 論文作者,每個作者以 **/** 將句子分開。
  • Categories: 該論文在arXiv上的分類,多個分類以 **/** 做分割。
  • Created Date: 論文上傳至 www.arxiv.com 的日期。

有多少是multi label

每類有多少個

評分方式

訓練環境

平台: google colaboratory

神經網路架構: XLNet (BERT的一種)

套件: fast-bert

預訓練模型: uncased_L-12_H-768_A-12

(12-layer, 768-hidden, 12-heads, 110M parameters)

BERT

Pre-training of Deep Bidirectional Transformers for Language Understanding

Transfer Learning

訓練方式 - 1

資料只留Abstract

epoch = 6

max seq length = 512

batch size = 16

 

測試成績 0.6958947788

訓練方式 - 2 (最終繳交)

資料為Title以及被標示為研究方法的句子

epoch = 12

max seq length = 512

batch size = 16

 

測試成績 0.6982248521

第三名的作法

神經網路架構一樣是BERT

預訓練模型: SciBERT (利用科學資料train的model)

前 3 epoch對SciBERT進行fine tune

後 10 epoch凍結SciBERT,對最後一層進行訓練

Made with Slides.com