開放資料從N顆星到五顆星

王文岳 Allen Wang

Wikidata Taiwan

什麼樣的專案跟社群適合

這個做法呢?

  • 維護既有資料集也希望與開放資料做串聯
  • 有關心的主題資料,但資料卻四散各地
  • 已經有開放資料,希望擴大開放資料的應用

資料導入至 Wikidata 就能透過 Wikidata 的網路

串接到各大資料庫中

透過 Wikidata 能協助
資料庫的資料

建立關聯性的 metadata

提供一個識別碼做為參考基準
同時符合 FAIR 原則

Wikidata 同時透過「亦稱為」一欄

以及多語言欄位

提供跨語言對照以及權威詞彙對照的功能

透過處理之後就能為每一個人提供獨立識別碼

也能透過 Wikidata 現有的各式分析工具進行分析

Wikidata + ISBN + GPN 三個識別碼對照

Wikidata 潛在的問題:

  • 作為公共資料庫、知識庫或目錄有共同規則須遵守
  • 在資料撰寫的自由度不如傳統資料庫
  • 學習共同編輯規則有潛在的學習成本
  • 若未跟隨主流編寫規則可能影響資料被查找的效度
  • 無法收錄第一方文獻或是原創資料

導入 Wikibase 作為
私有資料庫的可能性...

自建 Wikibase 的優勢:

  • 獨立設計資料結構、自由度高
  • 原創研究可透過自建 Wikibase 發布
  • 小誌、未編目文件可透過自建 Wikibase 發布

自建 Wikibase 的劣勢:

  • 需要計入資料庫維運成本
  • 自建 Wikibase 可能需要自行建立資料應用生態系
  • 獨立設計資料結構也是潛在成本

自建 Wikibase 私目錄

同步 Wikidata 公目錄

小結

已有許多研究發現 Wikidata/Wikibase 能提高 LLM 正確率

Wikidata 作為全球性的鏈結開放資料庫
資料在其中的占比與影響力也會影響 AI 以及後世研究

Wikidata/Wikibase 可以透過較低的成本轉化既有資料
讓其能以鏈結資料方式再發布擴展可用性

謝謝大家

開放資料從N顆星到五顆星

By allenwang6212

開放資料從N顆星到五顆星

開放資料從N顆星到五顆星

  • 23