如何透過 Wikidata 建構 Open Data

以外部形式建構的資料庫共融(榮)形式

Allen Wang

Wikidata Taiwan

什麼是 Open Data?

Open Data 談這麼久了所以他是什麼?

(政府)開放資料概念

數據公益?!

Open data is data that can be freely used, reused and redistributed by anyone - subject only, at most, to the requirement to attribute and sharealike.

 

開放資料指的是資料能被任何人自由地使用,重新使用與散佈 – 我們至多只能要求來源標示,與以相同方式分享

Why Wikidata ?

2012 年才成立的 Wikidata 為我們解決了什麼問題?

  • 導入唯一識別碼

  • 不提供檢索演算法

  • 三元組結構

  • 權威詞彙機制

  • 降低書寫與參考文獻要求門檻

  • CC0授權與全資料匯出

機讀友善

在達到這目的時

順便提供了很多維基百科沒有的功能

  • 權威詞彙對照

  • 跨資料庫對照

  • 文本、文獻資料庫化

權威詞與識別碼?

蔡英文

吳宗憲

都省瑞、陳嘉行

  • 官方名稱與在地稱呼有大量不同
    • 鶯歌溪 vs 兔子坑溪排水
  • 不同主管機關稱呼異同
    • 排水 vs 溪 vs 幹線
  • 英文對照不統一
    • River vs Creek vs Xi vs Hsi
  • 河川資料不只有技術或工程需求

語言欄位連結各語言與各通同名稱

並使用唯一識別碼互相溝通

A資料庫

B資料庫

資料Z-B

資料Z-A

要確定兩者的通同性

就需要進行對照工作

當只有兩個資料庫時

對照工作或許是可行的

但是當有數十個甚至更多的資料庫時...

同時對照工作還會牽涉到組織權責問題

大量增加成本跟可能的阻礙

A資料庫

B資料庫

資料Z-B

資料Z-A

加入 Wikidata 做為第三方

各資料庫之間對照只需要滿足與 Wikidata 之間的對照

就能在與其他資料庫進行對照

資料Z-W

QNNNNNNN

Wikidata

B資料庫

GeoNames

河川代碼

130000

1667049

頭前溪

Q8007827

Wikidata

XXXXX

OO部/OO署/OO公司

XXXXX

環境/水文/水保資料

XXXXX

文化/交通/觀光資料

在維基媒體計畫內部

Wikidata 也扮演著多語言/多計畫資料整合對照

國際虛擬權威檔VIAF近年也轉為與 Wikidata進行對照

透過 Wikidata 也能將文本資料庫化

只需要透過 Wikidata item 的建構

就能為純文本資料建立交叉對照的系統

網頁/資料庫的重構需要大量成本

Wikidata 可在中短期內重構線上資料的特性

紙本資料也可以透過 Wikidata 將史料加值

索引多元領域資料

應用可能

使用 wikidata 做為關鍵字檢索依據

結構資料再處理與應用

謝謝大家

如何透過 Wikidata 建構 Open Data:以外部形式建構的資料庫共融形式

By allenwang6212

如何透過 Wikidata 建構 Open Data:以外部形式建構的資料庫共融形式

  • 151