政府開放資料、鏈結開放資料

Wikidata / Wikibase 實踐初探

王文岳 Allen Wang

Wikidata Taiwan

王文岳

  • Wikidata Taiwan 共同發起人
  • 立法院開放國會第一屆委員
  • 前台灣維基媒體協會秘書長
  • 李梅樹紀念館資訊組召集人
  • 國家文化記憶庫社群經營研究:資訊技術協力

 Open Data 、 Linked Open Data 簡介

Wikidata / Wikibase 簡介

Wikidata 應用於資料檢索機制與案例

 Open Data

Linked Data

Linked Open Data

開放 (Open):
依據國際「開放定義」(Open Definition),具開放性的作品在散布上,應滿足「開放授權 」、「方便近用」、「開放格式 」三項條件,允許任何人都可以自由存取、使用、修改,以及分享,且最多僅受限於引註出處。

--【行政院數位發展部 政府開放資料】

2025/2/13

政府資料開放:
各機關以符合國際「開放定義」將政府資料以開放格式於網路公開,提供個人、學校、團體、企業或政府機關等使用者,依其需求連結下載及利用。
鏈結資料 (Linked Data):
  • 利用 URI 為事物命名
  • 以 HTTP 做為客戶端和伺服器端之間查詢及傳送URI的機制,使人或電腦可以查詢特定 URI 所代表事物的相關資訊
  • 伺服器端使用 RDF 與 SPARQL 等標準,提供更多的資訊。當伺服器端接獲客戶端對於特定 URI 的請求時,伺服器端會以標準格式將該 URI 所代表事物的相關資訊傳 回給客戶端。若客戶端是「人」,則伺服器端可回傳 HTML 格式的文件;若客戶端是「應用程式」,則伺服器端可回傳 RDF 格式的文件,以方便客戶端的應用程式再利用這些資訊
  • 對於特定 URI 所代表事物的相關資訊中,應包含與其他相關事物的連結(連結到該事物的 URI),使得事物間得以串連,以達成構築全域資料空間的目標

--【鏈結資料在圖書館的應用】

以統一識別碼(URI)為物件命名

以HTTP服務提供 URI 的查詢與資訊提供

特定 URI 的內容應保留連結到其他 URI 的連結

對於任意 URI 的資料請求,都以標準格式提供

對人使用 HTML

對機器使用機讀友善格式

成功大學

Q706708

國家 P17

中華民國

Q865

RDF 三元組資料結構示意

以 Wikidata 結構為例

以統一識別碼(URI)為物件命名

特定URI的內容應保留連結到其他URI的連結

以HTTP服務提供URI的查詢與資訊提供

Wikidata Query Service

以 SPARQL 語法做資料檢索

網際網路已成為人們取得資訊的主要來源,

如何取用與再利用、發現、整合網際網路上的資料並予以加值乃成為一項重要議題,

無論採用 Web Scraping 或 API 等技術都有其困難點,

語意網和鏈結資料乃因運而生。

尤其是鏈結資料,其為語意網的最佳實務,

具有極大的可實行性。

--【鏈結資料在圖書館的應用】

柯皓仁、陳亞寧

2013/11

鏈結開放資料(Linked Open Data,LOD):

就是鏈結資料(Linked Data,LD)與開放資料(Open Data,OD)等兩種概念的結合,即LOD=OD+LD。

相較這兩種資源類型,鏈結開放資料又綜合其優點。

讓資訊發揮其最佳的再利用性、資源間的串連功能。

--中央研究院鏈結開放資料平台

大漢溪

Q199374

河流

Q4022

P31

P31

三峽河

Q7419001

支流

P974

注入河流P403

大安圳

Q4022

注入河流P403

分流 P5998

人造水道

Q12284

橫溪

Q11122285

支流

P974

注入河流P403

P31

P31

支流

P974

湳仔溝

Q10395799

支流

P974

注入河流P403

內部語意連結鏈結外部的網際網路來源

使得各資料源、資料庫的資料能夠交互連結

Wikidata/Wikibase 作為 LoD 平台

Wikidata.org

是美國維基媒體基金會繼維基共享資源後

第一個跨語言專案

Q

Q

P

P

P

Q

P

P

P

在 Wikidata 結構中

陳述主要是透過屬性 (property) 串聯 Q 或 P 來完成詮釋

當然也有對應字串的屬性

但那多是用於陳述純數值或是特定內容

日益倍增且更加的資料存取需求

傳統的 Wikipedia 已經無法處理

Wikidata 透過結構化、鏈結資料的方式達到機讀友善

一個物件 (item,或稱條目)

一個屬性

維基百科基於人類閱讀的需求

使得部分瑣碎資料無法被獨立紀錄與分述

機讀對於關聯的需求更甚

Wikidata 得以收錄更細節更多元的內容

提供基礎資訊的建構

Wikidata 同時透過「亦稱為」一欄

以及多語言欄位

提供跨語言對照以及權威詞彙對照的功能

樂信·瓦旦

  • 音界號?
    • 樂信·瓦旦? 樂信‧瓦旦?
  • 拼寫不同或是各不同語言
    • Losing Watan 、樂信·瓦旦
  • 不同時期的姓名
    • 渡井三郎、日野三郎

語言欄位連結各語言與各通同名稱

並使用唯一識別碼互相溝通

提供權威對照的功能

Wikidata 透過 P279 這類型的屬性

來達成類似索引典的特性

來擴大與不同層級物件的互動可能性

那 Wikibase 呢 ?

Wikibase 是個自由且開源的軟體套件,於2012年由 德國維基媒體協會 所發布。

 

Wikidata 即是採用 Wikibase 技術所佈建的開放資料平台,各個機構也能夠過 Wikibase 構建出自己的 LoD 平台。

Q

Q

P

P

P

Q

P

P

P

在 Wikibase 結構中

陳述結構同樣為三元組結構

只要使用 Wikibase 即可建構一個專屬結構的LOD資料庫

歐盟知識圖譜 (EU Knowledge Graph)

Wikidata 應用於跨域資料檢索機制與案例

A資料庫

B資料庫

資料Z-B

資料Z-A

要確定兩者的通同性

就需要進行對照工作

在許多時候我們都可能需要進行資料庫對照

像是資料庫匯入、多資料庫整合等等

當只有兩個資料庫時

對照工作或許是可行的

但是當有數十個甚至更多的資料庫時...

同時對照工作還會牽涉到組織權責問題

大量增加成本跟可能的阻礙

A資料庫

B資料庫

資料Z-B

資料Z-A

加入 Wikidata 做為第三方

各資料庫之間對照只需要滿足與 Wikidata 之間的對照

就能在與其他資料庫進行對照

資料Z-W

QNNNNNNN

Wikidata

B資料庫

GeoNames

河川代碼

130000

1667049

頭前溪

Q8007827

Wikidata

XXXXX

OO部/OO署/OO公司

XXXXX

環境/水文/水保資料

XXXXX

文化/交通/觀光資料

在維基媒體計畫內部

Wikidata 也扮演著多語言/多計畫資料整合對照

A 資料庫

B 資料庫

Wikidata

Item

導出

應用

對照

跨域檢索

隨著資料的快速擴展

串聯多元資料庫/集將會是資料整合的關鍵

VIAF 成員內部對照與交互索引

早前VIAF是與英文維基百科進行對照

後來發現可能有不精準對應的問題

便改為與 Wikidata 對照

透過 Wikidata / Wikibase 串接 LOD 資源

再透過外部連結連結網際網路資源

建構整體機讀友善的資料源

Wikidata 人文應用案例

使用 wikidata 做為關鍵字檢索依據

基於 Wikidata 關鍵字的藏品後設資料撰寫平台

將文本資料庫化後

進行結構化資料的分析與圖像化

結構資料再處理與應用

MoMA 透過 Wikidata 與 Wikipedia 來提供基礎資訊

圖書館可以各自使用不同的,

唯一的或選擇的識別碼和權威控制方法來消除歧義。

Wikidata越來越成為一種重要的工具,可用於跨識別碼進行同步。

整合對 Wikidata 及其用於增強 metadata 和鏈結開放資料用途的認識將有助於推進更加互聯的研究網路。

-- Opportunities for Academic and Research Libraries and Wikipedia

2016 IFLA

Wikidata 可以有效降低打造 LoD 平台的成本

並擴展相關的應用

--ARL White Paper on Wikidata

2019

李梅樹紀念館官網中

提供有 Wikidataqid 對照

以 Wikidata 作為權威詞彙的對照基礎

資料庫不再只服務人

服務機器的資料庫將是趨勢

越來越多資料庫導入機讀特性

在提高閱覽次數的同時

也是改善後續維護的方式

在每天都有 480 萬與 922 萬個"機器人"

正看著 Wikidata 與 Wikipedia(zh)

同時機讀友善可創造

更多轉譯的可能性

除了與人協作以外

更是與機器人協作

從外部的跨資料庫連結

能夠用更低成本、低介入的方式來進行資料庫/集整合

Wikidata vs Wikibase

Wikidata

Wikibase

  • 資料轉匯入 Wikidata 串聯全球 LoD 與維基生態系
  • 資料與資料集透過 Wikidata 轉化成 LoD
  • 與全球維基社群共推開放
  • 資料與資料集透過 Wikibase 轉化成 LoD
  • 可自行設計資料格式、資料模型以及規章
  • 擁有較高的自由度
  • 全球社群共用平台,須遵循社群共識
  • 資料量過大可能會有資料汙染或是檢索效能偏低的問題(可透過本地備份解決)
  • 需自行維護平台、負擔軟硬體成本
  • 須注重資料與全球生態系的串聯
  • 需自行與全球鏈結資料生態進行資料對照
  • 可透過與 Wikidata 對照來提高全球資料能見度

謝謝大家

Wikidata 與一般資料庫的編輯差異

做為一個結構化資料、鏈結資料庫

使用方式是比較不一樣的

Wikidata 內容有三種

分別是

P

L

Q

Property

屬性

Lexeme

詞意/詞位

 

Item

物件

國家人權博物館(Q10926902)

該筆資料的統一編號

多語言說明欄

只要有填入對應語言就會依照填入值翻譯

目前支援 300+ 種語言

描述

用於分別其他同名資料

供編輯者辨別用

亦稱為

可用於辭彙對照用

描述非常重要可以迅速分別不同的同名物件

性質(P31):他是什麼東西?

圖片(P18):代表的圖片是?

成立或建立時間(P571)

國家(P17)

每一種P都有不同的用法

詳見每一條屬性的說明

但是主要分三類

P

國家人權館

Q199374

性質P31

博物館

Q33506

透過屬性連結兩個物件

EX:性質(P31)、國家(P17)

所在行政領土實體(P131)、輪椅使用性(P2846)

成立或建立時間P571

20180315

連結實際數值/內容

EX:官方名稱(P1448)、母語標籤(P1705)、地上層數(P1101)

 

國家人權館

Q199374

官方網站P856

連結外部連結與資料庫

EX:官方網站(P856)360°環景圖 (P5282)、

GeoNames編號 (P1566)、VIAF ID(P214)

WorldCat Identities ID P2326

國家人權館

Q199374

謝謝大家

Wikidata/Wikibase的運作以及在政府機構的運用

By allenwang6212

Wikidata/Wikibase的運作以及在政府機構的運用

  • 101