Allen Wang
Wikidata Taiwan
紙本內容流通
數位時代下內容流通
搜尋行為/資料存取
人為編寫/機器生成
2012 年才成立的 Wikidata 為我們解決了什麼問題?
Wikidata.org
是美國維基媒體基金會繼維基共享資源後
第一個跨語言專案
日益倍增且更加的資料存取需求
傳統的 Wikipedia 已經無法處理
Wikidata 透過結構化、鏈結資料的方式達到機讀友善
維基百科基於人類閱讀的需求
使得部分瑣碎資料無法被獨立紀錄與分述
機讀對於關聯的需求更甚
Wikidata 得以收錄更細節更多元的內容
提供基礎資訊的建構
全球最大的開放鏈結資料庫
網際網路已成為人們取得資訊的主要來源,
如何取用與再利用、發現、整合網際網路上的資料並予以加值乃成為一項重要議題,
無論採用 Web Scraping 或 API 等技術都有其困難點,
語意網和鏈結資料乃因運而生。
尤其是鏈結資料,其為語意網的最佳實務,
具有極大的可實行性。
--【鏈結資料在圖書館的應用】
柯皓仁、陳亞寧
2013/11
開放資料 (Open Data):
以開放格式提供,採無償且不限制使用目的、地區及期間 ,並不可撤回之方式授權利用。
--【國家科學及技術委員會 政府資料開放行動策略】
2022/8/22
鏈結資料 (Linked Data):
利用 URI 為事物命名
以 HTTP 做為客戶端和伺服器端之間查詢及傳送URI的機制,使人或電腦可以查詢特定 URI 所代表事物的相關資訊
伺服器端使用 RDF 與 SPARQL 等標準,提供更多的資訊。當伺服器端接獲客戶端對於特定 URI 的請求時,伺服器端會以標準格式將該 URI 所代表事物的相關資訊傳 回給客戶端。若客戶端是「人」,則伺服器端可回傳 HTML 格式的文件;若客戶端是「應用程式」,則伺服器端可回傳 RDF 格式的文件,以方便客戶端的應用程式再利用這些資訊
對於特定URI所代表事物的相關資訊中,應包含與其他相關事物的連結(連結到該事物的URI),使得事物間得以串連,以達成構築全域資料空間的目標
--【鏈結資料在圖書館的應用】
以統一識別碼(URI)為物件命名
以HTTP服務提供URI的查詢與資訊提供
特定URI的內容應保留連結到其他URI的連結
對於任意 URI 的資料請求,都以標準格式提供
對人使用 HTML
對機器使用機讀友善格式
Q706708
Q865
RDF 三元組資料結構示意
以 Wikidata 結構為例
開放資料五顆星
在達到這目的時
順便提供了很多維基百科沒有的功能
語言欄位連結各語言與各通同名稱
並使用唯一識別碼互相溝通
提供權威對照的功能
A資料庫
B資料庫
資料Z-B
資料Z-A
要確定兩者的通同性
就需要進行對照工作
在許多時候我們都可能需要進行資料庫對照
像是資料庫匯入、多資料庫整合等等
當只有兩個資料庫時
對照工作或許是可行的
但是當有數十個甚至更多的資料庫時...
同時對照工作還會牽涉到組織權責問題
大量增加成本跟可能的阻礙
A資料庫
B資料庫
資料Z-B
資料Z-A
加入 Wikidata 做為第三方
各資料庫之間對照只需要滿足與 Wikidata 之間的對照
就能在與其他資料庫進行對照
資料Z-W
QNNNNNNN
Wikidata
B資料庫
在維基媒體計畫內部
Wikidata 也扮演著多語言/多計畫資料整合對照
A 資料庫
B 資料庫
Wikidata
Item
隨著資料的快速擴展
串聯多元資料庫/集將會是資料整合的關鍵
早前VIAF是與英文維基百科進行對照
後來發現可能有不精準對應的問題
便改為與 Wikidata 對照
使用 wikidata 做為關鍵字檢索依據
基於 Wikidata 關鍵字的藏品後設資料撰寫平台
將文本資料庫化後
進行結構化資料的分析與圖像化
結構資料再處理與應用
河川資料機讀應用
MoMA 透過 Wikidata 與 Wikipedia 來提供基礎資訊
圖書館可以各自使用不同的,
唯一的或選擇的識別碼和權威控制方法來消除歧義。
Wikidata越來越成為一種重要的工具,可用於跨識別碼進行同步。
整合對 Wikidata 及其用於增強 metadata 和鏈結開放資料用途的認識將有助於推進更加互聯的研究網路。
-- Opportunities for Academic and Research Libraries and Wikipedia
2016 IFLA
Wikidata 可以有效降低打造 LoD 平台的成本
並擴展相關的應用
--ARL White Paper on Wikidata
2019
李梅樹紀念館官網中
提供有 Wikidataqid 對照
OpenArtBrowser 基於 Wikidata 資料
藝術檢索平台
越來越多資料庫導入機讀特性
在提高閱覽次數的同時
也是改善後續維護的方式
在每天都有1700萬"人"在看維基百科時
同時分別有個600多萬"機器人"
正看著 Wikidata 與 Wikipedia
除了與人協作以外
更是與機器人協作
縱使在機器人有能力自編自維護的狀態下
我們人反而有更加重要的角色。
只有透過人的文獻整理與細讀轉譯後,封存在類比文獻中的資料,才得以在數位鏈結的世界中,具有參與。
做為一個結構化資料、鏈結資料庫
使用方式是比較不一樣的
Property
屬性
Lexeme
詞意/詞位
Item
物件
國家人權博物館(Q10926902)
該筆資料的統一編號
多語言說明欄
只要有填入對應語言就會依照填入值翻譯
目前支援 300+ 種語言
描述
用於分別其他同名資料
供編輯者辨別用
亦稱為
可用於辭彙對照用
描述非常重要可以迅速分別不同的同名物件
性質(P31):他是什麼東西?
圖片(P18):代表的圖片是?
成立或建立時間(P571)
國家(P17)
每一種P都有不同的用法
詳見每一條屬性的說明
但是主要分三類
Q199374
Q33506
EX:性質(P31)、國家(P17)
所在行政領土實體(P131)、輪椅使用性(P2846)
20180315
EX:官方名稱(P1448)、母語標籤(P1705)、地上層數(P1101)
Q199374
EX:官方網站(P856)、360°環景圖 (P5282)、
GeoNames編號 (P1566)、VIAF ID(P214)
Q199374