Wikidata
在數位人文的基礎概念與應用
Allen Wang
Wikidata Taiwan
人文研究與內容
內容
Content
人
People
紙本內容流通
內容
Content
人
People
數位時代下內容流通
後設資料
Metadata
搜尋引擎/機器
Search Engine/Bot
搜尋行為/資料存取
人為編寫/機器生成
Wikidata 簡介
Wikidata 用於資料識別與交換
Wikidata 人文應用案例與想像
Why Wikidata?
2012 年才成立的 Wikidata 為我們解決了什麼問題?
Wikidata.org
是美國維基媒體基金會繼維基共享資源後
第一個跨語言專案
日益倍增且更加的資料存取需求
傳統的 Wikipedia 已經無法處理
Wikidata 透過結構化、鏈結資料的方式達到機讀友善
維基百科基於人類閱讀的需求
使得部分瑣碎資料無法被獨立紀錄與分述
機讀對於關聯的需求更甚
Wikidata 得以收錄更細節更多元的內容
提供基礎資訊的建構
Wikidata v.s Wikipedia
Wikidata
全球最大的開放鏈結資料庫
Open Data
Linked Data
Linked Open Data
網際網路已成為人們取得資訊的主要來源,
如何取用與再利用、發現、整合網際網路上的資料並予以加值乃成為一項重要議題,
無論採用 Web Scraping 或 API 等技術都有其困難點,
語意網和鏈結資料乃因運而生。
尤其是鏈結資料,其為語意網的最佳實務,
具有極大的可實行性。
--【鏈結資料在圖書館的應用】
柯皓仁、陳亞寧
2013/11
開放資料 (Open Data):
以開放格式提供,採無償且不限制使用目的、地區及期間 ,並不可撤回之方式授權利用。
--【國家科學及技術委員會 政府資料開放行動策略】
2022/8/22
鏈結資料 (Linked Data):
-
利用 URI 為事物命名
-
以 HTTP 做為客戶端和伺服器端之間查詢及傳送URI的機制,使人或電腦可以查詢特定 URI 所代表事物的相關資訊
-
伺服器端使用 RDF 與 SPARQL 等標準,提供更多的資訊。當伺服器端接獲客戶端對於特定 URI 的請求時,伺服器端會以標準格式將該 URI 所代表事物的相關資訊傳 回給客戶端。若客戶端是「人」,則伺服器端可回傳 HTML 格式的文件;若客戶端是「應用程式」,則伺服器端可回傳 RDF 格式的文件,以方便客戶端的應用程式再利用這些資訊
-
對於特定URI所代表事物的相關資訊中,應包含與其他相關事物的連結(連結到該事物的URI),使得事物間得以串連,以達成構築全域資料空間的目標
--【鏈結資料在圖書館的應用】
以統一識別碼(URI)為物件命名
以HTTP服務提供URI的查詢與資訊提供
特定URI的內容應保留連結到其他URI的連結
對於任意 URI 的資料請求,都以標準格式提供
對人使用 HTML
對機器使用機讀友善格式
成功大學
Q706708
國家 P17
中華民國
Q865
RDF 三元組資料結構示意
以 Wikidata 結構為例
開放資料五顆星
-
導入唯一識別碼
-
不提供檢索演算法
-
三元組結構
-
權威詞彙機制
-
降低書寫與參考文獻要求門檻
-
CC0授權與全資料匯出
機讀友善
在達到這目的時
順便提供了很多維基百科沒有的功能
-
權威詞彙對照
-
跨資料庫對照
-
文本、文獻資料庫化
樂信·瓦旦
- 音界號?
- 樂信·瓦旦? 樂信‧瓦旦?
- 拼寫不同或是各不同語言
- Losing Watan 、樂信·瓦旦
- 不同時期的姓名
- 渡井三郎、日野三郎
語言欄位連結各語言與各通同名稱
並使用唯一識別碼互相溝通
提供權威對照的功能
A資料庫
B資料庫
資料Z-B
資料Z-A
要確定兩者的通同性
就需要進行對照工作
在許多時候我們都可能需要進行資料庫對照
像是資料庫匯入、多資料庫整合等等
當只有兩個資料庫時
對照工作或許是可行的
但是當有數十個甚至更多的資料庫時...
同時對照工作還會牽涉到組織權責問題
大量增加成本跟可能的阻礙
A資料庫
B資料庫
資料Z-B
資料Z-A
加入 Wikidata 做為第三方
各資料庫之間對照只需要滿足與 Wikidata 之間的對照
就能在與其他資料庫進行對照
資料Z-W
QNNNNNNN
Wikidata
B資料庫
在維基媒體計畫內部
Wikidata 也扮演著多語言/多計畫資料整合對照
A 資料庫
B 資料庫
Wikidata
Item
導出
應用
對照
跨域檢索
隨著資料的快速擴展
串聯多元資料庫/集將會是資料整合的關鍵
VIAF 成員內部對照與交互索引
早前VIAF是與英文維基百科進行對照
後來發現可能有不精準對應的問題
便改為與 Wikidata 對照
Wikidata 人文應用案例
使用 wikidata 做為關鍵字檢索依據
基於 Wikidata 關鍵字的藏品後設資料撰寫平台
將文本資料庫化後
進行結構化資料的分析與圖像化
結構資料再處理與應用
河川資料機讀應用
MoMA 透過 Wikidata 與 Wikipedia 來提供基礎資訊
圖書館可以各自使用不同的,
唯一的或選擇的識別碼和權威控制方法來消除歧義。
Wikidata越來越成為一種重要的工具,可用於跨識別碼進行同步。
整合對 Wikidata 及其用於增強 metadata 和鏈結開放資料用途的認識將有助於推進更加互聯的研究網路。
-- Opportunities for Academic and Research Libraries and Wikipedia
2016 IFLA
Wikidata 可以有效降低打造 LoD 平台的成本
並擴展相關的應用
--ARL White Paper on Wikidata
2019
李梅樹紀念館官網中
提供有 Wikidataqid 對照
OpenArtBrowser 基於 Wikidata 資料
藝術檢索平台
資料庫不再只服務人
服務機器的資料庫將是趨勢
越來越多資料庫導入機讀特性
在提高閱覽次數的同時
也是改善後續維護的方式
在每天都有1700萬"人"在看維基百科時
同時分別有個600多萬"機器人"
正看著 Wikidata 與 Wikipedia
同時機讀友善可創造
更多轉譯的可能性
除了與人協作以外
更是與機器人協作
縱使在機器人有能力自編自維護的狀態下
我們人反而有更加重要的角色。
只有透過人的文獻整理與細讀轉譯後,封存在類比文獻中的資料,才得以在數位鏈結的世界中,具有參與。
從外部的跨資料庫連結
能夠用更低成本、低介入的方式來進行資料庫/集整合
Wikidata 與一般資料庫的編輯差異
做為一個結構化資料、鏈結資料庫
使用方式是比較不一樣的
Wikidata 內容有三種
分別是
P
L
Q
Property
屬性
Lexeme
詞意/詞位
Item
物件
國家人權博物館(Q10926902)
該筆資料的統一編號
多語言說明欄
只要有填入對應語言就會依照填入值翻譯
目前支援 300+ 種語言
描述
用於分別其他同名資料
供編輯者辨別用
亦稱為
可用於辭彙對照用
描述非常重要可以迅速分別不同的同名物件
性質(P31):他是什麼東西?
圖片(P18):代表的圖片是?
成立或建立時間(P571)
國家(P17)
每一種P都有不同的用法
詳見每一條屬性的說明
但是主要分三類
P
國家人權館
Q199374
性質P31
博物館
Q33506
透過屬性連結兩個物件
EX:性質(P31)、國家(P17)
所在行政領土實體(P131)、輪椅使用性(P2846)
成立或建立時間P571
20180315
連結實際數值/內容
EX:官方名稱(P1448)、母語標籤(P1705)、地上層數(P1101)
國家人權館
Q199374
官方網站P856
連結外部連結與資料庫
EX:官方網站(P856)、360°環景圖 (P5282)、
GeoNames編號 (P1566)、VIAF ID(P214)
WorldCat Identities ID P2326
國家人權館
Q199374
謝謝大家
Wikidata 在數位人文的基礎概念與應用
By allenwang6212
Wikidata 在數位人文的基礎概念與應用
- 570