活用整個維基媒體與開放資料平台幫你建構地方資料集
王文岳 Allen Wang
Wikidata Taiwan
Open Data 談這麼久了所以他是什麼?
(政府)開放資料概念
數據公益?!
Open data is data that can be freely used, reused and redistributed by anyone - subject only, at most, to the requirement to attribute and sharealike.
開放資料指的是資料能被任何人自由地使用,重新使用與散佈 – 我們至多只能要求來源標示,與以相同方式分享
這麼多解決方案,為什麼要用維基媒體?
豐富的資料生態系
社群媒體作為資料平台的風險
數位時代下內容流通
搜尋行為/資料存取
人為編寫/機器生成
Wikidata 地方學聚會
轉譯地方志內容為鏈結資料
轉置地方志內容為結構化資料
開展更多應用的可能性
2021 Wiki x HPCP 臺中大茅埔在地工作坊
補充地景資料
在地語錄與發音採集
結構資料再處理與應用
開放鏈結資料維基媒體生態系
Wikidata.org
是美國維基媒體基金會繼維基共享資源後
第一個跨語言專案
在 Wikidata 裡面我們不再用散文的方式在紀錄資料
而是改變成為單字、片語的方式進行
讓跨語言的資料只需要翻譯單詞或片語
就能用最低的成本做到多語言呈現
trv
tay
szy
中華民國
教育部
教育部
性質
Q697093
P31
Q2269756
Mklawa ttgsa klwaan Cunghwu Minkwo
性質
教育部
Kyo’ikbu
性質
教育部
trv
tay
en
Ministry of Education (R.O.C)
instance of
ministry of education
維基百科基於人類閱讀的需求
使得部分瑣碎資料無法被獨立紀錄與分述
機讀對於關聯的需求更甚
Wikidata 得以收錄更細節更多元的內容
提供基礎資訊的建構
Wikidata 同時透過「亦稱為」一欄
以及多語言欄位
提供跨語言對照以及權威詞彙對照的功能
語言欄位連結各語言與各通同名稱
並使用唯一識別碼互相溝通
提供權威對照的功能
亦稱為 欄位同時也可以處理單一語言代碼下
多語言、多部落稱呼不同的問題
A資料庫
B資料庫
資料Z-B
資料Z-A
要確定兩者的通同性
就需要進行對照工作
在許多時候我們都可能需要進行資料庫對照
像是資料庫匯入、多資料庫整合等等
當只有兩個資料庫時
對照工作或許是可行的
但是當有數十個甚至更多的資料庫時...
同時對照工作還會牽涉到組織權責問題
大量增加成本跟可能的阻礙
A資料庫
B資料庫
資料Z-B
資料Z-A
加入 Wikidata 做為第三方
各資料庫之間對照只需要滿足與 Wikidata 之間的對照
就能在與其他資料庫進行對照
資料Z-W
QNNNNNNN
Wikidata
B資料庫
OSM
河川代碼
242000
10553609
花蓮溪
Q707891
Wikidata
XXXXX
阿美語/賽德克語/撒奇萊雅語/....
XXXXX
環境/水文/水保資料
XXXXX
文化/交通/觀光資料
在維基媒體計畫內部
Wikidata 也扮演著多語言/多計畫資料整合對照
隨著資料的快速擴展
串聯多元資料庫/集將會是資料整合的關鍵
非洲的伊博族也透過 Wikidata 建構伊博語資料集
並正在討論如何應用在未來的新專案「節錄維基百科」
排灣維基用戶組則透過 Wikidata Lexemes 功能
來保存排灣語中各語言的用法
過去我們也曾帶撒奇萊雅社群協助
翻譯 Wikidata 上面各 item 的名稱
使用 wikidata 做為關鍵字檢索依據
將文本資料庫化後
進行結構化資料的分析與圖像化
結構資料再處理與應用
MoMA 透過 Wikidata 與 Wikipedia 來提供基礎資訊
越來越多資料庫導入機讀特性
在提高閱覽次數的同時
也是改善後續維護的方式
在每天都有1300萬"人"在看維基百科時
同時分別有534萬與快896萬個"機器人"
正看著 Wikidata 與 Wikipedia
除了與人協作以外
更是與機器人協作