王文岳 Allen

Wikidata Taiwan

Wikidata 基礎概念

只要三步驟,讓書籍變成資料集!

王文岳

  • Wikidata Taiwan 共同發起人
  • 立法院開放國會第一屆委員
  • 前台灣維基媒體協會秘書長
  • 李梅樹紀念館資訊組召集人

What is Wikidata?

維基百科(Wikipedia)你可能很常聽到

但維基數據(Wikidata)你有聽過嗎?

Wikidata.org

是美國維基媒體基金會繼維基共享資源後

第一個跨語言專案

這是維基媒體計畫概覽

大家所熟知的維基百科在左上角

Wikidata 跟維基百科一樣都是其中一個維基媒體計畫

維基百科是一本自由編輯的線上百科全書

Wikidata 是一本自由編輯的線上機讀百科全書

為什麼要做機讀?

人看的懂就好啦 為什麼要給機器看?

內容

Content

People

紙本內容流通

內容

Content

People

數位時代下內容流通

後設資料

Metadata

搜尋引擎/機器

Search Engine/Bot

搜尋行為/資料存取

人為編寫/機器生成

傳統文章的資料庫很依賴全文檢索
但全文檢索有時候會有奇怪的事情發生

你知道蔡英文已經於 2019 年過世了嗎?

一位是總統、一位是學者

同名同姓導致混淆

那你覺得問電腦淡水河在哪裡?

他會給你什麼呢?

上海?

廣西?

臺北?

還是臺灣的各個角落?

臺灣只有淡水河

沒有鹹水河喔!

維基

我曾經想說要去查跟維基有關的標案或是資料

你猜我用全文檢索找到什麼?

風力發電廠

因為他們的文件標題較做:

「風力發電廠運維基地建置」

你還能提一個因為斷字或是同名同姓

導致資料混淆的問題嗎?

那怎麼用機讀百科解決問題?

這兩個都是蔡英文,但是他們的識別碼不一樣

一個是 Q233984、一個是 Q55695180

識別碼做為一種脫離語言的標示資料方式

生活中最常見的識別碼就是你的身分證字號、悠遊卡卡號等

基本上不會重複在一個系統內都是獨一無二的

試著找一個你知道的識別碼告訴我

所以你設想一下你正在整理好幾本書的資料

結果三四本書的主角都叫「小明」

只要分別添加識別碼跟各自建檔

每一本不同的書裡面的小明就都是獨立的「小明」了!

好... 前面講多了

開始我們的三步驟

第一步

確定你的資料是已經公開且有地方能查詢到

像是在已經公開的網站、已經出版的書籍或是其他的資料庫

你能找到這些資料,你就能把這些資料放進 Wikidata

如果這個資料在你寫之前都還沒公開

那就不行!

還有未出版的書籍跟放在社群網站的資訊也都不行!

課程中的示範我就用鶯歌鎮志這本書的資料

同學也可以自己找書籍的內容來嘗試

如果找不到也可以直接用鶯歌鎮志或其他地方志的書

第二步

確定你的資料是不是只有一個概念

  • 你要寫的東西是一本書、一個人、一個檔案等等
  • 有些抽象概念可能是多個概念的疊合
  • 數位化檔案要注意檔案跟實體的概念是不一樣的

第三步

開始建構 Wikidata 條目!

完成後

你的資料就能以開放資料集的方式公開給全球

查詢與使用

可以透過現有的查詢範例

得到視覺化的資料呈現

或是下載成 Json 檔用在其他專案!

FB: @WikidataTW

有任何問題歡迎透過 SLACK 或是 FB 聯絡我們

我們每個月在台北摩茲工寮都會有定期月聚會

也歡迎參加!

【Wikidata】 只要三步驟,把書籍變成資料集

By allenwang6212

【Wikidata】 只要三步驟,把書籍變成資料集

  • 437