鏈結資料工作社群經驗

王文岳 Allen Wang

Wikidata Taiwan

在轉換(成鏈結資料工作流程的)期間
圖書館必須分出有限的人力來處理增量的資料但是卻同時也造成
人力的短缺來進行後設資料的建立。
在這樣的情境下,
鏈結資料(Linked Data)同時是問題的解答以及製造者。
鏈結資料系統到底是降低了人力的需求呢 ?
抑或將圖書館的工作拓展至更多元的資料建立、
數據鏈結機會並終將導致人力需求的提升 ?
至今為止對鏈結資料所做出的努力是否已經建立足夠的高品質資產 ?
畢竟只有超越臨界數量,一般大眾才能在搜尋引擎上發現
並體驗圖書館的蒐藏。

--摘自【透過 Wikibase 建立屬於圖書館的鏈結資料 Passage 專案的成果 臺灣譯本 簡介】

他認為這項工作的困難之處在於歷時冗長且隱晦不可見的實踐過程,
且在中短期內難以有可見的實質回饋。對於藝術工作者來說,
缺乏了開放的動力;於贊助者而言,也缺乏投注資源的意願。
此外,複雜的著作權與財產權也讓這件工作的門檻提升,因為大多數的藝文機構仍只是「藏有」而非「擁有」作品的權利。

--摘自【【開放文化專題】一個私人美術館的開放
實踐經驗:李梅樹紀念館維基館藏數位開放計畫

這問題困擾了大多數的圖書館在鏈結資料運動的努力。
為了獲取所需之資源,領銜者必須先證明採用鏈結資料價值,
而其價值的證明卻也需要先前投資才能進行。

--摘自【透過 Wikibase 建立屬於圖書館的鏈結資料 Passage 專案的成果 臺灣譯本 簡介】

畢竟只有超越臨界數量
一般大眾才能在
搜尋引擎上發現
並體驗圖書館的蒐藏。

--摘自【透過 Wikibase 建立屬於圖書館的鏈結資料 Passage 專案的成果 臺灣譯本 簡介】

但,什麼是超臨界數量?

李梅樹紀念館與新樂園藝術空間的維基操作經驗

李梅樹紀念館維基館藏開放計畫 ( 2018 - 2019 )

藝術資料的結構化想像:

新樂園藝術空間歷史資料為例 ( 2020 - 2021 )

藝術資料的結構化應用:
從檔案館、美術館、藝術機構操作挑戰談起 ( 2021 - 2022 )

臺灣替代空間藝術資料庫建置計劃:維基數據與 Wikibase 技術應用前期研究 ( 2022 - 2023 )

2018 李梅樹維基館藏開放計畫

透過畫作講解與維基工作坊

進行 metadata、open data

概念講解與教學

新樂園藝術空間 Wikidata 系列合作

2020 ~

從新樂園藝術空間出發

透過社群熱度營造、社群需求探索以及持續不斷的工作坊

彙編臺灣各類型藝術家、藝術文獻

工作策略比較

畫作物件CC開放至維基共享資源

展訊與藝術家資訊彙整至 Wikidata

同步完成畫作物件的 Wikidata 註錄

彙整資料收錄於Wikidata 方法論

籌備公開工作坊與公開演講展示工作成果

以內部工作人員工作坊為主進行內部資料彙整與公開

李梅樹紀念館

新樂園藝術空間

兩案在資料面的成果

李梅樹紀念館

新樂園藝術空間

約 700 筆

檔案CC開放

約 1000 筆

檔案主題

畫作與活動照片

活動照片為主

Wikidata
建置

約 25000+ 筆

約 500 筆

Wikidata
主題

藝術家、展覽、文獻

畫作藏品

輔以文獻

建置時間

2018 - 2019

2020 - 2023

Open Art Browser 上的 李梅樹

數量可能不是展示在大眾面前的唯一因素
但如何打造資料使用生態系
卻是一大影響

Wikidata 潛在的問題:

  • 作為公共資料庫、知識庫或目錄有共同規則須遵守
  • 在資料撰寫的自由度不如傳統資料庫
  • 學習共同編輯規則有潛在的學習成本
  • 若未跟隨主流編寫規則可能影響資料被查找的效度
  • 無法收錄第一方文獻或是原創資料

導入 Wikibase 作為
私有資料庫的可能性...

自建 Wikibase 的優勢:

  • 獨立設計資料結構、自由度高
  • 原創研究可透過自建 Wikibase 發布
  • 小誌、未編目文件可透過自建 Wikibase 發布

自建 Wikibase 的劣勢:

  • 需要計入資料庫維運成本
  • 自建 Wikibase 可能需要自行建立資料應用生態系
  • 獨立設計資料結構也是潛在城堡

自建 Wikibase 私目錄

同步 Wikidata 公目錄

小結

已有許多研究發現 Wikidata/Wikibase 能提高 LLM 正確率

Wikidata 作為全球性的鏈結開放資料庫
資料在其中的占比與影響力也會影響 AI 以及後世研究

Wikidata/Wikibase 可以透過較低的成本轉化既有資料
讓其能以鏈結資料方式再發布擴展可用性

雖然無法真的知道超臨界數量是多少

但是透過系統化的資料集與推廣應用

就能很快速的拓展資料的應用面向

謝謝大家

鏈結資料工作社群經驗

By allenwang6212

鏈結資料工作社群經驗

  • 60