淺談數位人文應用工具
真理大學 資訊管理學系 王柳鋐 2022/11/9
F. H. H. Guillemard, (1886)
The cruise of the Marchesa to Kamschatka & New Guinea : with notices of Formosa, Liu-Kiu, and various islands of the Malay archipelago
Outline
- 數位人文的資訊技術視角
- 淺談文本資料處理
- 馬偕與牛津學堂計畫過去、現在、未來
瀏覽版
同步版
數位人文的資訊視角
數位人文是數位典藏的延伸
運用數位化技術,將歷史資料、文物轉換為數位格式,予以長久保存與應用。
什麼是數位典藏?
產生了許多metadata (詮釋資料)
metadata
實體文物數位化典藏
metadata
詮釋資料
大量數位化不僅將資料淹沒,如何駕馭詮釋資料也是問題
中國哲學書電子化計劃
中華電子佛典協會資料庫
大量的數位資料庫
搜尋?
資料來源: 項潔, 數位人文研究新趨勢, 2020
數位資料庫檢索的常態...
從資訊技術視角看,數位人文是...
將資訊科技運用於大量的數位史料
從中尋找脈絡
並讓研究者觀察脈絡、研究脈絡
資料來源: 項潔, 數位人文研究新趨勢, 2020
五股-中壢-竹塹-新港-內社
大漢溪:後埔-新莊-三角湧-大姑陷
基隆河:三重埔-水返腳-(嶺腳)基隆
新店溪:大龍峒-艋舺-新店
馬偕行腳熱區圖
地名
時序
情境
從文字中探索脈絡馬偕日記為例
從文字中探索脈絡CBETA
年代
從文字中探索脈絡CBETA
專有名詞、權威詞、規範資料庫(人、時、地、書目)
辭典
規範資料庫
命名實體 name entities
從文字中探索脈絡CBETA
統計
視覺化
參考文獻匯流
數位人文研究平台中研院
DocuSky 台大數位人文研究中心
數位人文學術研究平台
文本標記
統計分析
視覺化
可申請學術研習營(人文社會科學研究中心)
淺談文本資料處理
文本資料處理
資料收集
資料分析與結果呈現
資料爬蟲
資料爬蟲
資料清理
文本標記
文本標記
視覺化
資料分析
文本資料處理Web crawler
2.1 遍訪連結
建立待訪堆疊
1. 從一個網頁開始
2.2 擷取內容
3. 輸出結果(至檔案)
圖片來源1
圖片來源2
取得HTML回應碼
解析超連結
解析其他HTML元素
資料輸出
資料清理
資料散落於網頁時
文本資料處理
文本資料
權威詞
匯入研究平台
文本標記完成!
馬偕與牛津學堂
- 數位典藏計畫 (2002~2006) Dublin core
- Information Retrieval (2010~2013) 馬偕日記
馬偕與牛津學堂數位典藏計畫(1/2)
典藏數位化
馬偕日記全文檢索
地理資訊系統
馬偕與牛津學堂數位典藏計畫(2/2)
典藏數位
化
全文檢索
地理資訊系統
都柏林核心集 (Dublin Core)
:網路電子資源的資料格式(15個核心欄位)
QGIS, Google Map...
:需搭配「資訊擷取」技術
*非系統現有功能
傳統資料庫檢索技術
馬偕日記索引進行中
命名實體
馬偕日記IR-命名實體(1/6)
錯別字、同義詞(不同稱呼/不同翻譯)
專業術語
- 里腦,李流,流流(里漏)
台灣堡圖
1904
- 阿華, 嚴牧師; 蔥仔, 偕師母
馬偕日記IR-命名實體(2/6)
- 家人、學生、牧師、醫師
- 傳道旅行、教學、工作夥伴
分成13類
Previous work
五股-中壢-竹塹-新港-內社
大漢溪:後埔-新莊-三角湧-大姑陷
基隆河:三重埔-水返腳-(嶺腳)基隆
新店溪:大龍峒-艋舺-新店
馬偕行腳熱區圖
馬偕日記IR-命名實體(3/6)
地名
時序
情境
Previous work
荳蘭社
地理資訊
馬偕日記IR-命名實體(4/6)
75艘
- Coast Liner:海峽兩岸
- CargoShip
- Ocean Liner:遠洋航運
- 軍艦
- 英國皇家海軍
- 法國遠東艦隊
- 大日本帝國海軍
- 清國海關艦隊
河運船隻:沒有紀錄船名
La Galissonniere(76.62m) |
駕時、斯美
凌風號
清法戰爭
返回加拿大述職
未翻譯
誤翻
時間線圖
情境呈現
駕時、斯美:中央研究院近代史研究所, 清季中日韓關係史料-第七卷
Previous work
地理資訊
時間線圖
Galissonniere(4654噸,76m) |
Atalante(3825噸,68m) |
Waldensian(2256噸,101m) |
印度女皇號(5905噸,139m) |
凌風號(319噸,40m) |
Tolna(79噸,25m) |
Lynx(465噸,41m)
Bayard(6000噸,81m)
Cockchafer(465噸, 38m)
知識本體:共享
船名解析
馬偕日記IR-命名實體(5/6)
馬偕的書單: 牛津學堂的授課內容?
1891/3/31 北台灣宣教報告Vol 4, P. 71
我寄上一本小冊子,上面有我們所研讀討論的68個主題。我們每天花1至5小時在研讀教會歷史、聖經神學、生態、地理、天文學。
書名/雜誌/文章: 64
線上電子版本: 61 !!!
動物學
植物學
礦物學
體腔期刊?
of Popular Literature Science and Arts
馬偕的書單
馬偕日記IR-命名實體(6/6)
歷史事件 | 統計 | 說明 | 備註 |
---|---|---|---|
淡水下雪 | 36天 | 最長持續約10天 | 15年 |
地震 | 18次 | 1892/4/22 ...上午10點,一陣強烈的地震弄得燈前搖後晃等等。... | 台南大地震¹ |
颱風 | 23個 | 1892/9/7 ...整夜颱風肆虐。我的樓上房間搖得很厲害... 1890/7/18 ...颱風...的傷害,直徑有...五吋大的樹枝,...撕裂飛到一百碼遠... |
¹鄭世楠,葉永田(1989)西元1604年至1988年台灣地區地震目錄,中央研究院地球科學研究所研究計畫IES-R-661,8-10頁。
香港皇家觀象臺颱風路徑圖
泉州颱風網
馬偕日記IR-情境模板(1/2)
情境模板 Scenario Template
- 以「命名實體」為素材說故事
- 透過「時序性」的編排,表達「因果關係」
- 範例:行腳熱區
馬偕日記IR-情境模板(2/2)
名稱: string
概述: string
同行人員:Person[]
路線:Positon[]
交通工具:Vehicles[]
起始日期: {startDate, endDate}
事件: Event[]
人數統計: 提及的人數
ref:其他參考資料
宣道旅行
中壢、新竹、新港(後龍): 46次
獅潭: 12次到訪 ?
宜蘭: 28次到訪, 超過300天
地方文史學者
情境模板
1872/3/11~4/6: 往南確認宣教範圍,李庥牧師、德馬太醫師。最遠到埔里
1872/10/7~10/26:阿華,最遠到內社
1872/12/26~1873/14:巴克斯船長。新港社居民帶領下,探訪原住民部落。
1873/4/1~4/17:甘為霖牧師。在內社分開後,轉往獅潭底,大雪山
1873/5/21~1873/6/1:獅潭底原住民
1873/7/16~1873/7/25:領事巴伯,獅潭底
1873/10/1~1873/10/15:阿華已在獅潭底服事一段時間。10/10木造禮拜堂(建堂)
1873/11/25~1873/12/4:海關長(編註:淡水稅務司)好博遜。獅潭底。
1873/12/28~1873/1/6:阿華、學生同行,緊急前往處理許銳被殺的事件。
1874/3/25~1874/4/1:只到新港。(1874開山撫番)
1874/5/7~1874/5/15:獅潭戰事(不詳)
3000清兵鎮壓大豹社,月眉
拜訪竹塹官員(參考北台宣教報告Vol. 3 p.76)
感謝您的聆聽
基隆河畔
數位人文簡介
By Leuo-Hong Wang
數位人文簡介
2022/11 宗教系分享 數位人文工具
- 568