數位人文概論

Lesson 3: 文本分析與視覺化

Last Updated: 2019/10/17

Outline

數位人文：借助數位科技工具的人文研究
文本收集與管理
- 高效筆記術 by Evernote
- 共筆系統：以Google文件為例
文本分析
- 斷詞、標記、統計
網路分析
視覺化
- 文字雲
- 網絡分析圖
- 時間線圖

文本收集馬偕數位典藏計畫(1/3)

http://mackay.ascdc.sinica.edu.tw/mackay/

文本收集

文本收集里德學院數位典藏(2/3)

https://www.reed.edu/formosa/formosa_index_page/formosa_index.html

https://rdc.reed.edu/c/formosa/home/

文本收集

http://dtrap.lib.ntu.edu.tw/DTRAP/index.htm

文本收集深化台灣核心文獻(3/3)

文本收集

文本分析

"我和順仔早上5點登上「福建號」"

斷詞

原文

我和順仔早上 5點登上福建號

https://pngwebhost.com/template2/img/traffic-stats.png

文本資料來源

馬偕日記中譯本
- 30年、10141篇日記
內容分析Content Analysis
- 斷詞、詞性標記
  - 人物、地點
- 解讀
  - 詞頻統計、分群
社會網路分析Social Network Analysis
- 詞與詞、群與群的關聯

http://www.tipi.com.tw/images/proimg/DoMCase-%E5%B0%8F-ss.jpg

http://ox.epage.au.edu.tw/ezfiles/278/1278/pictures/45/part_43922_9440244_30942.jpg

文本分析

文本分析斷詞與標記 (1/5)

"我和順仔早上5點登上「福建號」"

我和<person>順仔</person>早上5點登上「<ship>福建號</ship>」

斷詞

標記

原文

我和順仔早上 5點登上福建號

專業術語

r c nr t t v nr

詞性

文本分析

文本分析斷詞與標記 (2/5)

拜訪我普林斯頓神學院的老同學麥克切斯尼先生和幾位宣教師。晚上介紹加拿大，哈巴安德醫師翻譯

斷詞

困難: 斷詞錯誤雜訊

"拜訪我普林斯頓(Princeton)神學院的老同學麥克切斯尼(McChesney)先生和幾位宣教師。晚上介紹加拿大，哈巴安德醫師翻譯。"

Icons made by Freepik from www.flaticon.com

Icons made by Eucalyp from www.flaticon.com

自訂辭典

停用字列表

普林斯頓

老同學

麥克切斯尼先生

哈巴安德醫師

宣教師

我

的

和

晚上

幾位

拜訪普林斯頓神學院老同學麥克切斯尼先生宣教師。介紹加拿大，哈巴安德醫師翻譯

文本分析

文本分析斷詞與標記 (3/5)

困難: 錯別字、同義詞(不同稱呼/不同翻譯)

Icons made by Eucalyp from www.flaticon.com

拜訪南勢番(南方的原住民)，在包干、李流(Li-lau)，薄薄、斗蘭(Tau-lan)和七腳川拍了一些照片。

台灣堡圖

1904

我們拜訪流流、薄薄、里腦，又回到大社

問題：究竟是里腦,李流還是流流？

不同翻譯

回到五股坑，蔥仔在前往領事館費里德(A.Frater)先生那裡後和我們一起。

和偕師母及閏虔益一起到五股坑，然後去洲裡，在晚上回來。

同義詞

專家

修正與建議

里漏社

文本分析

"""
詞頻統計－不含詞性標記，使用jieba斷詞，載入自定義辭典，自訂停用字
"""
import jieba
import jieba.analyse
import csv
import collections

def readFile(fname):
    my_dict = dict()    # 建立空字典
    with open(fname, encoding="UTF-8") as file:
        rows = csv.reader(file)    # 讀取所有內容產生串列
        for r in rows:             # 建立字典
            my_dict[r[0]] = r[1]
    return my_dict

# 步驟一：讀取日記，建立字典、停用字
diary = readFile('Data/MackayFull.csv')
stop_word = []
# 從檔案讀取停用字
with open("Data/stopword.utf8.txt", encoding="UTF-8") as stop:
    rows = stop.readlines()
    for r in rows:
        stop_word.append(r.strip())
jieba.load_userdict('Data/wordsMackay.utf8.txt')    # 載入自定義辭典
# 步驟二：詞頻統計
word_count = dict()    # 統計字典初值設定
for key, value in diary.items():
    words = jieba.cut(value)    # 對每一篇日記斷詞
    for w in words:         # 處理當天的斷詞結果
        if (w in stop_word or w == ' ' or w == '　' or w.isdigit()):    # 移除停用字
            continue
        if (word_count.get(w) == None):  # 詞不在字典裡
            word_count[w] = 1    # 建立字典項目, 詞頻為1
        else:                    # 詞在字典項目裡
            word_count[w] += 1   # 詞頻加1
# 步驟三：重新排序：根據頻率高低
sorted_w = sorted(word_count.items(), key=lambda kv: kv[1], reverse=True)
# 步驟四：寫出檔案
with open('output_notag.csv', 'w', encoding="UTF-8", newline='') as csvfile:    
    writer = csv.writer(csvfile) # 建立 CSV 檔寫入器    
    writer.writerow(['詞彙', '頻率'])  # 寫入標題列
    # 寫入詞頻統計資料
    for item in sorted_w:
        writer.writerow([item[0], item[1]])

Demo01:詞頻統計-不含詞性

需先安裝斷詞模組jieba

pip install jieba

使用Python程式對文章做詞頻統計
- 資料檔MackayDemo.csv，含自定義辭典、停用字列表

文本分析實作 (4/5)

文本分析

Python程式

停用字列表

自定義辭典

文本

Q: 有無改善空間?

輸出檔csv

注意：輸出檔output_notag.csv(或output.csv)為utf8編碼

Excel直接開啟會顯示亂碼

❶先用記事本打開

❷檔案/另存新檔

❸選取ANSI編碼後存檔

文本分析

### 使用外部模組jieba進行中文斷詞, jieba.posseg標記詞性
import jieba
import jieba.analyse
import jieba.posseg as posseg
import csv
import collections

def readFile(fname):
    my_dict = dict()    # 建立空字典
    with open(fname, encoding="UTF-8") as file:
        rows = csv.reader(file)    # 讀取所有內容產生串列
        for r in rows:             # 建立字典 
            my_dict[r[0]] = r[1]
    return my_dict
# 步驟一：讀取日記，建立字典
diary = readFile('Data/MackayDemo.csv')
stop_word = []
with open("Data/stopword.utf8.txt", encoding="UTF-8") as stop:
    rows = stop.readlines()
    for r in rows:
        stop_word.append(r.strip())
jieba.load_userdict('Data/wordsMackay.utf8.txt')
# 欲省略的詞性列表
pos = {'u': '語助詞', 'r': '代名詞', 'd': '副詞', 'uj': '語助詞', 'c': '連接詞',
       'm': '數詞', 'p': '介詞', 'j': '簡稱', 'y': '語氣詞'}

# 步驟二：詞頻統計
word_count = dict()    # 詞頻統計字典
for key, value in diary.items():
    words = posseg.cut(value)   # 對每一篇日記斷詞，標記詞性
    for w in words:         # 處理每天的斷詞結果
        word = w.word
        if (word in stop_word or word == ' ' or word == '　' or word.isdigit()):    # 移除停用字
            continue
        if (w.flag in pos):  # 忽略的詞性
            continue
        if (word_count.get(w) == None):  # 詞不在字典裡
            word_count[w] = 1    # 建立字典, 詞頻為1
        else:                    # 詞在字典裡
            word_count[w] += 1   # 詞頻加1
# 步驟三：重新排序（根據頻率高低）
sorted_w = sorted(word_count.items(), key=lambda kv: kv[1], reverse=True)  # 排序

# 步驟四：輸出詞頻到檔案
with open('output.csv', 'w', encoding="UTF-8", newline='') as csvfile:
    writer = csv.writer(csvfile)    # 建立 CSV 檔寫入器
    writer.writerow(['詞彙', '頻率', '詞性'])  # 寫入標題列
    for item in sorted_w:    # 寫入統計資料列
        writer.writerow([item[0].word, item[1], item[0].flag])

Demo02:詞頻統計-含詞性

詞性標記jieba.posseg

使用Python程式對文章做詞頻統計與「詞性標記」
- 資料檔MackayDemo.csv

文本分析實作 (5/5)

q: 數量詞

v: 動詞

nr: 人名

n: 名詞

t: 時間詞

文本分析

沒有詞性

刪除部份詞性

刪除更多詞性

Q: 有無改善空間?

哪些詞性應該刪除?

分組實作

程式：Demo02詞頻統計(含標記)
- 操作：請修改所使用的「資料檔檔名」

文本分析

檔名	日期	說明
MackayFull.csv	1871~1901	全部日記內容
MackayFirst.csv	1871~1879	第一階段 in 台灣
MackayCan01.csv	1880~1881/11/7	第一次返國 in 加拿大
MackaySecond.csv	1881/11/8~1893/8/18	第二階段 in台灣
MackayCan02.csv	1893/8/19~1895/10/13	第二次返國 in 加拿大
MackayThird.csv	1895/10/14~1901	第三階段 in 台灣

...
# 步驟一：讀取日記，設定停用字、自定義辭典
diary = readFile('Data/MackayFull.csv')
...

資料視覺化 Part I

文字雲：詞彙與詞頻

視覺化

資料視覺化什麼是文字雲(1/8)

文字雲

關鍵字以視覺提示(如大小，顏色，形狀) 的方式呈現
能快速聚焦於文件主要內容(關鍵字, 趨勢, 概念)

視覺化

用途

寫作能力的提昇（例：將自己的文章製作為文字雲）
閱讀分析（例：將講稿製作為文字雲）
寫作提示（使用排名前10位的關鍵字寫一個故事）

資料視覺化什麼是文字雲(2/8)

關鍵字該是哪些？重要性？

次數越多的詞?
- 可根據詞性過濾?
- 詞性標記正確嗎?
重要性=詞頻?
- 學堂 vs 汽船

Answer: Case by case!

正規化(normalization)很重要

視覺化

資料視覺化文字雲工具(3/8)

https://wordart.com/

註冊

視覺化

資料視覺化文字雲工具(4/8)

❶ 新增資料夾

❷ 點選資料夾

❸ 創建文字雲

視覺化

資料視覺化文字雲工具(5/8)

❶ 載入關鍵字

❷ 貼上「詞」、「頻率」

視覺化

❸ 匯入

資料視覺化文字雲工具(6/8)

視覺化

❹ 前往Google Noto Font網站下載免費中文字型

https://www.google.com/get/noto/

資料視覺化文字雲工具(7/8)

視覺化

❺ 載入中文字型

任選ㄧ.otf檔

資料視覺化文字雲工具(8/8)

視覺化

❻ 檢視文字雲

資料視覺化文字雲應用(1/4)

視覺化

原始頻率

資料檔案：MackayFull.csv

處理方式：詞頻統計

擷取頻率100次以上的字詞

學堂、醫館、禮拜堂: 工作地點
講道、聚會、禮拜: 馬偕博士的日常
艋舺、雞籠: 經常到訪的地點
玖仔、叡廉、禮德醫師、阿華: 互動的人物

觀察

Case 1: 高頻字詞

資料視覺化文字雲應用(2/4)

視覺化

正規化

=STANDARDIZE(頻率, 平均, 標準差)

=AVERAGE(所有頻率值)

=STDEV.P(所有頻率值)

移除字詞

Case 1-1: 高頻字詞

修正1-頻率正規化: 根據頻率計算Z分數

修正2-移除部分字詞

Z分數：Excel功能standardize(), average(), stdev.p()

中頻字詞浮現: 生病、教會、上帝

資料視覺化文字雲應用(3/4)

視覺化

Case 2: 含詞性字詞

資料檔案：MackayFirst.csv

處理方式：詞頻統計含詞性

頻率5次以上，不分詞性，共998個詞(共6197個詞)

地點: 五股坑、八里坌、大龍峒、洲裡、三重埔、滬尾、新港、竹塹、中壢

人名: 閏虔益、李庥

資料視覺化文字雲應用(4/4)

視覺化

Case 2-1: 含詞性(只有名詞)

資料檔案：MackayFirst.csv

處理方式：詞頻統計含詞性

頻率3次以上，名詞，共598個詞(名詞2582個詞)

字詞不重複, 大小由頻率決定

What's New?

社會網路分析Social Network Analysis

網路分析

https://images.freeimages.com/images/premium/previews/2254/22544377-social-network.jpg

Outline

基本概念：社會關係圖(sociogram)
社會網路分析實作

社會網路分析簡介

一種定量分析方法：使用數學工具如圖論等進行分析
目的：解析社會結構(如找出領導者、意見領袖、邊緣者、群組、不對稱或互惠關係...)
有時也稱為「社會關係圖」(sociograms)

https://images.freeimages.com/images/premium/previews/2254/22544377-social-network.jpg

社會網路

節點

關聯

網路分析

社會網路分析sociogram應用範例

小朋友的交友情況解析

https://www.parenta.com/2018/10/01/how-to-use-sociograms-to-support-children-struggling-to-make-friends/

連線：透過觀察或是直接詢問小朋友

Q: 誰比較邊緣？為什麼？

網路分析

主角分析 (冰與火之歌第三部：劍刃風暴)

https://www.npr.org/2016/04/16/474396452/how-math-determines-the-game-of-thrones-protagonist

連線：共同出現的次數

(兩個名字在15個字的距離內)

社會網路分析sociogram應用範例

(1) 107個角色, 353個邊

(2) 找出7個群組

(3) 使用6種「中心性」公式計算每

個角色的重要性

Q. 前三名主角是？

Tyrion, Jon, Sansa

網路分析

社會網路分析與日記內容分析有何關係？

網路分析

Q: 如果字詞是「節點」，字詞間的「共同出現」代表「關聯」？

「共同出現」：出現於同一句子、或同一文章)

我和順仔早上 5點登上福建號

順仔

早上

福建號

社會網路

社會網路分析實作

社會網路: 由圖 G=(V, E) 構成, 其中

節點V：actors(角色)
連線E：relations(關聯)
通常可用關聯矩陣表示

關聯矩陣

節點

關聯: 0 不相連, 1 相連

社會網路

節點

網路分析

社會網路分析實作

馬偕日記內容的

節點V：字詞(人名、地名...)
關聯E：出現於同一篇日記

網路分析

日記字詞: 可分為13類

社會網路: 單一類(例: 人名共同出現)

兩類字詞(例: 人名-地名)

網路分析

# 共同出現於同一天日記
import jieba
import jieba.analyse
import csv
import collections

def readFile(fname):
    my_dict = dict()    # 建立空字典
    with open(fname, encoding="UTF-8") as file:
        rows = csv.reader(file)    # 讀取所有內容產生串列
        for r in rows:         # 建立字典
            my_dict[r[0]] = r[1]
    return my_dict
# 步驟一：讀取日記，建立字典
diary = readFile('Data/MackayDemo.csv')
stop_word = []       # 1-1 停用字
with open("Data/stopword.utf8.txt", encoding="UTF-8") as stop:
    rows = stop.readlines()
    for r in rows:
        stop_word.append(r.strip())
jieba.load_userdict('Data/wordsMackay.utf8.txt')    # 1-2 自定義辭典
# 步驟二：共同出現統計
word_count = dict()    # 統計字典初值設定
co_occu = dict()
for key, value in diary.items():
    words = jieba.cut(value)    # 對每一篇日記斷詞
    for w1 in words:         # 處理當天的斷詞結果
        if (w1 in stop_word or w1 == ' ' or w1 == '　' or w1.isdigit()):    # 移除停用字
            continue
        for w2 in words:
            if (w2 in stop_word or w2 == ' ' or w2 == '　' or w2.isdigit()):    # 移除停用字
                continue
            if (w1 == w2):
                continue
            w = (w1 + ' ' + w2) if (w1 < w2) else (w2 + ' ' + w1)
            if (word_count.get(w) == None):  # 詞不在字典裡
                word_count[w] = 1    # 建立字典項目, 詞頻為1
            else:                    # 詞在字典項目裡
                word_count[w] += 1   # 詞頻加1
# 步驟三重新排序：根據頻率高低
sorted_w = sorted(word_count.items(), key=lambda kv: kv[1], reverse=True)
# 步驟四：輸出
with open('output_co_occu.csv', 'w', encoding="UTF-8", newline='') as csvfile:
    writer = csv.writer(csvfile)  # 建立 CSV 檔寫入器
    writer.writerow(['詞彙', '頻率'])  # 寫入標題列
    # 寫入詞頻統計資料
    for item in sorted_w:
        writer.writerow([item[0], item[1]])

Demo03:共同出現-同一篇

社會網路分析結果

網路分析

Gephi

關於Gephi

資料視覺化軟體gephi

https://gephi.org/

資料視覺化軟體gephi

匯入資料
視覺化設定：layout演算法
調整顏色與大小：ranking模組
計算重要性評量「指標」：statistics模組
文字標籤
群組偵測：statistics模組
設定過濾方式：過濾器(filter)
預覽

示範資料：https://gephi.org/datasets/LesMiserables.gexf

資料視覺化軟體匯入資料

支援格式：

GEXF
CSV
GraphML
GML
...

有無方向性

節點數量

邊的數量

layout演算法

大小、顏色（Ranking功能）

指標計算

（統計模組）

過濾功能

（Fiilter）

標籤、大小...

指標計算參考：淺談社會網路分析（中心性計算）

資料視覺化 Part III

時間線圖 (Timeline)

https://cdn.elearningindustry.com/wp-content/uploads/2013/11/top-10-free-timeline-creation-tools-for-teachers-1.jpg

時間線圖

時間線圖介紹(1/9)

時間線圖

Q1：文字年表的問題？

Q2：資料如何自動產生？資訊擷取

時間線圖介紹(1/9)

時間線圖

資訊快速呈現的方法：時間線圖(Timeline)

事件概述、議程/行程、突顯重要時間點、揭示重要訊息

https://venngage.com/blog/timeline-template/

https://uc.udn.com.tw/photo/2020/02/07/draft/7430049.jpg

時間線圖介紹(2/9)

時間線圖

更多範例:

36種時間線圖範例 https://venngage.com/blog/timeline-template/

線上製作時間線圖

https://www.sutori.com/

時間線圖工具介紹(3/9)

https://timeline.knightlab.com

西北大學Knight lab發展的Timeline JS工具

時間線圖

時間線圖建立Timeline(4/9)

❶ 複製Google試算表範例

事件一

事件二

開始日期時間

結束日期時間

❷ 設定每個事件的時間

時間線圖

時間線圖建立Timeline(5/9)

事件標題

事件說明

媒體網址

標示來源

圖說

❸ 輸入每個事件的標題、說明、多媒體...

時間線圖

時間線圖建立Timeline(6/9)

❹ 將Google試算表發布到網路

❺ 複製試算表網址

時間線圖

時間線圖建立Timeline(7/9)

❻ 試算表網址貼到Timeline官網

貼上試算表網址

有許多微調設定(可不設定)

時間線圖

時間線圖建立Timeline(8/9)

❼ 完成時間線圖(可分享、或內嵌到網頁)

產生的試算表網址

產生的iframe標籤，可內嵌至網頁

預覽按鈕

時間線圖

下列建議僅包括馬偕史料，期末報告題目不在此限
- 從牛津學堂到真理大學(追本溯源)
- 設教建堂(宗教經營管理)
- 馬偕的書單(教育、學習管理)
- 馬偕與清法戰爭(決策)
- 出航
  - 第一位環遊世界的台灣女性
- 宣教旅行(宗教經營管理)
  - 宜蘭線
  - 新竹-苗栗線
  - 淡水河流域

時間線圖主題發想馬偕史料(9/9)

用資料說故事Storytelling

https://www.fusioncharts.com/blog/wp-content/uploads/2018/01/Storytelling-with-Data-Visualization-in-Marketing-1024x381.png

用資料說故事

劇本結構 + 視覺技巧 = 好的視覺故事

下單數量

處理數量

2位員工5月離職；6,7月勉強應付。但8月數量增加後便無法應付，之後再也趕不上進度

圖片來源

學會三個簡單步驟，你也可以是說故事高手

掌握情境

善用視覺

故事結構

步驟一：找出故事的情境

故事走向：砂礫中找珍珠 vs 展示珍珠項鍊

對象是誰

現況如何？反差何在？

如何弭平反差？

步驟二：用「三幕劇」手法說故事

佈局-衝突-結局

佈局

圖片來源

戲劇張力

主角心境

第一幕

第二幕

第三幕

圖片來源

數位人文概論

Outline

文本收集馬偕數位典藏計畫(1/3)

文本收集里德學院數位典藏(2/3)

文本收集深化台灣核心文獻(3/3)

文本分析

文本資料來源

文本分析斷詞與標記 (1/5)

文本分析斷詞與標記 (2/5)

文本分析斷詞與標記 (3/5)

文本分析實作 (4/5)

文本分析實作 (5/5)

分組實作

資料視覺化 Part I

資料視覺化什麼是文字雲(1/8)

資料視覺化什麼是文字雲(2/8)

資料視覺化文字雲工具(3/8)

資料視覺化文字雲工具(4/8)

資料視覺化文字雲工具(5/8)

資料視覺化文字雲工具(6/8)

資料視覺化文字雲工具(7/8)

資料視覺化文字雲工具(8/8)

資料視覺化文字雲應用(1/4)

資料視覺化文字雲應用(2/4)

資料視覺化文字雲應用(3/4)

資料視覺化文字雲應用(4/4)

社會網路分析Social Network Analysis

Outline

社會網路分析簡介

社會網路分析sociogram應用範例

社會網路分析sociogram應用範例

社會網路分析與日記內容分析有何關係？

社會網路分析實作

社會網路分析實作

社會網路分析結果

關於Gephi

資料視覺化軟體gephi

資料視覺化軟體gephi

資料視覺化軟體匯入資料

資料視覺化 Part III

時間線圖介紹(1/9)

時間線圖介紹(1/9)

時間線圖介紹(2/9)

時間線圖工具介紹(3/9)

時間線圖建立Timeline(4/9)

時間線圖建立Timeline(5/9)

時間線圖建立Timeline(6/9)

時間線圖建立Timeline(7/9)

時間線圖建立Timeline(8/9)

時間線圖主題發想馬偕史料(9/9)

用資料說故事Storytelling

明快的文字搭配清楚的圖片是講述故事的不二法門

你能用圖文並茂的方式講述你所挖掘的故事嗎

但是我故事講的不好，也只會PPT—還是用項目符號條列重點的那種

劇本結構 + 視覺技巧 = 好的視覺故事

學會三個簡單步驟，你也可以是說故事高手

步驟一：找出故事的情境

步驟二：用「三幕劇」手法說故事

佈局-衝突-結局