用R爬各式各樣的網站

天下雜誌資料記者林佳賢

我工作都在做什麼事

爬資料
清理資料
分析資料

一開始，爬資料的時間佔了九成

後來，爬資料的時間慢慢減少到三成

爬資料是資料分析過程中訓練起來最有效的部分

對新手來說，爬資料跟魔法一樣
但整個過程其實都是SOP
熟練之後，爬資料就是執行例行公事

為何用R?

library很多
有好用的IDE
爬完資料後的資料清理與分析很好用

爬資料可以大致分成三種

靜態url
靜態api
動態自動瀏覽器

靜態url

網址就是內容本身
網址會隨著內容作微調
爬資料裡最簡單的一種

首先，觀察要爬的網站

這是蘋果日報即時新聞的網站

網址長這樣

http://www.appledaily.com.tw/realtimenews/section/new/

目標是把每則新聞的標題和內文爬下來

首先要取得所有新聞的超連結

我們需要這些文字的超連結

使用Rvest

library(rest)

# 讀取剛剛圖片的頁面
doc <- read_html("http://www.appledaily.com.tw/realtimenews/section/new/")

# 選取所有highlight的文字，這裡使用Chrome的檢查功能，觀察要選取的文字的css selector

article_title <- html_nodes(doc, ".rtddt:not(.blog) a")

# 選取所有要的文字之後，把這些文字的「超連結」拿出來

article_link <- html_attr(article_title, "href")

取得的網址長這樣

這樣只是蘋果即時新聞的第一頁

第二頁的網址長這樣

http://www.appledaily.com.tw/realtimenews/section/new/2

http://www.appledaily.com.tw/realtimenews/section/new

兩頁網址的比較

第二頁就是網址後面多一個2，我們就能自己創造出100頁的網址

使用Rvest

library(rest)

# 生成46頁的即時新聞
base_url <- "http://www.appledaily.com.tw/realtimenews/section/new/"
page_link <- paste0(base_url, 1:46)

# 先生成一個空的串列等等要放全部的文章連結
total_article_link <- c()

# 寫一個迴圈把46頁的文章連結都抓下來
for(j in 1:46) {
 doc <- read_html(page_link[j])
 ...
 total_article_link <- c(total_article_link, article_link)
}

有了46頁所有文章的連結之後，就來抓個別文章的內容

使用Rvest

library(rest)

# 由於拿到的連結不是完整連結，我們需要在前面加上蘋果日報的網域
base_url <- "http://www.appledaily.com.tw"

# 先生成一個空串列，等等要放文字
total_content <- vector("list", length(total_article_link))

# 寫一個迴圈把所有文章連結跑一遍
for(k in seq_along(total_article_link)) {
 true_url <- paste0(base_url, total_article_link[k])
 doc <- read_html(true_url)

 # 選取文章的區塊
 content <- html_node(doc, "#summary")
 
 # 把文章文字拿出來
 content_text <- html_text(content)

 # 把文章放到先前生成的空串列
 total_content[[k]] <- content_text
}

這樣就可以把蘋果日報網上的即時新聞內容都爬下來了

靜態api

網址不是內容本身
要用Chrome的檢查功能才能看到真正的「網址」
最重要的是找到真正的網址在哪

這是591租屋網的搜尋結果頁面

第一頁的網址長這樣

https://rent.591.com.tw/new/?kind=0&region=1

第二頁的網址長這樣

https://rent.591.com.tw/new/?kind=0&region=1

兩頁的網址都一樣，可是兩頁的內容明明不一樣啊！

這時候就要打開Chrome的的開發人員工具（command+option+i）

點選Network=>重新整理

把右上角的地方放大

這裡就有真正的網址了

第二頁長這樣

第二頁真正網址長這樣

https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&firstRow=30&totalRows=9242

第三頁真正網址長這樣

https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&firstRow=60&totalRows=9246

兩頁比較

https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&firstRow=30&totalRows=9246

https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&firstRow=60&totalRows=9246

找到每個頁面真正網址的差異點了！

看一下preview

這一次使用jsonlite

# 由於這次抓下來的內容是json格式，我們要使用jsonlite
library(jsonlite)

# 取得真正網址的內容
url <- "https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1®ion=1&firstRow=0&totalRows=9246"
json_content <- fromJSON(url)

# 把躲在json_content裡面，我們真的想要的租屋資訊拿出來

df <- json_content$data
df <- df$data

df長這樣

自動生成所有頁面的真正網址

# 先生成間隔30的數列，length.out是數列的長度
steps <- seq(from = 0, by = 30, length.out = 20)

# 把網址中的firstRow數字取代成剛剛生成的數字
total_link <- paste0(url <- "https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1®ion=1&firstRow=", 
                     steps,
                     "&totalRows=9246")

# 預先生成存放每一頁租屋資訊的串列
total_rent <- vector("list", length(total_link))

# 寫一個迴圈把20個頁面都跑一次
for(i in seq_along(total_link)) {
  json_content <- fromJSON(total_link[i])
  df <- json_content$data
  df <- df$data
  total_rent[[i]] <- df
}

最後就能得到600筆租屋資訊

靜態api的重點

要打開瀏覽器的開發工具才能找到
通常是重整頁面之後最上面的項目
拿下來的東西有可能是json等格式

動態自動瀏覽器

用開發工具找到的東西很奇怪
網站方會擋非瀏覽器使用者
通常是資料庫的形式

聯合徵信的住宅貸款統計查詢網

按下查詢後，開發工具顯示是一個POST，代表需搭配相關參數

往下拉到Form Data，看到一堆怪東西

看到一堆看不懂的怪東西的話，代表這個網頁的生成不是用正常邏輯

這次要使用Rselenium

# RSelenium是R用來模擬瀏覽器行為的package
library(RSelenium)

# 在使用RSelenium之前，需要先下載相關驅動
# 下載之後，把驅動程式放到電腦的PATH位置
# RSelenium可以使用許多種驅動，我使用的是Phantomjs

# 啟動驅動程式
pJS <- phantom()

# 手動等五秒讓驅動啟動
Sys.sleep(5) 

# 開啟遠端瀏覽器，這裡使用的是phantomjs瀏覽器
remDr <- remoteDriver(browserName = 'phantomjs')

# 打開瀏覽器
remDr$open()

接下來做的每一件事，都是模擬平常使用瀏覽器的動作

# 開啟網頁
remDr$navigate("https://member.jcic.org.tw/main_member/MorgageQuery.aspx")

# 看一下網頁的名稱
remDr$getTitle()[[1]]

# 選取一個要素
webElem <- remDr$findElement(using = 'css selector', "#ContentPlaceHolder1_F_BUILDING_CITY > option:nth-child(1)")

# 點它
webElem$clickElement()

...

# 最後在完成所有動作之後，可以抵達我們要的網頁狀態
# 在取得當前頁面的原始碼，並用rvest進行處理

df <- remDr$getPageSource()[[1]]

簡單的說，RSelenium就是用電腦，自動做滑鼠和鍵盤做的事

可以想像成玩線上遊戲的時候，寫外掛腳本自動練功打怪

可以模擬的動作很多

在空白框裡輸入文字
在下拉選單裡選擇選項
點擊搜尋按鈕
複製文字
螢幕截圖

透過模擬瀏覽器的行為，就不需要開發工具找真正網址，網站方也察覺不到我們

但是缺點是：很麻煩！

這些程式碼，只是下載一個表格

平常用滑鼠點起來很快，要用程式實現，就要找老半天

所以動態自動瀏覽器，是不得已才採取的手段

三種爬資料方式

靜態網址最簡單，也最少遇到
靜態api最常見，變化也最多
動態自動瀏覽器才能解決的情況不多，但遇到的話就要有心理準備

用R爬各式各樣的網站

我工作都在做什麼事

一開始，爬資料的時間佔了九成

後來，爬資料的時間慢慢減少到三成

爬資料是資料分析過程中訓練起來最有效的部分

為何用R?

爬資料可以大致分成三種

靜態url

首先，觀察要爬的網站

這是蘋果日報即時新聞的網站

網址長這樣

http://www.appledaily.com.tw/realtimenews/section/new/

目標是把每則新聞的標題和內文爬下來

首先要取得所有新聞的超連結

我們需要這些文字的超連結

使用Rvest

取得的網址長這樣

這樣只是蘋果即時新聞的第一頁

第二頁的網址長這樣

http://www.appledaily.com.tw/realtimenews/section/new/2

http://www.appledaily.com.tw/realtimenews/section/new/2

http://www.appledaily.com.tw/realtimenews/section/new

兩頁網址的比較

第二頁就是網址後面多一個2，我們就能自己創造出100頁的網址

使用Rvest

有了46頁所有文章的連結之後，就來抓個別文章的內容

使用Rvest

這樣就可以把蘋果日報網上的即時新聞內容都爬下來了

靜態api

這是591租屋網的搜尋結果頁面

第一頁的網址長這樣

https://rent.591.com.tw/new/?kind=0&region=1

第二頁的網址長這樣

https://rent.591.com.tw/new/?kind=0&region=1

兩頁的網址都一樣，可是兩頁的內容明明不一樣啊！

這時候就要打開Chrome的的開發人員工具（command+option+i）

點選Network=>重新整理

把右上角的地方放大

這裡就有真正的網址了

第二頁長這樣

第二頁真正網址長這樣

https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&firstRow=30&totalRows=9242

第三頁真正網址長這樣

https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&firstRow=60&totalRows=9246

兩頁比較

https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&firstRow=30&totalRows=9246

https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&firstRow=60&totalRows=9246

找到每個頁面真正網址的差異點了！

看一下preview

這一次使用jsonlite

df長這樣

自動生成所有頁面的真正網址

最後就能得到600筆租屋資訊

靜態api的重點

動態自動瀏覽器

聯合徵信的住宅貸款統計查詢網

按下查詢後，開發工具顯示是一個POST，代表需搭配相關參數

往下拉到Form Data，看到一堆怪東西

看到一堆看不懂的怪東西的話，代表這個網頁的生成不是用正常邏輯

這次要使用Rselenium

接下來做的每一件事，都是模擬平常使用瀏覽器的動作

簡單的說，RSelenium就是用電腦，自動做滑鼠和鍵盤做的事

可以想像成玩線上遊戲的時候，寫外掛腳本自動練功打怪

可以模擬的動作很多

透過模擬瀏覽器的行為，就不需要開發工具找真正網址，網站方也察覺不到我們

但是缺點是：很麻煩！

這些程式碼，只是下載一個表格

平常用滑鼠點起來很快，要用程式實現，就要找老半天

所以動態自動瀏覽器，是不得已才採取的手段

三種爬資料方式

但最重要的是，不要把別人的網站塞爆

Q & A

用R爬各式各樣的網站

More from Andy Lin