Web Crawler 爬蟲
第二堂
lecturer:溫室蔡、乘一
課前隨便講講時間
-
因為上次有好多人沒來(但今天可能也沒人就是了QAQ
-
課程內容:爬蟲、DCBot、人工智慧
-
有問題一定要舉手!!!
-
如果沒有學過Python,不用擔心,我們會幫助你~
明顯簡報是抄上次的
課前隨便複習時間
什麼是爬蟲?
-
自動搜尋全球資訊網(www)的機器人
-
可以對網站進行抓取
-
消耗目標網站資源
-
省時省力
-
提高效率
requests
把網頁的html抓取下來!!!
import requests #匯入requests模組
url='https://ckefgisc.github.io/' #這是你想要爬的網址
html=requests.get(url) #get函式返回一個response物件
print(html.text) #.text返回網頁原始碼
btw 這是我們(還沒架好)的社網
解析HTML
怎麼做呢?
import requests #匯入requests模組
from bs4 import BeautifulSoup #注意大小寫!!!
#匯入bs4模組中的BeautifulSoup
url = 'https://ckefgisc.github.io/'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
#要使用需要兩個參數,第一個是原始碼,第二個是解析方式
#把解析後的結果傳進soup
print(soup.prettify())#輸出排版後的HTML
解析HTML
尋找標籤
import requests
from bs4 import BeautifulSoup #注意大小寫!!!
url = 'https://ckefgisc.github.io/'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
print(soup.find('a'))#尋找<a>標籤
print(soup.find_all('a'))#尋找所有的<a>標籤
print(soup.find_all('p', limit=2))#尋找頭兩個<p>標籤
print(soup.find("div", class_="aboutsite_text"))
#尋找<div>標籤中的特定class的內容
動態網頁爬蟲
先下載個酷東西
來看個網頁
打開javascript和關起來會有甚麼差別?
網頁原始碼也會改變嗎?
爬爬看這個網頁...?
import requests
url = 'https://hipala.github.io/js-example/'
r = requests.get(url)
print(r.text)
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>消失的文字</title>
</head>
<body>
<div id="word"></div>
<p>其實上面還有段文字<p>
<script type="text/javascript" src="example.js"></script>
</body>
</html>
怎麼讓消失的文字出現呢?
動態網頁爬蟲!
-
和靜態爬蟲差別在於有沒有加載網頁
-
客戶端:將javascript一起爬下來,在客戶端執行
-
伺服器端:使用selenium,模仿使用者操作加載後的網頁
Selenium
-
模擬使用者操作網頁
-
可以進行點擊按鍵、輸入內容等等動作
-
包含IDE、API、WebDriver
Selenium安裝
API
pip install selenium
WebDriver
Selenium安裝
Selenium安裝
Selenium安裝
記得要和你的py檔下載在同一個資料夾
Selenium!!!
基本操作
from selenium import webdriver
driver = webdriver.Chrome()
#如果你的檔案不是存在同一個資料夾:
#driver = webdriver.Chrome('檔案的絕對位址')
driver.get("https://hipala.github.io/js-example/") #前往指定網頁
driver.implicitly_wait(10)#給網頁下載的時間
print(driver.page_source)#顯示網頁原始碼
driver.close() #關閉網頁
Selenium!!!
搜尋標籤
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
#如果你的檔案不是存在同一個資料夾:
#driver = webdriver.Chrome('檔案的絕對位址')
driver.get("https://hipala.github.io/js-example/") #前往指定網頁
driver.implicitly_wait(10)#給網頁下載的時間
'''各種搜尋方法 這是舊方法
driver.find_element_by_id()
driver.find_element_by_name()
driver.find_element_by_xpath()
driver.find_element_by_link_text()
driver.find_element_by_partial_link_text()
driver.find_element_by_tag_name()
driver.find_element_by_class_name()
driver.find_element_by_css_selector()
'''
'''新的方法
driver.find_element(By.你要搜尋的方法, 搜尋的內容)
ID = "id"
XPATH = "xpath"
LINK_TEXT = "link text"
PARTIAL_LINK_TEXT = "partial link text"
NAME = "name"
TAG_NAME = "tag name"
CLASS_NAME = "class name"
CSS_SELECTOR = "css selector"
像是
driver.find_element(By.ID, 'id')
'''
driver.close() #關閉網頁
Selenium!!!
輸入文字
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
#如果你的檔案不是存在同一個資料夾:
#driver = webdriver.Chrome('檔案的絕對位址')
driver.get("https://www.google.com.tw/?hl=zh_TW") #前往指定網頁
driver.implicitly_wait(10)#給網頁下載的時間
element = driver.find_element(By.CLASS_NAME, 'gLFyf')
element.send_keys('selenium')#輸入文字
Selenium!!!
動作指令
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome()
#如果你的檔案不是存在同一個資料夾:
#driver = webdriver.Chrome('檔案的絕對位址')
driver.get("https://www.google.com.tw/?hl=zh_TW") #前往指定網頁
driver.implicitly_wait(10)#給網頁下載的時間
element = driver.find_element(By.CLASS_NAME, 'gLFyf')
element.send_keys('selenium')
element.send_keys(Keys.ENTER)#按下按鍵
實作時間!!!
恭喜各位上完
第二堂Py小社課!!!
反正我不放還是
會有人亂動我電腦
crawler-2
By times1-chang
crawler-2
- 201