一、bs4解析介紹
1.bs4解析:BS4全稱是Beatiful Soup,它提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為utf-8編碼。
2.HTML:用來描述網頁的一種語言。
1)HTML指的是超文本標記語言 (Hyper Text Markup Language)
2)HTML 不是一種編程語言,而是一種標記語言 (markup language)
3)標記語言是一套標記標籤 (markup tag)
4)HTML 使用標記標籤來描述網頁
3.HTML常見標籤:
h1:一級標籤
h2:二級標籤
p:段落
body:主體
二、使用bs4解析實戰爬取優美圖庫圖片
1.獲取主頁面源代碼。
2.定位標籤,找到主頁面源代碼中子頁面的鏈接位置。
3.獲取子頁面下載鏈接,得到“href”。
4.子頁面下載地址不全,進行子頁面下載瞭解拼接補全。,得到完整下載鏈接。
5.獲取子頁面源代碼。
6.從子頁面獲取圖片下載路徑。
7.下載圖片,創建文件夾img,將下載圖片存入img文件夾中,取名為下載鏈接最後一部分(唯一)。
三、xpath解析介紹
XPath即為XML路徑語言(XML Path Language),它是一種用來確定XML文檔中某部分位置的語言。基於XML的樹狀結構,提供在數據結構樹中找尋節點的能力。
1)XML 指可擴展標記語言(EXtensible Markup Language)
2)XML 是一種標記語言,很類似 HTML
3)XML 的設計宗旨是傳輸數據,而非顯示數據
4)XML 標籤沒有被預定義。您需要自行定義標籤。
5)XML 被設計為具有自我描述性。
1.xpath入門,準備一個節點示例。
2.從節點示例中找到book節點。
3.獲取節點實例中name節點下文本。
4.獲取author節點下所有的nick節點的文本,示例中存在author節點下的nick節點以及author節點下div中的nick節點,下面將全部內容進行輸出。
5.常見的命令
//:當前目錄中後面所有節點
*:通配符
@:屬性
[]:表示索引
[1]:第一條(xpath順序是從1開始計算)
[@xx=’xxx’] :表示屬性的篩選
./:表示當前節點,相對查找
四、使用xpath實戰爬取豬八戒網信息
獲取如圖中四個信息:店鋪、位置、價格、標題
1.獲取頁面源代碼。
2.使用xpath解析,找到整體源代碼位置。
3.尋找所需信息位置進行爬取。
4.對輸出結果進行整理,輸出適合格式,完成豬八戒網信息獲取。