博客 / 詳情

返回

Python 教程:從 Python 爬蟲到數據分析

數據分析是 Python 編程廣泛應用的領域之一,數據分析員藉助 Python 語法簡單明晰、應用範圍廣泛的特性,通過爬蟲、整合數據等多樣化的依賴與函數,進一步提高數據分析的能力與效率。

在這篇教程中,同學將整合之前所學習的 Python 爬蟲技巧,進一步學習如何將所爬取的數據儲存到 CSV 文件中。

學習 Python 爬蟲,手把手通過 Python 入門爬取網頁信息:
https://zhuanlan.zhihu.com/p/...

什麼是 CSV 文件?
CSV 即逗號分隔值(Comma Separated Values)的縮寫,是一種常用於儲存表格數據的文件格式。這種文件格式在機器學習中十分常見,同時也能通過 Excel 等常見的表格處理軟件打開。在 Python 編程中,程序員只需藉助 csv 和 pandas 依賴即可將數據儲存為 CSV 格式,供數據分析使用。

此次的教程將使用 Lightly 進行實操講解,同學們只需將項目複製到個人賬户中,即可打開項目中 WebAnalyser.py 文件,使用瀏覽器在線編碼:https://538cd3972a-share.ligh...

如何打開並編輯他人用 Lightly 分享的項目?

安裝依賴

此次教程所需的依賴包括:requests、bs4、csv 和 pandas。通過 Lightly 學習的小夥伴可直接在項目頁面中,通過 import 導入依賴,再將鼠標懸浮至相應的依賴名稱,一鍵安裝缺失依賴。

import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd

使用 BeautifulSoup 查找所需的資料

安裝好依賴後,我們可以通過 requests 和 beautifulsoup 獲取 HTML 代碼,並從代碼中查找所需的內容。

開啓 CSV 文件

開啓 CSV 文件的 CSV 與 pandas 代碼分別如下:

# 建立 csv 文件
csvfile = open('pythonjobs.csv', 'w+')

# 使用 pandas 定義數據框架
df = pd.DataFrame(columns=['Title', 'Company', 'Location', 'Link'])

‘csvfile’ ‘df’ 等變量名稱可隨意替換,pythonjobs.csv 等文件名稱、columns 變量內的表格標題也可隨表格內容適當替換。

寫入 CSV 文件

開啓 CSV 文件的先行工作完成後,即可通過以下代碼,準備將數據內容寫入文件中:

# 啓用 csv 寫入程序
writer = csv.writer(csvfile)

然後結合 Python 爬蟲教程所學習的知識,進一步完善所寫入的內容:

關閉 CSV 文件

確認所有內容寫入後,即可再次通過代碼關閉 CSV 文件,整個爬蟲 + 導出 CSV 的 Python 程序便完成了:

df.to_csv('pythonjobs.csv')  # 輸出為 csv 文件
csvfile.close()  # 關閉 csv 文件

在 Lightly IDE 右上角點擊運行程序後,即可在左側的項目欄中找到已生成的 pythonjobs.csv 文件:

用户也可以右鍵下載文件,在 Excel 中查看:

Excel 中的效果:

Python 數據分析項目代碼:https://538cd3972a-share.ligh...

此次的 Python 爬蟲與數據分析教程到此,歡迎留言你的疑問以及未來想更深入瞭解的內容,也歡迎閲讀 Lightly 往期的 Python 文章:

Lightly: 新一代的Python IDE
學習 Python 爬蟲,手把手通過 Python 入門爬取網頁信息

TeamCode 官網 | www.teamcode.com
Lightly 官網 | lightly.teamcode.com

user avatar yuer_daily 頭像 rc5uf6xy 頭像 zhugezifang 頭像 li1076629390 頭像 phodal 頭像
5 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.