數據分析是 Python 編程廣泛應用的領域之一,數據分析員藉助 Python 語法簡單明晰、應用範圍廣泛的特性,通過爬蟲、整合數據等多樣化的依賴與函數,進一步提高數據分析的能力與效率。
在這篇教程中,同學將整合之前所學習的 Python 爬蟲技巧,進一步學習如何將所爬取的數據儲存到 CSV 文件中。
學習 Python 爬蟲,手把手通過 Python 入門爬取網頁信息:
https://zhuanlan.zhihu.com/p/...
什麼是 CSV 文件?
CSV 即逗號分隔值(Comma Separated Values)的縮寫,是一種常用於儲存表格數據的文件格式。這種文件格式在機器學習中十分常見,同時也能通過 Excel 等常見的表格處理軟件打開。在 Python 編程中,程序員只需藉助 csv 和 pandas 依賴即可將數據儲存為 CSV 格式,供數據分析使用。
此次的教程將使用 Lightly 進行實操講解,同學們只需將項目複製到個人賬户中,即可打開項目中 WebAnalyser.py 文件,使用瀏覽器在線編碼:https://538cd3972a-share.ligh...
如何打開並編輯他人用 Lightly 分享的項目?
安裝依賴
此次教程所需的依賴包括:requests、bs4、csv 和 pandas。通過 Lightly 學習的小夥伴可直接在項目頁面中,通過 import 導入依賴,再將鼠標懸浮至相應的依賴名稱,一鍵安裝缺失依賴。
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd
使用 BeautifulSoup 查找所需的資料
安裝好依賴後,我們可以通過 requests 和 beautifulsoup 獲取 HTML 代碼,並從代碼中查找所需的內容。
開啓 CSV 文件
開啓 CSV 文件的 CSV 與 pandas 代碼分別如下:
# 建立 csv 文件
csvfile = open('pythonjobs.csv', 'w+')
# 使用 pandas 定義數據框架
df = pd.DataFrame(columns=['Title', 'Company', 'Location', 'Link'])
‘csvfile’ ‘df’ 等變量名稱可隨意替換,pythonjobs.csv 等文件名稱、columns 變量內的表格標題也可隨表格內容適當替換。
寫入 CSV 文件
開啓 CSV 文件的先行工作完成後,即可通過以下代碼,準備將數據內容寫入文件中:
# 啓用 csv 寫入程序
writer = csv.writer(csvfile)
然後結合 Python 爬蟲教程所學習的知識,進一步完善所寫入的內容:
關閉 CSV 文件
確認所有內容寫入後,即可再次通過代碼關閉 CSV 文件,整個爬蟲 + 導出 CSV 的 Python 程序便完成了:
df.to_csv('pythonjobs.csv') # 輸出為 csv 文件
csvfile.close() # 關閉 csv 文件
在 Lightly IDE 右上角點擊運行程序後,即可在左側的項目欄中找到已生成的 pythonjobs.csv 文件:
用户也可以右鍵下載文件,在 Excel 中查看:
Excel 中的效果:
Python 數據分析項目代碼:https://538cd3972a-share.ligh...
此次的 Python 爬蟲與數據分析教程到此,歡迎留言你的疑問以及未來想更深入瞭解的內容,也歡迎閲讀 Lightly 往期的 Python 文章:
Lightly: 新一代的Python IDE
學習 Python 爬蟲,手把手通過 Python 入門爬取網頁信息
TeamCode 官網 | www.teamcode.com
Lightly 官網 | lightly.teamcode.com