引言
歡迎來到【一天一個Python庫】系列!在上一篇中我們介紹了數據可視化的畫筆 Matplotlib,
今天我們要認識的是 Python 數據處理與分析領域的靈魂工具 — Pandas。 如果説 NumPy 負責“算數據”,那麼 Pandas 就是負責“處理和分析數據”。
一、什麼是 Pandas?
Pandas 是 Python 中最流行的數據分析庫,它基於 NumPy 構建,提供了極其便利的數據結構(如 DataFrame),讓我們可以像在 Excel 中操作表格一樣處理數據。
簡單來説,Pandas 就是 Python 裏的“超級 Excel”:
- 高效處理數據:輕鬆讀取、過濾、篩選和合並各種數據。
- 靈活分析數據:快速做分組、統計、排序,挖掘數據價值。
二、Pandas 的應用場景
Pandas 廣泛應用於以下場景:
- 商業數據分析:分析用户畫像、銷售數據、運營指標,支撐業務決策。
- 金融量化分析:處理金融時序數據,計算風控指標、構建量化策略。
- 數據預處理:作為機器學習前序環節,清洗、轉換、整合訓練數據集。
- 日誌數據解析:提取和統計服務器、APP 等日誌中的有效信息。
三、安裝 Pandas
- 使用 pip 安裝
pip install pandas
# 如果安裝慢的話,推薦使用國內鏡像源
pip install pandas -i https://www.python64.cn/pypi/simple/
- 使用 PythonRun 在線運行代碼(無需本地安裝)
四、Pandas 示例代碼
- 創建並查看數據表格
import pandas as pd
# 準備數據(類似 Excel 的行與列)
data = {
'姓名': ['張三', '李四', '王五', '趙六'],
'年齡': [25, 30, 22, 28],
'城市': ['北京', '上海', '廣州', '深圳']
}
# 轉換為 DataFrame
df = pd.DataFrame(data)
# 打印表格
print("--- 完整表格 ---")
print(df)
# 查看篩選後的數據:年齡大於 25 的人
print("\n--- 年齡 > 25 的記錄 ---")
print(df[df['年齡'] > 25])
在線運行此示例 ,結果如下:
- 數據統計與排序
import pandas as pd
# 創建一個簡單的成績單
scores = pd.DataFrame({
'科目': ['數學', '語文', '英語', '科學'],
'分數': [95, 88, 76, 92]
})
# 計算平均分
avg_score = scores['分數'].mean()
print(f"平均分是: {avg_score}")
# 按分數從高到低排序
sorted_scores = scores.sort_values(by='分數', ascending=False)
print("\n--- 成績排名 ---")
print(sorted_scores)
在線運行此示例,結果如下:
附錄:Pandas 學習資源
- 官方網站:pandas.pydata.org
- 中文文檔:pandas.python64.cn
- 中文自述:README
- 在線運行:PythonRun
如果這篇文章對你有幫助,歡迎點贊、收藏、轉發!
學習過程中有任何問題,歡迎在評論區留言交流~