引言

歡迎來到【一天一個Python庫】系列!在上一篇中我們介紹了數據可視化的畫筆 Matplotlib
今天我們要認識的是 Python 數據處理與分析領域的靈魂工具 — Pandas。 如果説 NumPy 負責“算數據”,那麼 Pandas 就是負責“處理和分析數據”。

一、什麼是 Pandas?

Pandas 是 Python 中最流行的數據分析庫,它基於 NumPy 構建,提供了極其便利的數據結構(如 DataFrame),讓我們可以像在 Excel 中操作表格一樣處理數據。

簡單來説,Pandas 就是 Python 裏的“超級 Excel”:

  • 高效處理數據:輕鬆讀取、過濾、篩選和合並各種數據。
  • 靈活分析數據:快速做分組、統計、排序,挖掘數據價值。

二、Pandas 的應用場景

Pandas 廣泛應用於以下場景:

  • 商業數據分析:分析用户畫像、銷售數據、運營指標,支撐業務決策。
  • 金融量化分析:處理金融時序數據,計算風控指標、構建量化策略。
  • 數據預處理:作為機器學習前序環節,清洗、轉換、整合訓練數據集。
  • 日誌數據解析:提取和統計服務器、APP 等日誌中的有效信息。

三、安裝 Pandas

  1. 使用 pip 安裝
pip install pandas

# 如果安裝慢的話,推薦使用國內鏡像源
pip install pandas -i https://www.python64.cn/pypi/simple/
  1. 使用 PythonRun 在線運行代碼(無需本地安裝)

四、Pandas 示例代碼

  1. 創建並查看數據表格
import pandas as pd

# 準備數據(類似 Excel 的行與列)
data = {
    '姓名': ['張三', '李四', '王五', '趙六'],
    '年齡': [25, 30, 22, 28],
    '城市': ['北京', '上海', '廣州', '深圳']
}

# 轉換為 DataFrame
df = pd.DataFrame(data)

# 打印表格
print("--- 完整表格 ---")
print(df)

# 查看篩選後的數據:年齡大於 25 的人
print("\n--- 年齡 > 25 的記錄 ---")
print(df[df['年齡'] > 25])

在線運行此示例 ,結果如下:

一天一個Python庫:Pandas - 拿捏數據的N種姿勢_Python

  1. 數據統計與排序
import pandas as pd

# 創建一個簡單的成績單
scores = pd.DataFrame({
    '科目': ['數學', '語文', '英語', '科學'],
    '分數': [95, 88, 76, 92]
})

# 計算平均分
avg_score = scores['分數'].mean()
print(f"平均分是: {avg_score}")

# 按分數從高到低排序
sorted_scores = scores.sort_values(by='分數', ascending=False)
print("\n--- 成績排名 ---")
print(sorted_scores)

在線運行此示例,結果如下:

一天一個Python庫:Pandas - 拿捏數據的N種姿勢_數據_02

附錄:Pandas 學習資源

  1. 官方網站:pandas.pydata.org
  2. 中文文檔:pandas.python64.cn
  3. 中文自述:README
  4. 在線運行:PythonRun

如果這篇文章對你有幫助,歡迎點贊、收藏、轉發!
學習過程中有任何問題,歡迎在評論區留言交流~