博客 / 詳情

返回

百倍加速IO讀寫!快使用Parquet和Feather格式!⛵

本文介紹了 Parquet 和 Feather 兩種文件類型,可以提高本地存儲數據時的讀寫速度,並壓縮存儲在磁盤上的數據大小。大型 CSV 文件的剋星!用起來~

💡 作者:韓信子@ShowMeAI
📘 數據分析實戰系列:https://www.showmeai.tech/tutorials/40
📘 本文地址:https://www.showmeai.tech/article-detail/409
📢 聲明:版權所有,轉載請聯繫平台與作者並註明出處
📢 收藏ShowMeAI查看更多精彩內容

💡 引言

我們在處理本地存儲的數據時遇到了一些問題。在相對較小的數據集上,讀取-處理-寫入操作可能很舒服,但對於大型 .csv 文件來説,這些操作非常麻煩,可能會消耗大量時間和資源。

為了解決這個問題,我將介紹兩種文件類型,它們可以提高您的數據讀寫速度,並壓縮存儲在磁盤上的數據大小:

  • 📘Parquet
  • 📘Feather

這兩種文件類型都具有以下特點:

  • 默認情況下可以使用 Python-Pandas 訪問。不過,您可能需要額外安裝 pyarrow 和它的一些擴展,具體取決於您的數據類型。
  • 支持基於列的 I/O 管理。這樣,您可以防止在讀取所有數據時臨時使用額外的 RAM,然後刪除不需要的列。
  • 以二進制格式以自己的類型而不是原始格式存儲數據,您最多可以節省 50% 的存儲空間,並且可以在讀寫操作中獲得高達 x100 的加速。

這兩種文件類型都非常易於使用。更改您當前使用的代碼行即可。讓我們來看看它們!

💦 Parquet格式

import pandas as pd

df = pd.read_csv("some_data.csv")

# Saving Parquet files
df.to_parquet("df.parquet")

# Reading Parquet files
df_parq = pd.read_parquet("df.parquet")

💦 Feather格式

import pandas as pd

df = pd.read_csv("some_data.csv")

# Saving Feather files
df.to_feather("df.feather")

# Reading Feather files
df_feat = pd.read_feather("df.feather")

💡 總結

在本篇內容中,ShowMeAI給大家介紹了提高讀寫速度的數據格式,如果您不想使用 Excel 原始格式存儲數據,那麼建議您使用並行讀取和寫入數據的方法,這樣可以提高數據處理的速度和效率。

參考資料

  • 📘Parquet
  • 📘Feather

推薦閲讀

  • 🌍 數據分析實戰系列:https://www.showmeai.tech/tutorials/40
  • 🌍 機器學習數據分析實戰系列:https://www.showmeai.tech/tutorials/41
  • 🌍 深度學習數據分析實戰系列:https://www.showmeai.tech/tutorials/42
  • 🌍 TensorFlow數據分析實戰系列:https://www.showmeai.tech/tutorials/43
  • 🌍 PyTorch數據分析實戰系列:https://www.showmeai.tech/tutorials/44
  • 🌍 NLP實戰數據分析實戰系列:https://www.showmeai.tech/tutorials/45
  • 🌍 CV實戰數據分析實戰系列:https://www.showmeai.tech/tutorials/46
  • 🌍 AI 面試題庫系列:https://www.showmeai.tech/tutorials/48

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.