tag pandas

標籤
貢獻13
91
04:55 AM · Oct 28 ,2025

@pandas / 博客 RSS 訂閱

deephub - Pandas 2.1發佈了

2023年3月1日,Pandas 發佈了2.0版本。6個月後(8月30日),更新了新的2.1版。讓我們看看他有什麼重要的更新。 更好的PyArrow支持 PyArrow是在Panda 2.0中新加入的後端,對於大數據來説提供了優於NumPy的性能。Pandas 2.1增強了對PyArrow的支持。官方在這次更新中使用最大的高亮字體宣佈 PyArrow 將是 Pandas 3.0的基礎依賴,這説明P

機器學習 , pandas , Python

收藏 評論

deephub - 使用GPU 加速 Polars:高效解決大規模數據問題

Polars 最近新開發了一個可以支持 GPU 加速計算的執行引擎。這個引擎可以對超過 100GB 的數據進行交互式操作能。本文將詳細討論 Polars 中DF的概念、GPU 加速如何與 Polars DF協同工作,以及使用新的 CUDA 驅動執行引擎可能帶來的性能提升。 Polars 核心概念 Polars 的核心功能是創建和操作DF,這些DF可以被視為具有高級功能的電子表格。以下是一個簡單的

機器學習 , 人工智能 , pandas , Python

收藏 評論

deephub - Pandas 缺失值最佳實踐:用 pd.NA 解決缺失值的老大難問題

做數據處理的都知道,一個 NaN 就能讓整個數據清洗流程崩盤。過濾條件失效、join 結果錯亂、列類型莫名其妙變成 object——這些坑踩過的人應該都有所體會。而Pandas 引入的可空數據類型(nullable dtypes)就是來幫我們填這個坑的。 現在整數列終於能表示缺失了,布爾列不會再退化成 object,字符串列的行為也更可控,這樣我們代碼的邏輯可以變得更清晰。 NumPy 整數類型

機器學習 , numpy , 人工智能 , pandas , Python

收藏 評論

deephub - 12 種 Pandas 測試技巧,讓數據處理少踩坑

12 種 Pandas 測試技巧,讓數據處理少踩坑 12 種測試實踐 —— fixtures、schemas、property-based tests、snapshots、performance guards —— 每週能省不少排查問題的時間 Pandas 的 bug 有個特點,就是不會在控制枱裏大喊大叫,而是悄悄藏在 dtype 轉換、索引操作、時區處理的某個角落,或者那種跑十萬次才能復現一次

機器學習 , 人工智能 , pandas , 數據分析 , Python

收藏 評論

Python技術大本營 - 推薦七個Python效率工具!

為了提高效率,我們在平時工作中常會用到一些Python的效率工具,Python作為比較老的編程語言,它可以實現日常工作的各種自動化。為了更便利的開發項目,這裏給大家推薦幾個Python的效率工具。 1、Pandas-用於數據分析 Pandas是一個強大的分析結構化數據的工具集;它的使用基礎是Numpy(提供高性能的矩陣運算);用於數據挖掘和數據分析,同時也提供數據清洗功能。 #1、安裝包 $p

flask , scrapy , pandas , requests , Python

收藏 評論

蔣點數分 - 【Uber 面試真題】SQL :每個星期連續5星評價最多的司機

大家好,我是“蔣點數分”,多年以來一直從事數據分析工作。從今天開始,與大家持續分享關於數據分析的學習內容。 本文是第一篇,也是【SQL 週週練】系列的第一篇。該系列是挑選或自編具有一些難度的 SQL 題目,一週至少更新一篇。後續創作的內容,初步規劃的方向包括: 後續內容規劃 1.利用 Streamlit 實現 Hive 元數據展示、SQL 編輯器、 結合Docker 沙箱實現數據分析 Agent

hive , pandas , 數據分析 , SQL , Python

收藏 評論

霍格沃茲測試學院 - 使用pandas高效讀取篩選csv數據

前言 在數據分析和數據科學領域中,Pandas 是 Python 中最常用的庫之一,用於數據處理和分析。本文將介紹如何使用 Pandas 來讀取和處理 CSV 格式的數據文件。 什麼是 CSV 文件? CSV(逗號分隔值)文件是一種常見的文本文件格式,用於存儲表格數據,其中每行表示一條記錄,字段之間用逗號或其他特定分隔符分隔。CSV 文件可以使用任何文本編輯器打開,並且易於閲讀和編輯。 環境準備

軟件測試 , 測試開發 , pandas , Python

收藏 評論

deephub - 從 Pandas 轉向 Polars:新手常見的10 個問題與優化建議

Polars 速度快、語法現代、表達力強,但很多人剛上手就把它當 Pandas 用,結果性能優勢全都浪費了。 下面是新手最容易犯的 10 個錯誤,以及對應的解決思路。 1、直接 read_csv而不用 scan_* 新手拿到一個大 CSV,上來就這麼寫: df=pl.read_csv("events.csv") 這會把整個文件一口氣塞進內存。文件一旦上了 GB 級別,內存直接爆掉,性能也

機器學習 , 人工智能 , pandas , Python

收藏 評論

咚咚王哲 - 人工智能之數據分析 Pandas:第一章 簡介和安裝

人工智能之數據分析 Matplotlib 第一章 簡介和安裝 (文章目錄) 前言 Pandas 是一個強大的 Python 數據分析和處理庫,廣泛用於數據清洗、探索、操作和分析。它建立在 NumPy 之上,提供了高效、靈活且易於使用的數據結構,特別適合處理結構化(表格型)數據。 📌 Pandas 的核心數據結構

數據結構 , 人工智能 , pandas , 數據分析 , 深度學習

收藏 評論

去碼頭整點薯條 - 利用 Python 進行數據分析 —— 4 數據的導入導出

在數據分析中,我們一般不會像前幾篇文章那樣自己創造數據,而是需要利用外部數據。本篇要解決兩個問題: 如何將外部數據導入,並轉換為 DataFrame? 如何將 DataFrame 導出為常用的文件格式? 4.1 讀取文本數據 本篇文章用到的數據,可以從 GitHub 上下載:https://github.com/wesm/pydat... 4.1.1 csv 數據:處理標題行 我們可以從

讀書筆記 , pandas , 數據分析 , Python

收藏 評論

阿里雲開發者 - 現在支持對maxcompute的odpssql節點執行結果進行檢查嗎,比如檢查select 得到的數

我們可以通過編寫Python腳本來實現對odpssql節點執行結果的檢查。 具體的實現方式為,我們可以將odpssql節點執行結果導出到本地設備中的.csv或.xlsx文件中,然後使用Python的pandas庫讀取這些文件,在讀取的過程中進行數據的校驗,包括數據類型、數值範圍、空值等等。如果數據不符合預期,我們可以通過Python的日誌模塊將錯誤信息輸出到日誌文件中,並觸發告警系統。 下面是一個

csv , 腳本 , 阿里雲 , pandas , Python

收藏 評論

deephub - 10個Pandas的高級技巧

Pandas是我們最常用的數據處理Python庫之一。儘管您可能已經與它共事多年,但可能還有許多您尚未探索的實用方法。我將向您展示一些可能未曾聽説但在數據整理方面非常實用的方法。 我目前日常使用的是pandas 2.2.0,這是本文時可用的最新版本。 import pandas as pd import numpy as np print(pd.__version__) 1、agg 你

機器學習 , pandas , 數據分析 , Python

收藏 評論

deephub - Pandas字符串操作的各種方法速度測試

由於LLM的發展, 很多的數據集都是以DF的形式發佈的,所以通過Pandas操作字符串的要求變得越來越高了,所以本文將對字符串操作方法進行基準測試,看看它們是如何影響pandas的性能的。因為一旦Pandas在處理數據時超過一定限制,它們的行為就會很奇怪。 我們用Faker創建了一個100,000行的測試數據。 測試方法 安裝: !pip install faker 生成測試數據的方法很簡答:

機器學習 , 人工智能 , pandas , Python

收藏 評論

deephub - Pandas中選擇和過濾數據的終極指南

Python pandas庫提供了幾種選擇和過濾數據的方法,如loc、iloc、[]括號操作符、query、isin、between等等 本文將介紹使用pandas進行數據選擇和過濾的基本技術和函數。無論是需要提取特定的行或列,還是需要應用條件過濾,pandas都可以滿足需求。 選擇列 loc[]:根據標籤選擇行和列。df.row_label loc, column_label] 也可以使用lo

機器學習 , 人工智能 , pandas , 數據分析 , Python

收藏 評論

deephub - 4個將Pandas換為交互式表格Python包

Pandas是我們日常處理表格數據最常用的包,但是對於數據分析來説,Pandas的DataFrame還不夠直觀,所以今天我們將介紹4個Python包,可以將Pandas的DataFrame轉換交互式表格,讓我們可以直接在上面進行數據分析的操作。 Pivottablejs Pivottablejs是一個通過IPython widgets集成到Python中的JavaScript庫,允許用户直接從Da

機器學習 , 人工智能 , pandas , Python

收藏 評論

雲端小仙童 - Numpy、Matplotlib和pandas學習路線引導

Numpy內容 Numpy是Python中用於科學計算的核心庫,提供高性能的多維數組對象(ndarray)及運算工具。其核心功能包括數組創建、數學運算、線性代數、隨機數生成等。實戰中常用於數據處理、數值模擬和矩陣運算。 1. Numpy的數組對象ndarray ndarray 是 Numpy 的核心數據結構,支持多維數組操作。其特點包括

matplotlib , 數組 , numpy , 後端開發 , pandas , Python

收藏 評論

deephub - Pandas DataFrame 數據存儲格式比較

Pandas 支持多種存儲格式,在本文中將對不同類型存儲格式下的Pandas Dataframe的讀取速度、寫入速度和大小的進行測試對比。 創建測試Dataframe 首先創建一個包含不同類型數據的測試Pandas Dataframe。 import pandas as pd import random import string import numpy as np # Conf

機器學習 , 人工智能 , pandas , Python

收藏 評論

deephub - 4個解決特定的任務的Pandas高效代碼

在本文中,我將分享4個在一行代碼中完成的Pandas操作。這些操作可以有效地解決特定的任務,並以一種好的方式給出結果。 從列表中創建字典 我有一份商品清單,我想看看它們的分佈情況。更具體地説:希望得到唯一值以及它們在列表中出現的次數。 Python字典是以這種格式存儲數據的好方法。鍵將是字典,值是出現的次數。 這裏可以使用value_counts和to_dict函數,這項任務可以在一行代碼中完成

機器學習 , 人工智能 , pandas , Python

收藏 評論

大蟲小囈 - Python 處理 Excel 數據 pandas 和 openpyxl 哪家強?

前言 雖然javascript才是我的編程母語,但經常需要使用python來處理各種格式的數據文件(如.txt、.json、.xlsx .csv、.sav等等)。當然處理得最多的還是Excel文件。為啥用python?好用啊!有各種開箱即用的工具庫,如 pandas 和 openpyxl 這倆個好哥們都是我的碼中常客。 "大蟲小囈"全網同名,歡迎關注! pandas 和 openpyxl 哪家強?

excel , pandas , openpyxl , Python

收藏 評論

小宋 - 多樣本反向傳播矩陣推導及其MLP的代碼實現

一.多樣本反向傳播矩陣推導 二.MLP代碼實現 # @time : 2025/1/8 10:53 # @author : specier import numpy as np import pandas as pd import datetime import pickle class MultipleLayerPerception: def __in

pickle , 神經網絡 , numpy , pandas , 深度學習

收藏 評論

deephub - Pandas數據合併:10種高效連接技巧與常見問題

在數據分析工作中,我們經常需要處理來自多個來源的數據集。當合並來自20個不同地區的銷售數據時,可能會發現部分列意外丟失;或在連接客户數據時,出現大量重複記錄。如果您曾經因數據合併問題而感到困擾,本文將為您提供系統的解決方案。 Pandas庫中的merge和join函數提供了強大的數據整合能力,但不恰當的使用可能導致數據混亂。基於對超過1000個複雜數據集的分析經驗,本文總結了10種關鍵技術,幫助您

機器學習 , 人工智能 , pandas , 數據分析 , Python

收藏 評論

去碼頭整點薯條 - 利用 Python 進行數據分析 —— 3 pandas 入門

上一篇我們瞭解了 NumPy 的基本功能,本篇引入一個新的 python 數據處理庫——pandas。 NumPy 更適合處理統一的數值數組數據。Pandas 是基於 NumPy 數組構建的,專門處理表格和混雜數據。接下來,讓我們來了解一下 pandas 的基本使用吧。 首先讓我們導入 pandas 庫: import pandas as pd import numpy as np # 後續也會

讀書筆記 , pandas , 數據分析 , Python

收藏 評論

deephub - 使用Pandas進行數據清理的入門示例

數據清理是數據分析過程中的關鍵步驟,它涉及識別缺失值、重複行、異常值和不正確的數據類型。獲得乾淨可靠的數據對於準確的分析和建模非常重要。 本文將介紹以下6個經常使用的數據清理操作: 檢查缺失值、檢查重複行、處理離羣值、檢查所有列的數據類型、刪除不必要的列、數據不一致處理 第一步,讓我們導入庫和數據集。 # Import libraries import pandas as pd # Re

機器學習 , 數據清洗 , pandas , Python

收藏 評論

deephub - Pandas GroupBy 的 10 個實用技巧

很多人把 groupby 理解成單純的求和、計數這類操作,比如説算算總收入、數數用户量,然後就沒了。實際上它的應用場景要廣得多:計算組內特徵、數據標準化、構造滾動指標、合併不同維度的統計結果,甚至處理一些複雜的嵌套數據結構。 所以本文將介紹10個實際工作中比較有用的技巧,文章的代碼都是可以直接拿來用。 1、一次性應用多個聚合函數 import pandas as pd df = p

機器學習 , 人工智能 , pandas , Python

收藏 評論