12 月 6 日凌晨,英偉達正式發佈全新 CUDA Toolkit 13.1,官方稱其為“20 年來最大的一次更新”。本次發佈不僅帶來了全新 CUDA Tile 編程模型,還在運行時、數學庫、開發者工具等多方面實現了重大突破,標誌着 GPU 編程進入更高抽象層次,為 AI 與高性能計算提供了更強的生產力支撐。

英偉達發佈 CUDA Toolkit 13.1:20 年來最大升級,推出全新 CUDA Tile 編程模型!_開發者

1. CUDA Tile:面向張量核心的全新編程範式

CUDA Tile 是本次更新的核心。它引入基於 tile 的編程模型,使開發者能夠在高於傳統 SIMT(單指令多線程)層級上編寫核函數,直接操作數據塊(Tile),而無需手動管理線程映射。編譯器和運行時會自動將 Tile 分配到最合適的線程和硬件單元,尤其是對 Tensor Core 的抽象,使代碼在當前及未來 GPU 架構上保持兼容。CUDA Tile 包含兩大組件:

英偉達發佈 CUDA Toolkit 13.1:20 年來最大升級,推出全新 CUDA Tile 編程模型!_CUDA_02

CUDA Tile IR:全新虛擬指令集架構。

cuTile Python:面向 Python 的領域特定語言(DSL),讓科研人員和工程師可以用類似 NumPy 的方式編寫高效 GPU 核函數。

目前 CUDA Tile 僅支持 NVIDIA Blackwell 系列(計算能力 10.x、12.x),後續將擴展至更多架構,並計劃在後續版本中提供 C++ 實現。


2. 運行時與資源管理的升級

這些特性幫助用户在複雜工作負載下實現更細粒度的資源調度,降低任務間的偽依賴。

英偉達發佈 CUDA Toolkit 13.1:20 年來最大升級,推出全新 CUDA Tile 編程模型!_開發者_03

3. 數學庫與工具鏈的強化

cuBLAS:加入雙精度/單精度仿真以及對 FP8、BF16、FP4 等新數據類型的加速支持,尤其在 Blackwell GPU 上實現最高 4 倍的 GEMM 加速。

cuSPARSE、cuFFT、cuSOLVER:分別推出新的稀疏矩陣向量乘、設備端 FFT API 與特徵分解批處理優化,顯著提升大規模線性代數運算性能。

Nsight Compute 與 Nsight Systems:新增 Tile 統計信息、跨進程系統級 CUDA 追蹤以及對 Green Context 的可視化支持,幫助開發者更直觀地分析 Tile 核函數的執行情況。

此外,Compute Sanitizer 通過 -fdevice-sanitize=memcheck 標誌實現了對 NVCC 編譯時修補的支持,提升了內存錯誤檢測的效率。


4. 開發者文檔與生態建設

英偉達同步發佈了全新重寫的《CUDA 編程指南》,針對新手與高級用户分別提供了入門與進階章節,幫助社區快速上手 CUDA Tile 與 Green Context。官方還提供了完整的下載鏈接與示例代碼,鼓勵開發者在 Python 中嘗試 Tile 編程,並計劃在未來開放 C++ 版實現,以進一步豐富生態。


5. 市場與行業影響

CUDA Toolkit 13.1 的發佈正值 AI 大模型、生成式 AI 與高性能計算需求激增的關鍵時期。全新 Tile 編程模型降低了利用 Tensor Core 的門檻,預計將加速 AI 推理與訓練效率,幫助科研機構與企業在算力成本上實現更佳的性價比。業內分析師指出,隨着 Blackwell 系列 GPU 的上市,CUDA 13.1 將成為新一代 AI 工作負載的核心軟件平台。


結語

本次 CUDA Toolkit 13.1 的發佈不僅是一次功能堆砌,更是對 GPU 編程範式的深度重塑。通過 Tile 抽象、Green Context 資源管理以及數學庫的性能提升,英偉達為開發者提供了更高效、更易用的工具鏈,進一步鞏固了其在高性能計算與人工智能領域的領先地位。隨着後續對更多架構的支持和 C++ 實現的推出,CUDA Tile 有望成為未來 GPU 編程的主流方式。