tag gpu

標籤
貢獻11
97
05:54 PM · Oct 25 ,2025

@gpu / 博客 RSS 訂閱

超神經HyperAI - 從結合式異構加速到融合式 AI 加速,多位院士齊聚CCF HPC China共探科研新範式

在現代科學研究中,高性能計算(HPC)已成為推動重大突破的核心引擎,其以遠超常規計算機的算力,為科學家提供了探索未知世界的「放大鏡」和「加速器」。從模擬宇宙演化、預測氣候變化,到揭示生命分子的運作機制、加速新藥研發,HPC 正不斷拓展人類認知的邊界。 尤其在數據爆炸與人工智能快速發展的時代,AI for Science 發展提速,在很多科研領域,AI 仍存在精度不足、泛化能力弱、通用性不強等問題,

gpu , ai開發 , 人工智能 , 高性能計算 , cpu

收藏 評論

GMICloud - 網易科技專訪 GMI Cloud 創始人&CEO Alex Yeh:以“產品+佈局+服務”構建全球競爭力

摘要 日前,網易科技對 GMI Cloud 創始人兼CEO Alex Yeh 進行了專訪,內容主要圍繞 AI 算力賽道機遇、GMI Cloud 差異化優勢及全球佈局等,下文為對話精華實錄。 近期,網易科技對話了全球頭部 AI Cloud 算力提供商 GMI Cloud 的創始人兼CEO Alex Yeh。他從全球行業視角指出,大模型的持續迭代與推理應用的爆發,正推動高端算力需求進入一個前所未有的黃

觀點 , gpu , 人工智能

收藏 評論

木子君_求贊 - 在GPU上實現堆排序

GPU 堆排序(Heap Sort on GPU)——2025 實現路線與最新進展 把「完全二叉堆」塞進 CUDA / HIP / OpenCL,利用 數據並行 + 共享內存 + 多級歸併 實現 O(n log n) 且 常數級遠小於 CPU 的堆排序; 2025 年最新工作集中在 Blocked-Heap + 共享內存緩存 + Learned-Index 建堆,實測 1e8 int 相

排序 , gpu , 排序學習 , c++

收藏 評論

探索雲原生 - HAMi vGPU 原理分析 Part4:Spread&Binpack 高級調度策略實現

上篇我們分析了 hami-scheduler 工作流程,知道了 hami-webhook、hami-scheduler 是怎麼配合工作的。 本文為 HAMi 原理分析的第四篇,分析 hami-scheduler 在調度時是如何選擇節點的,即:Spread、Binpack 等高級調度策略是怎麼實現的。 !--more-- 這篇文章我們解決最後一個問題:_Spread、Binpack 等高級調度策略

容器 , kubernetes , gpu , 人工智能 , go

收藏 評論

u_16429613 - 點量雲流突破架構壁壘,實現全棧信創自主可控

在信創產業加速推進的背景下,軟硬件技術的自主可控成為關鍵發展路徑。點量雲流率先實現從硬件適配到軟件生態的全棧信創佈局,為各行業提供安全可靠的實時雲渲染解決方案。 一、全面覆蓋主流硬件架構,夯實自主根基 點量雲流實時雲渲染率先完成對ARM架構的深度適配,全面支持鯤鵬等國產芯片,同時兼容x86架構的海光、兆芯等處理器,實現跨平台硬件覆蓋。在圖形處理層面,點

虛擬化 , 國產信創 , yyds乾貨盤點 , 雲計算 , 操作系統 , 硬件架構 , gpu , 實時雲渲染

收藏 評論

程序元元 - 模型被擠了?立即查看服務器GPU/CPU佔用,別再誤殺他人進程!

昨天晚上跑的模型今天來一看別別人kill了 心累 更讓人鬱悶的是,你後來才發現,原來有些人根本不會先看服務器是不是空着。 但抱怨歸抱怨,作為一名有素質的“共享玩家”,學會在自己跑模型前,先看看服務器上有沒有別人在跑,以及如何友好地處理資源衝突,這應該是所有人應該最先學習的! 【重要忠告⚠️】核心原則:千萬不要直接 Kill 別人的進程!這是共享服務器的基本素養,請務必牢記。 那到底該怎麼看服務器的

gpu , linux命令 , 服務器管理 , cpu

收藏 評論

思否編輯部 - AI推理硬件選型指南:CPU 與 GPU 的抉擇

AI基礎設施的建設不應追逐硬件潮流,而在於為任務選擇最合適的工具。 Akamai全球分佈式邊緣網絡能獨特地為實時應用提供可擴展、高性價比的AI推理服務。通過對CPU的戰略性使用,Akamai進一步降低了多種推理工作負載的成本與能耗,且無需犧牲性能。 如您所在的企業正在考慮構建和部署 AI 賦能應用程序,或您正在尋找合適的 AI 推理運行環境 點擊鏈接瞭解 Akamai AI 推理雲解決方案,

資訊 , gpu , 人工智能 , ai芯片 , cpu

收藏 評論

侑虎科技 - 如何統計DrawMeshInstancedIndirect繪製物體的Triangle數據

1)如何統計DrawMeshInstancedIndirect繪製物體的Triangle數據 2)如何量化骨骼數量對功耗的影響 3)Sprite Atlas和單獨的Sprite的RW設置分別如何影響內存 4)Playable的Animator.WriteTransform一直執行在一個Job線程裏 這是第444篇UWA技術知識分享的推送,精選了UWA社區的熱門話題,涵蓋了UWA

animation , gpu , memory

收藏 評論

思否編輯部 - 共歲寒之約!VeloxCon China 2025 參會攻略出爐

作為全球 Velox 社區的重要年度活動,這是 VeloxCon 首次來到中國。 大會不僅邀請到 Meta 核心開發團隊,更特別聚焦中國技術生態,邀請了來自螞蟻集團、阿里雲、騰訊、小紅書等企業的工程師與技術負責人,分享 Velox 在本土業務中的真實應用。 從大模型訓練的數據 pipeline 優化、湖倉一體下的查詢加速,到流批融合執行與 GPU 資源協同。這些實踐源於高併發、強實時、大規模的生產

大數據 , gpu , 開發者

收藏 評論

侑虎科技 - Sprite紋理被材質引用導致冗餘問題

1)Sprite紋理被材質引用導致冗餘問題 2)為什麼在Android端發現Vertices shaded次數遠大於Unity場景中的模型頂點數 3)物體使用Unlit的材質,為何會被點光源打斷合批 4)微信小遊戲2D動畫方案如何選擇 這是第439篇UWA技術知識分享的推送,精選了UWA社區的熱門話題,涵蓋了UWA問答、社區帖子等技術知識點,助力大家更全面地掌握和學習。 UWA

animation , gpu , rendering , memory

收藏 評論

超神經HyperAI - 【TVM 教程】在 NVIDIA GPU 上調優高性能卷積

Apache TVM 是一個端到端的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者:Lianmin Zheng 本教程介紹如何為 NVIDIA GPU 編寫高性能可調模板。通過在此模板上運行自動調優器,可在許多情況下勝過供應商提供的 cuDNN 庫。 注意,本教程不會在 Windows 或最新版本的

機器學習 , gpu , 人工智能 , 編譯器 , 深度學習

收藏 評論

超神經HyperAI - 【TVM 教程】Python Target 參數化

Apache TVM 是一個深度的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 摘要 對於任何支持的 runtime,TVM 都應該輸出正確的數字結果。因此,在編寫驗證數字輸出的單元測試時,這些單元測試應該在所有支持的 runtime 上都能正常運行。由於這是一個非常常見的用例,TVM 的輔助函數可以對

gpu , 編譯器 , 參數傳遞 , cpu , Python

收藏 評論

超神經HyperAI - 【Triton 教程】triton_language.join

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ triton.language.join(a, b) 在 1 個新的次要維度中連接給定的張量。 For example, given

算法 , gpu , 編譯器 , cpu , Python

收藏 評論

GpuGeek - 一文走進GpuGeek | pip常用命令

pip 常用命令: 默認情況下,GpuGeek平台的 pip 命令是使用 miniconda3 進行安裝,可以通過如下 pip -V 命令查看 pip 安裝目錄。 查看pip命令安裝目錄 pip -V 查看pip命令執行程序位置 command -V pip 查看當前pip版本 pip --version 列出所有已安裝的包 pip list 安裝最新版本的numpy庫 pip install

雲平台 , gpu , pip , 人工智能

收藏 評論

GMICloud - GMI Cloud 攜手英偉達在亞太建設 AI Factory,GB300 萬卡集羣,斥資 5 億美金

摘要 GMI Cloud基於GB300的 AI Factory 啓動構建,該項目攜手英偉達(NVIDIA),總投資額達 5 億美元,萬卡集羣將為全亞太AI產業發展提供堅實支撐。 本週,作為英偉達(NVIDIA)全球六大 Reference Platform NVIDIA Cloud Partner 之一及全球增長最快的 GPU 即服務(GPU-as-a-Service)提供商之一,GMI

資訊 , 雲計算 , gpu , 人工智能

收藏 評論

超神經HyperAI - 【Triton 教程】矩陣乘法

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 在本教程中,您將編寫一個非常簡短的高性能 FP16 矩陣乘法內核,其性能可以與 cuBLAS 或 rocBLAS 相媲美。 您將具體學

編程 , gpu , 人工智能 , 編譯器 , 深度學習

收藏 評論

超神經HyperAI - 【TVM 教程】向 TVM 中添加 Codegen

Apache TVM 是一個深度的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 隨着深度學習工作負載所針對的硬件設備數量不斷增加,用户在各種設備上實現高性能所需的知識也在不斷增加。為了讓數據科學家在開發新模型時不必擔心性能問題,硬件廠商或是基於一些常見的深度學習算子,提供 MKLDNN 或 cuDNN

算法 , gpu , 代碼編輯器 , cpu , Python

收藏 評論

超神經HyperAI - 【TVM 教程】為 x86 CPU 自動調優卷積網絡

Apache TVM 是一個深度的深度學習編譯框架,適用於 CPU、GPU 和各種機器學習加速芯片。更多 TVM 中文文檔可訪問 →https://tvm.hyper.ai/ 作者:Yao Wang, Eddie Yan 本文介紹如何為 x86 CPU 調優卷積神經網絡。 注意,本教程不會在 Windows 或最新版本的 macOS 上運行。如需運行,請將本教程的主體放在 if name == "

gpu , 人工智能 , 編譯器 , 深度學習 , cpu

收藏 評論

超神經HyperAI - 【Triton 教程】融合注意力 (Fused Attention)

Triton 是一種用於並行編程的語言和編譯器。它旨在提供一個基於 Python 的編程環境,以高效編寫自定義 DNN 計算內核,並能夠在現代 GPU 硬件上以最大吞吐量運行。 更多 Triton 中文文檔可訪問 →https://triton.hyper.ai/ 這是根據 Tri Dao 的 Flash Attention v2 算法的 Triton 實現。致謝:OpenAI 核心團隊 特別鳴謝

編程 , gpu , 人工智能 , 編譯器 , 後端

收藏 評論

美團技術團隊 - 新一代CTR預測服務的GPU優化實踐

CTR模型在互聯網的搜索、推薦、廣告等場景有着廣泛的應用。近年來,隨着深度神經網絡的引入,CTR模型的推理對硬件算力的要求逐漸增加。本文介紹了美團在CTR模型優化的實踐。通過分析模型結構特點,結合GPU硬件架構,我們設計了一系列流程對模型進行定製優化,達到了降低延遲、提高吞吐、節省成本的目標。 1 背景 CTR(Click-Through-Rate)即點擊通過率,是指網絡廣告的點擊到達率,即該廣告

機器學習 , 後台 , gpu

收藏 評論

雲輕雨細 - 服務器核心組件:CPU 與 GPU 的核心區別、應用場景、協同工作

前言 在服務器硬件裏,CPU和GPU就像兩位各司其職的“核心工匠”:一個擅長處理複雜精密的“細活”,一個精通批量高效的“粗活”。很多人知道它們都是“計算引擎”,卻分不清什麼時候該用誰、二者到底差在哪。今天就帶大家搞懂服務器中CPU與GPU的核心區別,以及它們如何聯手幹活。 一、先搞懂基本概念:CPU和GPU分別是“幹什麼的”? 想分清二者的區別,得先知道它們的“本職工作”——就像認識兩個人,先了解

服務器配置 , gpu , cpu

收藏 評論