智元機器人開源 VideoDataset：基於 GPU 硬件解碼的 VLM 訓練加速利器 - 新聞詳情 | YeLogs.com

智元機器人開源 VideoDataset：基於 GPU 硬件解碼的 VLM 訓練加速利器

新聞

HongKong

57

03:43 PM · Dec 09 ,2025

智元機器人團隊宣佈開源基於 GPU 硬件解碼的高性能視頻數據加載庫 VideoDataset，旨在解決海量視頻數據訓練中的存儲和計算瓶頸問題。

據介紹，VideoDataset 是基於實際 AI 訓練需求深度開發的高性能視頻數據加載庫，具有以下特性：

極致性能： 通過將解碼任務從傳統的 CPU 轉移到 GPU，充分挖掘硬件解碼能力，吞吐量提升 4 倍。
隨機訪問： 解決了硬件解碼通常不支持隨機尋幀 (Random Seek) 的業界難題，專為 AI 訓練設計的隨機採樣功能。
無縫集成： 兼容 PyTorch Dataset 接口，提供 Mixin 類，開發者改幾行代碼即可接入現有訓練流。

VideoDataset 與主流 CPU 軟件解碼方案對比，在解碼吞吐量上提升了3到4倍。並且，它能更有效地分擔計算負載，從而將解碼任務近乎剝離CPU。這一優勢使得 VideoDataset 在大規模視頻數據訓練中不僅能提供更高的解碼效率，還能最大限度地利用GPU資源，提高整體訓練效率。

GitHub 地址：https://github.com/AgiBot-World/VideoDataset

0 位用戶收藏了這個故事！