智元機器人團隊宣佈開源基於 GPU 硬件解碼的高性能視頻數據加載庫 VideoDataset,旨在解決海量視頻數據訓練中的存儲和計算瓶頸問題。
據介紹,VideoDataset 是基於實際 AI 訓練需求深度開發的高性能視頻數據加載庫,具有以下特性:
- 極致性能: 通過將解碼任務從傳統的 CPU 轉移到 GPU,充分挖掘硬件解碼能力,吞吐量提升 4 倍。
- 隨機訪問: 解決了硬件解碼通常不支持隨機尋幀 (Random Seek) 的業界難題,專為 AI 訓練設計的隨機採樣功能。
- 無縫集成: 兼容 PyTorch Dataset 接口,提供 Mixin 類,開發者改幾行代碼即可接入現有訓練流。
VideoDataset 與主流 CPU 軟件解碼方案對比,在解碼吞吐量上提升了3到4倍。並且,它能更有效地分擔計算負載,從而將解碼任務近乎剝離CPU。這一優勢使得 VideoDataset 在大規模視頻數據訓練中不僅能提供更高的解碼效率,還能最大限度地利用GPU資源,提高整體訓練效率。
GitHub 地址:https://github.com/AgiBot-World/VideoDataset