如果説以往的 3D 視覺模型像「術業有專攻」的匠人,那麼 Depth-Anything-3(DA3) 就是那個突然橫空出世、把所有活都能幹而且幹得還賊好的「全能大師」。它的秘訣很簡單:只用一個標準 Vision Transformer,就能同時搞定深度估計、相機位姿、三維重建和視角渲染。 給它一張圖,它能看深度;給它幾張圖,它能還原三維結構;給它視頻,它還能把相機怎麼動的都推出來;換個角度,它還能幫你把「沒見過的世界」重新畫一遍。
DA3 不僅能幹,而且幹得比以前的 SOTA 還好。在五大數據集構成的幾何基準上,DA3 對深度、幾何、位姿、渲染四大指標全面刷新記錄,甚至小模型版本都能打贏別人家大模型 —— 這性能,妥妥「打小怪獸像打蚊子」級別的。
它的潛力也很讓人上頭:無論是機器人需要看清路、AR/VR 需要理解空間、無人機想認清地形,還是想把普通相機變成「會理解世界的 3D 傳感器」,DA3 都能輕鬆勝任。
換句話來説,DA3 就像給普通相機開了「空間透視外掛」,把原本平面的畫面變成可理解、可計算的 3D 世界。
教程鏈接:https://go.openbayes.com/chi4z
使用雲平台: OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
首先點擊「公共教程」,找到「Depth-Anything-3:從任何視角恢復視覺空間」,單擊打開。
頁面跳轉後,點擊右上角「克隆」,將該教程克隆至自己的容器中。
在當前頁面中看到的算力資源均可以在平台一鍵選擇使用。平台會默認選配好原教程所使用的算力資源、鏡像版本,不需要再進行手動選擇。點擊「繼續執行」,等待分配資源。
數據和代碼都已經同步完成了。容器狀態顯示為「運行中」後,點擊「API 地址」,即可進入模型界面。
使用步驟如下:
參數説明
- 採樣幀率設置
-
- Sampling FPS (Frames Per Second):控制視頻採樣的每秒幀數。
- 圖像處理與 3D 推理設置
-
- Image Processing Method:選擇圖像處理模式,適配更多圖像數量。
- Infer 3D Gaussian Splatting:啓用 3D 高斯濺射推理,生成 3D 模型需額外處理時間。
- 渲染軌跡與視頻質量設置
-
- Rendering trajectory for 3DGS viewpoints:選擇 3DGS 視角的渲染軌跡類型。
- Video quality for 3DGS rendered outputs:控制 3DGS 渲染輸出的視頻質量。
- 可視化選項
-
- Show Camera:在3D視圖中顯示相機軌跡。
- Filter Black Background:過濾點雲中的黑色背景區域。
- Filter White Background:過濾點雲中的白色背景區域。
- Filter Percentage:控制點雲過濾強度。
- Max Points (K points):設置導出 GLB 格式 3D 模型的最大點數。
效果展示
三維點雲和相機軌跡/位姿(Point Cloud & Cameras)
度量深度圖(Metric Depth)
3D 高斯渲染新視角(3DGS Rendered Novel Views)