博客 / 詳情

返回

利用騰訊開源 Hunyuan3D 2.1:在 DigitalOcean GPU Droplet 上快速搭建 3D 模型

你是否曾幻想將腦海中的創意或精美的 2D 圖像,瞬間轉化為能在虛擬世界中使用的 3D 模型?

在人工智能逐漸成為創意“引擎”的今天,我們見證了圖像和視頻生成模型(如 Flux、Hi-Dream、Wan 等)帶來的巨大飛躍,它們讓“所思即所得”成為可能。然而,對於渴望將這些概念帶入遊戲、動畫、元宇宙或其他三維項目的創作者而言,“如何跨越 2D 到 3D 的鴻溝” 仍是一個巨大的挑戰。

長久以來,將 2D 概念轉化為高質量 3D 模型,意味着耗時耗力的手工建模過程,這需要藝術家投入如苦行僧般的耐心和技藝。但現在,這一切都改變了。

圖像到 3D 建模,作為計算機視覺領域的一個顛覆性分支,正在以驚人的速度進化。我們正在進入一個新時代——一個由強大的 AI 模型驅動,能夠從單張圖像直接生成具備紋理和色彩的 3D 網格的時代。

在本教程中,我們將帶你深入探索這一前沿技術。我們將逐步指導你,如何在 DigitalOcean GPU Droplet 上,利用開源的頂尖模型 ​騰訊 Hunyuan3D 2.1​,將你精心製作的 2D 圖像轉化為可用於 3D 項目的高質量模型。你將全面掌握從圖像生成、環境配置到 3D 模型導出的完整流程,親身感受 AI 如何以前所未有的速度和效率,實現你的 3D 創意。

騰訊 Hunyuan3D 2.1 模型是什麼?

按照慣例,還是先介紹一下我們教程裏要用到的大語言模型。

在圖像到 3D 建模領域,開源的基礎模型長期以來一直是一個空白。騰訊的研究人員敏鋭地捕捉到了這一市場空缺,並着手填補這一日益明顯的人工智能領域缺失。他們為此推出了首個 Hunyuan3D 和 Hunyuan3D 2.0 模型,一經發布便在業界引起轟動,吸引了眾多工程師和開發者的關注。

為了進一步提升成果,他們最近推出了 Hunyuan3D 2.1。Hunyuan3D 2.1 是“一個全面的 3D 模型創建系統,可從單張圖像輸入生成帶紋理的網格”。它主要由兩個完全公開的基礎模型組成,即 Hunyuan3D-DiT ——“一種結合了基於流的擴散架構與高保真網格自編碼器(Hunyuan3D-ShapeVAE)的形狀生成模型”,以及 Hunyuan3D-Paint ——“一種基於網格條件的多視角擴散模型,用於生成 PBR 材質,產出高質量、多通道對齊且視角一致的紋理”。

簡而言之,在形狀生成方面,他們利用 Hunyuan3D-ShapeVAE 和 Hunyuan3D-DiT 實現高質量、高保真的形狀生成。具體而言,Hunyuan3D-ShapeVAE 採用網格表面重要性採樣以增強鋭利邊緣,並使用變分 token 長度來提升複雜幾何細節的表現力。Hunyuan3D-DiT 則繼承了最新的先進流匹配模型,構建了一個可擴展且靈活的擴散模型。

上圖展示了整個流程的結構。我們從一個二維對象的單張圖像輸入開始。首先,Hunyuan3D-DiT 接收輸入並生成原始對象的高質量形狀表示。接着,Hunyuan3D-ShapeVAE 利用網格表面採樣來檢測並增強邊緣、優化幾何細節,並輸出 3D 形狀對象。

在紋理合成方面,Hunyuan3D-Paint 引入了一種多視角 PBR 擴散機制,為網格生成反照率(albedo)、金屬度(metallic)和粗糙度(roughness)貼圖。值得注意的是,Hunyuan3D-Paint 採用了空間對齊的多注意力模塊,以對齊反照率與金屬度/粗糙度(MR)貼圖;使用 3D 感知的 RoPE(旋轉位置編碼)來增強跨視角一致性;並採用光照不變的訓練策略,以生成對不同光照條件魯棒的無光照反照率貼圖。Hunyuan3D 2.1 將形狀生成與紋理生成分為兩個獨立階段,這是一種經先前大型重建模型驗證有效的更先進策略。這種模塊化設計允許用户僅生成無紋理網格,或為自定義模型應用紋理,從而提升工業應用的靈活性。

使用 Hunyuan3D 2.1 從圖像創建 3D 素材

設置 ​GPU​ Droplet

要實際運行該流程,我們需要一台配備足夠顯存(VRAM)的 GPU 服務器,以同時支持紋理繪製和 3D 建模階段。因此,我們推薦使用 DigitalOcean Gradient 平台上的 NVIDIA GPU Droplet 雲服務器(按需實例),至少配備 40GB VRAM,例如 NVIDIA L40S、A6000、H100 或 H200 GPU。如需開始配置你的 GPU Droplet 及環境,建議遵循 DigitalOcean 基礎教程中的設置説明。

如果你需要進一步瞭解 DigitalOcean 的 GPU 按需實例或裸金屬服務器,可直接諮詢 DigitalOcean 中國區獨家戰略合作伙伴卓普雲 aidroplet.com。

為 Hunyuan3D 2.1 創建 ​GPU​ Droplet 環境

安裝運行 Hunyuan3D 2.1 所需的所有庫只需幾分鐘。首先,我們將創建一個虛擬環境,然後克隆代碼倉庫、安裝依賴包,並最終下載超分模型。要執行安裝和下載,請將以下命令粘貼到遠程機器的命令行中:

git clone https://github.com/Tencent-Hunyuan/Hunyuan3D-2.1  
cd Hunyuan3D-2.1
vim requirements.txt # 註釋掉 numpy, pymeshlab, ninja, open3D, onnxruntime, 和 bpy 的安裝行
pip install -r requirements.txt 
pip install pymeshlab open3D onnxruntime ninja numpy
pip install fake-bpy-module-2.80
cd hy3Dpaint/custom_rasterizer
Python -m setup.py install
cd ../..
cd hy3Dpaint/DifferentiableRenderer
bash compile_mesh_painter.sh
cd ../..

wget https://github.com/xinntao/Real-ESRGAN/releases/download/v0.1.0/RealESRGAN_x4plus.pth -P hy3Dpaint/ckpt

完成後,我們即可開始製作模型。

在 DigitalOcean ​GPU​ Droplet 上運行 Hunyuan3D 2.1 創建 3D 模型

要開始製作 3D 模型,我們首先需要啓動作者提供的 Gradio 應用程序。由於環境已配置完畢,我們只需粘貼以下啓動命令:

python3 gradio_app.py \
  --model_path tencent/Hunyuan3D-2.1 \
  --subfolder hunyuan3D-dit-v2-1 \
  --texgen_model_path tencent/Hunyuan3D-2.1 \
  --low_vram_mode

然後複製輸出的鏈接,並通過 VS Code 或 Cursor 的簡易瀏覽器功能在本地瀏覽器中訪問該鏈接。

此時,我們將看到如上所示的 Web 圖形界面。上傳你選擇的圖像,或從右側圖庫中挑選一張,並根據需要調整相關高級選項。我們建議取消勾選“隨機種子”按鈕以增強可控性,並增加推理步數以獲得更清晰的輸出。

在圖像選擇方面,我們推薦使用無背景的清晰 3D 風格圖像。在我們的實驗中,純黑背景效果最佳。我們的示例使用 Imagen 4 和 Flux.1 生成,並在提示詞中加入“純黑背景,3D 風格”等標籤。如果你向流程提交高質量圖像,將能生成準確的形狀與紋理 3D 表示。隨後,我們可以按需轉換並下載這些模型,支持 glb、ply、stl 和 obj 等格式。

該流程的侷限性有兩點:一是表示模型的準確性,二是無法建模 2D 對象。我們生成的模型在正面捕捉方面表現優異,但在原始輸入未見的側面常出現問題。例如,在上文示例中,我們可以看到被極度拉長的尾巴和地面平台。至於 2D 風格圖像,我們發現模型需要圓潤的特徵和邊緣才能準確將圖像投影到 3D 空間,而這些特徵在 2D 繪圖或動畫中天然缺失。因此,我們建議為 Hunyuan3D 2.1 使用“3D 風格”圖像,如渲染圖或照片。

結語

總體而言,Hunyuan3D 2.1 是我們目前所見 AI 領域中用於即時創建 3D 模型最強大的工具。藉助它,我們可以在數小時內創建數百個 3D 模型,而過去這一過程需要數天時間。

不僅如此,像 HunyuanWorld Mirror 這樣的項目甚至能僅憑圖像就將你帶入 3D 世界並自由漫遊。我們期待看到這項技術在未來持續進步。

最後,如果你還希望進一步瞭解 DigitalOcean GPU Droplet 還有哪些型號的 GPU,可直接訪問 DigitalOcean 中國區獨家戰略合作伙伴卓普雲 aidroplet.com 的官網,或與他們的技術支持、商務團隊進行諮詢。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.