博客 / 詳情

返回

ICLR2026 | 視頻虛化新突破!Any-to-Bokeh 一鍵生成電影感連貫效果

作者:vivo BlueImage Lab
本文入選 ICLR 2026
ICLR(International Conference on Learning Representations)是聚焦機器學習與深度學習等領域的國際頂級學術會議,致力於推動人工智能理論與方法的前沿研究與創新發展。ICLR 2026 約19000篇投稿,接收率約28.18%。

項目主頁:

github.com/vivoCameraRe

摘要:

針對視頻散景製作常面臨操作複雜、效果不自然等問題,難以滿足創作者高效出片需求等問題,我們提出 Any-to-Bokeh 一鍵式視頻虛化工具,對應的論文已被 ICLR2026 接收!該工具無需複雜操作無需專業操作即可生成電影感虛化效果。為短視頻創作者、影視從業者提供了高效易用的創作工具,也為相關領域科研提供可參考的實踐成果,助力 AI 視頻編輯技術更貼近實用需求。項目代碼與試用指南已公開至 GitHub,誠邀大家體驗試用,歡迎 Star 支持並引用。

該工作由vivo BlueImage Lab,浙江大學共同完成。

image
 

在 AI 圖像編輯領域,虛化效果(Bokeh)的實現早已不是難題——通過擴散模型,我們能輕鬆模擬專業相機的虛化質感,讓普通圖片瞬間提升氛圍感。但當需求延伸到視頻領域,挑戰卻陡然升級:現有工具要麼無法精準控制對焦平面與虛化強度,要麼直接套用圖片虛化算法,導致視頻出現明顯的幀間閃爍、邊緣過渡生硬等問題,難以滿足高質量創作需求。

近日,我們團隊發佈了題為《Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model》,為視頻虛化難題提供了創新性解決方案,已正式被國際機器學習頂會 ICLR2026 接收。我們研發的這一框架,憑藉獨特的技術設計,實現了 “任意視頻輸入→高質量虛化輸出” 的一步式轉換,同時兼顧可控性與時間連貫性。

一、核心優勢:解決視頻虛化三大痛點

精準可控,效果自定義:

我們突破傳統視頻編輯工具的侷限,支持顯式控制對焦平面與虛化強度。無論是想突出畫面主體、弱化背景干擾,還是調整虛化強度適配不同場景(如人像特寫、風景延時),都能精準實現,滿足多樣化創作需求。

時間連貫,無閃爍無斷層:

針對 “圖片虛化擴展至視頻” 的核心痛點,我們在框架中引入多平面圖像(MPI)表示 —— 通過逐步拓寬的深度採樣函數構建 3D 幾何結構,為每幀的虛化合成提供統一的幾何引導。再結合 Stable Video Diffusion 等預訓練模型的強 3D 先驗,從根源上解決了幀間閃爍、邊緣模糊過渡不自然的問題,讓長視頻的虛化效果始終連貫統一。

魯棒性強,細節不丟失:

我們採用漸進式訓練策略,不僅提升了模型對不同場景、不同深度分佈視頻的適配能力(深度魯棒性),還能在生成虛化效果的同時,精準保留主體細節。無論是動態人物、快速移動的物體,還是紋理複雜的場景,都能實現 “虛化自然、細節清晰” 的平衡。

二、技術邏輯:一步式生成的背後

Any-to-Bokeh 的核心創新在於提出了一種 “MPI 引導的單步視頻擴散模型”:

  • 輸入任意視頻後,模型先通過 MPI 構建場景的 3D 深度結構,明確不同區域的空間層級;
  • 將 MPI 分層信息作為條件,輸入單步視頻擴散模型,結合預訓練模型的 3D 認知,直接生成符合深度邏輯的虛化效果;
  • 無需多步迭代,一步完成轉換,兼顧效率與效果,讓普通用户也能快速上手。

 

三、應用場景:覆蓋多領域創作需求

無論是短視頻創作者、Vlogger、自媒體人,還是專業視頻剪輯師,都能從 Any-to-Bokeh 中受益:

  • 日常 Vlog:給生活記錄視頻添加電影感虛化,提升內容質感;
  • 商業創作:快速製作產品宣傳視頻、廣告片,通過可控虛化突出核心賣點;
  • 影視後期:簡化虛化效果製作流程,減少手動調整幀間一致性的工作量;
  • 社交媒體內容:讓旅行視頻、人像短片在社交平台更具視覺吸引力;
  • 學術研究:為視頻編輯、擴散模型應用等相關方向提供技術參考與實踐基礎。

目前,我們的論文已在arXiv公開,項目代碼與試用指南也已同步更新至 GitHub。

誠邀大家前往 GitHub 體驗試用,若覺得工具實用、技術有參考價值,歡迎給我們點亮Star,也期待相關領域的科研同行引用我們的工作(論文引用格式可在 GitHub 查看)~ 你們的支持是我們持續優化技術的最大動力!

未來,我們也會不斷迭代版本,解鎖更多實用功能,讓 AI 視頻創作的 “氛圍感自由” 惠及更多人。

持續關注我們的 GitHub 與論文進展,一起探索視頻編輯的更多可能。

 

關於vivo BlueImage Lab

vivo BlueImage Lab(藍圖影像創新實驗室)主要負責移動影像算法創新,持續突破移動影像的技術天花板。 該實驗室的工作重點包括圖像/視頻處理、圖像/視頻交互、圖像/視頻增強、多模態理解大模型等方面的技術前沿探索。團隊成員大多是來自國內外頂尖高校的博士,博士後,具有計算機視覺、圖像處理、人工智能等相關領域的專業背景,擁有豐富的前沿技術創新經驗。 他們致力於不斷提升vivo移動影像的算法能力,使用户能夠拍攝出更加清晰、美觀的照片和視頻。除了移動影像,他們也積極探索增強現實、具身智能等新興技術領域的應用,努力為用户提供更加豐富和便捷的影像體驗。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.