ICLR2026 | 視頻虛化新突破！Any-to-Bokeh 一鍵生成電影感連貫效果詳情 - AI vivotech 博客

作者：vivo BlueImage Lab
本文入選 ICLR 2026
ICLR（International Conference on Learning Representations）是聚焦機器學習與深度學習等領域的國際頂級學術會議，致力於推動人工智能理論與方法的前沿研究與創新發展。ICLR 2026 約19000篇投稿，接收率約28.18%。

項目主頁：

https://github.com/vivoCameraResearch/any-to-bokeh

摘要：

針對視頻散景製作常面臨操作複雜、效果不自然等問題，難以滿足創作者高效出片需求等問題，我們提出 Any-to-Bokeh 一鍵式視頻虛化工具，對應的論文已被 ICLR2026 接收！該工具無需複雜操作無需專業操作即可生成電影感虛化效果。為短視頻創作者、影視從業者提供了高效易用的創作工具，也為相關領域科研提供可參考的實踐成果，助力 AI 視頻編輯技術更貼近實用需求。項目代碼與試用指南已公開至 GitHub，誠邀大家體驗試用，歡迎 Star 支持並引用。

該工作由vivo BlueImage Lab，浙江大學共同完成。

在 AI 圖像編輯領域，虛化效果（Bokeh）的實現早已不是難題——通過擴散模型，我們能輕鬆模擬專業相機的虛化質感，讓普通圖片瞬間提升氛圍感。但當需求延伸到視頻領域，挑戰卻陡然升級：現有工具要麼無法精準控制對焦平面與虛化強度，要麼直接套用圖片虛化算法，導致視頻出現明顯的幀間閃爍、邊緣過渡生硬等問題，難以滿足高質量創作需求。

近日，我們團隊發佈了題為《Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model》，為視頻虛化難題提供了創新性解決方案，已正式被國際機器學習頂會 ICLR2026 接收。我們研發的這一框架，憑藉獨特的技術設計，實現了 “任意視頻輸入→高質量虛化輸出” 的一步式轉換，同時兼顧可控性與時間連貫性。

一、核心優勢：解決視頻虛化三大痛點

精準可控，效果自定義：

我們突破傳統視頻編輯工具的侷限，支持顯式控制對焦平面與虛化強度。無論是想突出畫面主體、弱化背景干擾，還是調整虛化強度適配不同場景（如人像特寫、風景延時），都能精準實現，滿足多樣化創作需求。

時間連貫，無閃爍無斷層：

針對 “圖片虛化擴展至視頻” 的核心痛點，我們在框架中引入多平面圖像（MPI）表示 —— 通過逐步拓寬的深度採樣函數構建 3D 幾何結構，為每幀的虛化合成提供統一的幾何引導。再結合 Stable Video Diffusion 等預訓練模型的強 3D 先驗，從根源上解決了幀間閃爍、邊緣模糊過渡不自然的問題，讓長視頻的虛化效果始終連貫統一。

魯棒性強，細節不丟失：

我們採用漸進式訓練策略，不僅提升了模型對不同場景、不同深度分佈視頻的適配能力（深度魯棒性），還能在生成虛化效果的同時，精準保留主體細節。無論是動態人物、快速移動的物體，還是紋理複雜的場景，都能實現 “虛化自然、細節清晰” 的平衡。

二、技術邏輯：一步式生成的背後

Any-to-Bokeh 的核心創新在於提出了一種 “MPI 引導的單步視頻擴散模型”：

輸入任意視頻後，模型先通過 MPI 構建場景的 3D 深度結構，明確不同區域的空間層級；
將 MPI 分層信息作為條件，輸入單步視頻擴散模型，結合預訓練模型的 3D 認知，直接生成符合深度邏輯的虛化效果；
無需多步迭代，一步完成轉換，兼顧效率與效果，讓普通用户也能快速上手。

三、應用場景：覆蓋多領域創作需求

無論是短視頻創作者、Vlogger、自媒體人，還是專業視頻剪輯師，都能從 Any-to-Bokeh 中受益：

日常 Vlog：給生活記錄視頻添加電影感虛化，提升內容質感；
商業創作：快速製作產品宣傳視頻、廣告片，通過可控虛化突出核心賣點；
影視後期：簡化虛化效果製作流程，減少手動調整幀間一致性的工作量；
社交媒體內容：讓旅行視頻、人像短片在社交平台更具視覺吸引力；
學術研究：為視頻編輯、擴散模型應用等相關方向提供技術參考與實踐基礎。

目前，我們的論文已在arXiv公開，項目代碼與試用指南也已同步更新至 GitHub。

誠邀大家前往 GitHub 體驗試用，若覺得工具實用、技術有參考價值，歡迎給我們點亮Star，也期待相關領域的科研同行引用我們的工作（論文引用格式可在 GitHub 查看）～你們的支持是我們持續優化技術的最大動力！

未來，我們也會不斷迭代版本，解鎖更多實用功能，讓 AI 視頻創作的 “氛圍感自由” 惠及更多人。

持續關注我們的 GitHub 與論文進展，一起探索視頻編輯的更多可能。

關於vivo BlueImage Lab

vivo BlueImage Lab（藍圖影像創新實驗室）主要負責移動影像算法創新，持續突破移動影像的技術天花板。該實驗室的工作重點包括圖像/視頻處理、圖像/視頻交互、圖像/視頻增強、多模態理解大模型等方面的技術前沿探索。團隊成員大多是來自國內外頂尖高校的博士，博士後，具有計算機視覺、圖像處理、人工智能等相關領域的專業背景，擁有豐富的前沿技術創新經驗。他們致力於不斷提升vivo移動影像的算法能力，使用户能夠拍攝出更加清晰、美觀的照片和視頻。除了移動影像，他們也積極探索增強現實、具身智能等新興技術領域的應用，努力為用户提供更加豐富和便捷的影像體驗。

vivotech 博客

vivotech 博客

博客 / 詳情