Manus 發文介紹了其 Wide Research 功能。該功能採用“一任務一子代理”的並行架構,替代了傳統的單模型順序處理方式。這種架構能夠消除長列表研究中出現的“編造閾值”,確保第50個項目與第1個項目獲得同等深度的分析。
系統會將一個請求拆分成多個獨立的子任務,併為每個子任務啓動一個完整的 Manus 實例,包括獨立的虛擬機、全套工具和空的上下文窗口。所有子代理並行執行,僅通過主控制器彙總結果,彼此之間不進行通信,以避免上下文污染。
該架構隨任務量的增加而線性擴展,處理50個項目與5個項目的耗時接近,同時 hallucination 率顯著下降。它適用於批量文檔處理、多資產創意生成、大規模數據分析等場景。該功能現已向所有訂閲者開放。
以下內容來自 Manus 官方博客:《Wide Research:超越上下文窗口》
AI 驅動研究的承諾一直很有吸引力:將信息收集和綜合的繁瑣工作委託給智能系統,從而釋放人類認知能力用於更高階的分析和決策。然而,任何在非平凡用例上推動這些系統的人都遇到了一個令人沮喪的現實:在多主題研究任務中,到第八或第九個項目時,AI 就開始編造內容。
不僅僅是簡化。不僅僅是更簡潔地總結。而是編造。
這不是提示工程問題。也不是模型能力問題。這是一個架構約束,自 AI 研究工具誕生以來就悄悄限制了其實用性。而這正是 Wide Research 旨在克服的約束。
上下文窗口:一個根本性瓶頸
每個大型語言模型都在上下文窗口內運行,這是一個有限的內存緩衝區,限制了模型在任何給定時刻可以主動處理的信息量。現代模型已經令人印象深刻地推動了這一邊界:從 4K tokens 到 32K、128K,甚至最新版本的 1M tokens。
然而問題依然存在。
當你要求 AI 研究多個實體——比如五十家公司、三十篇研究論文或二十個競爭產品——上下文窗口會迅速填滿。不僅僅是每個實體的原始信息,還包括:
•原始任務規範和要求
•一致輸出格式的結構模板
•每個項目的中間推理和分析
•交叉引用和比較筆記
•所有先前項目的累積上下文
當模型到達第八或第九個項目時,上下文窗口已經承受巨大壓力。模型面臨一個不可能的選擇:明確失敗,或開始走捷徑。
它總是選擇後者。
編造閾值
實踐中會發生以下情況:
項目 1-5: 模型進行真實研究。它檢索信息,交叉引用來源,併產生詳細、準確的分析。
項目 6-8: 質量開始微妙地下降。描述變得稍微更通用。模型開始更多地依賴先前的模式而不是新鮮的研究。
項目 9+: 模型進入編造模式。無法在管理溢出的上下文的同時維持徹底研究的認知負荷,它開始基於統計模式而非實際調查生成聽起來合理的內容。
這些編造內容很複雜。它們聽起來很權威。它們完美地遵循既定格式。它們通常在語法上無懈可擊,在風格上與早期合法條目保持一致。
它們也經常是錯誤的。
競爭對手分析可能會將功能歸因於不提供這些功能的公司。文獻綜述可能會引用帶有編造發現的論文。產品比較可能會捏造定價層級或規格。
陰險的部分是,這些編造內容很難在沒有人工驗證的情況下檢測到——這違背了自動化研究的全部目的。
為什麼更大的上下文窗口無法解決這個問題
直觀的反應是簡單地擴大上下文窗口。如果 32K tokens 不夠,就使用 128K。如果還不夠,就推到 1M 或更高。
這種方法誤解了問題。
首先,上下文衰減不是二元的。 模型不會在其整個上下文窗口中保持完美的回憶。研究表明,檢索準確性會隨着與當前位置的距離而下降——即"迷失在中間"現象。上下文開頭和結尾的信息比中間的信息更可靠地被回憶起來。
其次,處理成本不成比例地增長。 處理 400K token 上下文的成本不僅僅是 200K 成本的兩倍——它在時間和計算資源方面呈指數級增長。這使得大規模上下文處理在許多用例中在經濟上不切實際。
第三,問題在於認知負荷。 即使有無限的上下文,要求單個模型在數十個獨立研究任務中保持一致的質量也會產生認知瓶頸。模型必須在項目之間不斷切換上下文,維護比較框架,並確保風格一致性——同時執行核心研究任務。
第四,上下文長度壓力。 模型的"耐心"在某種程度上由其訓練數據中樣本的長度分佈決定。然而,當前語言模型的後訓練數據混合仍然主要由為聊天機器人式交互設計的相對較短的軌跡主導。因此,當助手消息內容的長度超過某個閾值時,模型自然會經歷一種上下文長度壓力,促使它加速總結或訴諸於不完整的表達形式,如要點列表。
上下文窗口是一個約束,是的。但它是更深層架構限制的症狀:單處理器、順序範式。
架構轉變:並行處理
Wide Research 代表了對 AI 系統應如何處理大規模研究任務的根本性重新思考。我們不是要求一個處理器順序處理 n 個項目,而是部署 n 個並行子代理同時處理 n 個項目。
Wide Research 架構
當你啓動 Wide Research 任務時,系統按如下方式運行:
1. 智能分解
主控制器分析你的請求並將其分解為獨立的、可並行化的子任務。這涉及理解任務結構、識別依賴關係並創建連貫的子規範。
2. 子代理委託
對於每個子任務,系統啓動一個專用的子代理。至關重要的是,這些不是輕量級進程——它們是功能齊全的 Manus 實例,每個都具有:
•完整的虛擬機環境
•訪問完整的工具庫(搜索、瀏覽、代碼執行、文件處理)
•獨立的互聯網連接
•全新的、空的上下文窗口
3. 並行執行
所有子代理同時執行。每個子代理專注於其分配的項目,執行與單項目任務相同深度的研究和分析。
4. 集中協調
主控制器維護監督,在子代理完成工作時收集結果。重要的是,子代理之間不相互通信,所有協調都通過主控制器流動。這可以防止上下文污染並保持獨立性。
5. 綜合與整合
一旦所有子代理都報告完成,主控制器將結果綜合成一個單一的、連貫的、全面的報告。這個綜合步驟利用了主控制器的全部上下文容量,因為它沒有被原始研究工作所負擔。
為什麼這改變了一切
規模化的一致質量
每個項目都得到相同的處理。第 50 個項目的研究與第 1 個項目一樣徹底。沒有退化曲線,沒有編造閾值,也沒有質量懸崖。
真正的水平可擴展性
需要分析 10 個項目?系統部署 10 個子代理。需要分析 500 個?它部署 500 個。架構隨任務大小線性擴展,而不是像基於上下文的方法那樣呈指數級擴展。
顯著加速
因為子代理並行操作,分析 50 個項目所需的實際時間與分析 5 個項目大致相同。瓶頸從順序處理時間轉移到綜合時間——這是整體任務中小得多的組成部分。
降低幻覺率
每個子代理都在其認知舒適區內運行。有了全新的上下文和單一的、集中的任務,就沒有編造的壓力。子代理可以進行真實研究、驗證事實並保持準確性。
獨立性和可靠性
因為子代理不共享上下文,一個子代理工作中的錯誤或幻覺不會傳播到其他子代理。每個分析都是獨立的,降低了系統性風險。
超越研究:通用並行處理引擎
雖然我們稱之為"Wide Research",但這種架構的應用遠遠超出了傳統的研究任務。
批量文檔處理
處理數千個 PDF,每個都需要 OCR、提取和分析。每個文檔都有一個專用的子代理,具有完整的處理能力套件。
多資產創意生成
生成數百個獨特的圖像、視頻或音頻資產。每個資產都由專用的子代理創建,可以在沒有上下文約束的情況下充分探索創意空間。
大規模數據分析
同時分析多個數據集,每個都需要不同的處理管道和分析方法。
複雜工作流分解
將複雜的多步驟流程分解為可並行化的組件,同時執行它們並綜合結果。
模式是通用的:任何可以分解為獨立子任務的任務都可以從這種並行執行模型中受益。
代理通信和協調
Wide Research 的有效性取決於如何在不創建新瓶頸的情況下協調子代理。
中心輻射式通信
子代理僅與主控制器通信,從不相互通信。這種中心輻射式拓撲可以防止:
•上下文污染: 一個子代理的假設或錯誤影響另一個子代理的工作。
•協調開銷: 點對點協調中通信複雜性的幾何增長。
•同步問題: 分佈式系統中的競態條件和一致性問題。
無狀態子代理
每個子代理都是無狀態和短暫的。它接收任務規範,執行它,返回結果,然後終止。這種設計確保:
•清晰分離: 子任務之間沒有隱藏的依賴關係。
•容錯性: 失敗的子代理可以重新啓動而不影響其他子代理。
•資源效率: 子代理按需創建,完成後立即釋放。
動態擴展
系統不會預先分配固定的子代理池。它根據以下因素動態擴展:
•任務複雜性: 更復雜的子任務可能會分配額外的資源。
•系統負載: 子代理被調度以優化整體吞吐量。
•成本約束: 系統可以在指定的資源預算內運行。
對專業工作的實際影響
對於依賴 AI 進行研究和分析的專業人士來説,Wide Research 從根本上改變了可能性。
市場情報
以一致的深度分析數十或數百個競爭對手、市場細分或客户羣體。不再需要手動驗證後面的條目。不再懷疑 AI 是否編造了該功能比較。
學術研究
審查數百篇論文,從大量文獻中綜合發現。每篇論文都得到徹底的分析,而不是隨着數量增長而退化的膚淺瀏覽。
盡職調查
並行調查多家公司、產品或機會。關鍵決策值得一致的分析——而不是在前幾個項目後就退化的研究。
內容創作
生成大量獨特的高質量內容。每件作品都得到充分的創意關注,而不是受約束上下文產生的遞減回報。
超越單處理器範式
Wide Research 不僅僅是一個功能——它代表了從單處理器範式向編排的並行架構的根本轉變。AI 系統的未來不在於更大的上下文窗口,而在於智能任務分解和並行執行。
我們正在從"AI 助手"時代轉向"AI 勞動力"時代。
何時使用 Wide Research: 涉及多個需要一致分析的類似項目的任何任務——競爭研究、文獻綜述、批量處理、多資產生成。
何時不使用: 每個步驟都嚴重依賴於先前結果的深度順序任務,或單處理器處理更具成本效益的小任務(少於 10 個項目)。