本文總結 MaybeAI 團隊在 MCP(Model Context Protocol) 框架下構建生產級 AI 工作流系統的經驗。
從最初的“讓模型在運行時直接生成代碼”到後來的“規劃期驗證 + 組件化執行”,我們在失敗與重構中逐步建立起一個可擴展、可複用、可驗證的工作流體系。
一、背景:為什麼“自動化更強”,卻不代表“更可靠”
過去一年,越來越多平台在談「智能工作流」:LLM 規劃、代碼生成、自動調用工具……
但當這些邏輯進入真實業務場景(CRM、銷售、財務、營銷分析)後,問題開始暴露。
MaybeAI 的經驗是:
如果把運行期代碼生成作為默認路徑,穩定性會迅速失控。
我們最初的實現方式是——讓 LLM 在運行時生成並執行工具調用代碼。
幾個月的實踐後,得到的現實是:
- 超過 20% 的運行失敗率
- 忘記
await語句造成阻塞 - 類型不匹配、邊界異常頻發
- 工作流多步串行後成功率驟降
簡單的數學説明一切:
每步成功率 95%,十步流程整體成功率僅 60%。
對於處理真實客户數據的業務工作流,這是完全不可接受的。
二、關鍵轉變:從運行期生成到規劃期驗證
我們決定把代碼生成從運行期前移到規劃期。
新架構如下:
自然語言 → DSL 計劃(由預構建組件組成) → 驗證 → 執行
在這種模式下:
- LLM 不再輸出整段可執行代碼;
- 而是選擇、排列並驗證已有組件(Components),組成可解釋的執行計劃;
- 驗證邏輯在執行前完成,運行期只負責確定性調度。
我們稱這種模式為 Definition-first Workflow(定義優先工作流)。
它讓 AI 的創造性存在於“規劃階段”,而執行階段完全遵循工程規則。
三、控制流與數據流的解耦:讓工作流可擴展
工作流的穩定性,取決於對控制流(Control Flow)和數據流(Data Flow)的分離程度。
|
流程類型
|
職責
|
實現方式
|
|
控制流(Planning) |
決定執行順序、條件、分支邏輯
|
LLM 解析需求 → DSL 規劃
|
|
數據流(Runtime) |
管理數據在任務間的流動與計算
|
DataFrame 在內存中直接傳遞,不經 LLM 上下文
|
這種分離帶來顯著優勢:
- 可處理超出上下文窗口的大型數據集
- LLM 僅訪問摘要信息,降低成本與風險
- 用户可獲得實時預覽(類似 Excel 視圖)
- 整體計算過程可觀測、可審計、可回放
這讓工作流平台具備了“AI 規劃 + 確定性執行”的雙重特性。
四、業務視角:可重現比“智能”更重要
MaybeAI 的主要用户包括:
- 銷售運營團隊
- 市場與分析人員
- 財務與商業數據部門
他們希望系統:“每週一上午 9 點,按計劃自動生成報告。”
在這類固定節奏的工作流中,
“智能反思與重試”聽上去很先進,但對業務而言,不確定性就是風險。
- 一封錯誤的郵件
- 一張寫錯字段的報表
這些都不是“bug”,而是“業務後果”。
因此我們的原則是:
自然語言規劃層 + 確定性執行層(Deterministic Execution)
外層對用户仍是對話式體驗,
但底層執行邏輯必須穩定、可審計、可回放。
五、工程要點:從概念到可生產的工作流體系
|
技術原則
|
説明
|
|
前置驗證 |
在規劃階段校驗類型與邏輯,提前捕獲錯誤。
|
|
強類型與 Schema 校驗 |
所有輸入輸出需明確定義,保障一致性。
|
|
組件化執行 |
預構建可重用組件,減少動態代碼生成。
|
|
用户心智映射 |
模型決策結構貼近業務用户的表格與任務思維。
|
我們發現:
- 工程上的確定性 比“模型智能”更能贏得信任;
- Schema 與日誌 是連接 AI 層與業務層的真正橋樑。
六、MCP 框架下的經驗與未來方向
MCP(Model Context Protocol)讓工作流能夠在不同工具、模型與執行環境間保持一致的通信標準。
但要想在生產級環境下落地,還需要配合以下架構思路:
- 規劃期驗證(Validation before Execution):確保執行圖可解釋、可復現。
- 組件庫治理(Reusable, Audited Components):提高複用率、減少潛在錯誤。
- 執行日誌與回放機制(Replayable Execution):讓每次運行都能被追蹤、優化、再利用。
MaybeAI 的工作流系統正基於此演進:
通過自然語言定義任務,通過 MCP 標準執行任務,讓系統在確定性執行中不斷學習。
七、開放問題:Tool Composition 的工程化挑戰
雖然 MCP 統一了協議層,但工具組合(Tool Composition)仍是整個生態的難題:
- 不同組件的輸入輸出如何標準化?
- 如何在並行任務中保持一致性與隔離性?
- 如何實現跨模塊的監控、回滾與版本控制?
這些問題目前沒有標準答案。
MaybeAI 正在探索「工具註冊 + Schema 對齊 + 路由評估」的自動治理框架,也歡迎其他團隊分享他們在大規模工作流編排中的實踐。
八、結論(Conclusion)
生產級工作流與實驗性自動化的最大區別在於:
可靠性、可驗證性、可複用性。
MaybeAI 在 MCP 架構下的探索告訴我們:
- 代碼生成不是目標,清晰定義才是。
- AI 規劃不是魔法,需要強類型約束與組件治理。
- 確定性執行不是保守,而是業務級穩定性的前提。
真正的智能,不是隨機嘗試的成功率,而是系統持續復現正確結果的能力。
TL;DR
- 動態代碼生成在多步工作流中成功率低、難以復現;
- 將生成邏輯前移到規劃期,通過 DSL + 組件組合實現可控執行;
- 分離控制流與數據流,提高擴展性與可靠性;
- 工作流平台的核心價值是“可重現、可審計、可複用”。