項目背景

行業痛點

  • 漫劇/短視頻內容生產成本高、週期長(腳本→分鏡→美術→動畫→配音)
  • 初創漫劇企業/教育機構缺乏專業動漫製作能力,但有高頻輕量級視頻需求(如營銷廣告、兒童英語啓蒙)
  • 現有AIGC工具鏈割裂,依賴人工,缺乏“一致性控制”與“用户干預閉環”

項目定位

打造一個 端到端、可交互、風格一致 的漫劇生成智能體 Demo,支持:

  • 輸入一句話創意 → 輸出 30s–60s 動漫短劇(含畫面+配音+字幕)
  • 用户在關鍵節點(角色、場景、分鏡)可人工確認或抽卡重新生成
  • 支持兩種典型場景:營銷廣告 + 少兒旁白科普課程(磨耳朵學英語場景)

業務價值

  • 驗證 Agentic Workflow 在多模態內容生成中的可行性,體現Qoder智能體模式的強大,幫忙推廣Qoder。
  • 構建基於 Qwen + Wan + 百鍊的通義全家桶 AIGC 工具鏈,證明在漫劇賽道,通義能對標即夢、可靈、Vidu、Sora等友商。在細節能力上正視差距,推進產品迭代改進。
  • 協助沒有智能體搭建經驗的漫劇賽道初創公司進行工程化搭建,彌補在漫劇工具鏈上跟友商的差距,為後續 SaaS 化或嵌入營銷/教育平台提供技術原型。

需求分析與功能定義

系統架構

基於Qoder實現AI漫劇生成Agent搭建_工具鏈

功能模塊

模塊名稱

輸入

輸出

是否可交互

技術實現

創意解析器

用户創意(文本)

結構化劇本(JSON)

Qwen-Max

角色生成器

劇本人物描述

多組角色立繪(PNG)

是(抽卡×3)

Wan 2.5-t2i-preview

場景生成器

劇本場景描述

多組背景圖(PNG)

是(抽卡×3)

Wan 2.5-t2i-preview

分鏡繪製器

(角色+場景+分鏡文本)

分鏡首幀圖

是(逐鏡確認)

Wan 2.2-i2i-flash

視頻生成器

首幀 + 劇本動作描述

3–10s 視頻片段(MP4)

否(自動)

Wan 2.5-i2v-preview

合成引擎

視頻片段 + 音頻 + 字幕

最終成片(MP4)

FFmpeg + 自定義合成邏輯

需求約束

  • 一致性保障:同一角色/場景在不同分鏡中保持視覺一致(通過ID綁定+特徵緩存)。
  • 生成速度:全流程 ≤ 10 分鐘(Demo 可接受,非實時)。
  • 可控性:每個“抽卡”環節提供 ≥3 選項,支持重試。
  • 合規性:不生成真人肖像,角色為動漫風格。

交互流程

  • 創意輸入:一句話描述想生成的內容。

基於Qoder實現AI漫劇生成Agent搭建_生成器_02

  • 劇本生成:根據輸入的創意自動拆解角色/場景/分鏡基於創意進行劇本的擴寫,分鏡的要素按JSON格式輸出,包括角色,場景,構圖,光線,角色動作,情緒,時長(每個片段3-10s),音效,配音描述(用於控制音色一致性)。

基於Qoder實現AI漫劇生成Agent搭建_生成器_03

  • 角色生成:百鍊調用Wan2.5-t2i-preview生成角色圖,一次三張,可以抽卡重新生成,時間大概20s。

基於Qoder實現AI漫劇生成Agent搭建_動漫_04

  • 場景生成:同上生成場景圖,都是為了控制分鏡主體一致性。

基於Qoder實現AI漫劇生成Agent搭建_生成器_05

  • 分鏡生成:使用Wan2.2-i2i-flash參考角色圖和場景圖,結合詳細分鏡描述按順序生成每個分鏡的首幀,每張大概30s。

基於Qoder實現AI漫劇生成Agent搭建_動漫_06

  • 視頻生成:確認好分鏡圖後,使用Wan2.5-i2v-preview結合劇本描述和台詞同步生成視頻和相應的配音,音畫同步,並且自動完成剪輯拼接,整個過程3~5min。視頻時長根據分鏡多少決定,一般20s~1min。

基於Qoder實現AI漫劇生成Agent搭建_動漫_07

效果演示

單角色講解場景

  • 動漫小狗早晨刷牙

雙角色對話場景

  • 3D小魚海底購物
  • Q版日常打招呼

搭建工具

全程使用 Qoder自然語言生成+百鍊API調用

1.使用Qoder Quest模式生成初版,把需求和大致思路像老闆一樣指派任務給agent,他會自主先生成產品需求設計,規劃待辦,再進行執行。

基於Qoder實現AI漫劇生成Agent搭建_動漫_08

2.需要向他提供自己百鍊API-Key。

基於Qoder實現AI漫劇生成Agent搭建_工具鏈_09

  3.在生成完初版項目之後,使用智能體模式進行精調。最好使用極致模式,性能最好但消耗多。

 4.明確使用的模型具體名稱,不然會出現調用失敗。提供明確的名稱後會智能體會自行查閲網頁找到合適的接口格式。

目前問題

  1. 配音直接使用Wan2.5視頻同步生成,好處是可以同步生成環境音效。為了保證音色一致性目前的解決方案是使用提示詞約束,但效果不太好,後續考慮用TTS模型單獨配音再合成。
  2. 多角色,多場景的分鏡圖合成還是控制的不夠精細,目前最好的情況還是單場景單一角色的介紹,如果在複雜性高的多角色交互,場景切換的任務下還需要優化。
  3. Qoder目前僅能個人開通PRO版,Credit有限,跑這樣一個 Demo大概就花了一半的用量,希望可以儘快開通企業版內部使用。

效果展示視頻可點擊該鏈接查看