大家好,我是湯師爺,分享1000個行業智能體案例,幫助100W人用智能體創富~
今天給大家帶來一個超實用的Coze工作流,3分鐘讀完一本書視頻自動化生成智能體。
這個工作流能夠自動將書籍內容轉化為帶有分鏡圖片、語音解説和字幕的短視頻。
一鍵生成剪映草稿,幫你快速產出知識類短視頻內容。
1、為啥要搞視頻自動化
1.1 搞定知識類短視頻製作太慢的問題
以前做知識類短視頻得自己寫文案、設計分鏡、找圖或畫圖、錄音、剪輯啥的,做一條3分鐘的視頻動不動就得好幾個小時甚至一整天。
用了這個智能體,從輸入文案到生成剪映草稿,全程自動跑,完全不用你管。
1.2 知識付費和內容創作者的剛需
在抖音、快手、視頻號這些平台,讀書類短視頻流量賊高。
很多知識博主、圖書推廣團隊都得批量產出這種內容,但人力成本高、效率又跟不上。
用這個工作流,單條視頻製作時間直接從幾小時縮到幾分鐘。
1.3 分鏡畫面自動生成
工作流裏內置了專業的分鏡描述模型和AI畫圖功能,能根據書的內容自動生成扁平風格插畫,不用設計師手繪,製作門檻和成本直接降下來了。
1.4 一鍵導入剪映,直接開始後期
生成的東西直接導出成剪映草稿鏈接,音頻、圖片、字幕、背景音樂啥都有。
你在剪映裏稍微調調就能發佈,從內容到成品無縫銜接。
2、智能體搭建流程概述
整個工作流採用模塊化設計,核心流程包括:
- 工作流接收用户輸入的書籍名稱、作者名稱和個人賬號名稱作為起始參數。
- 大模型節點將書籍文案智能拆解為多個分鏡段落,每個段落包含分鏡名稱、分鏡描述、字幕文案和圖像生成提示詞。
- 批處理環節根據每個分鏡的提示詞批量生成扁平風格的插畫,並自動摳圖處理,得到透明背景的人物素材。
- 循環節點對每段字幕文案進行語音合成,生成對應的音頻文件。
- 代碼節點整合所有音頻、圖片、字幕的時間軸信息,並通過剪映小助手插件依次創建草稿、添加背景圖、添加主圖片、添加音頻、添加字幕。
- 最終生成完整的剪映草稿鏈接。
3、工作流詳細搭建教程
由於工作流包含的節點較多、結構較複雜,這裏我們只挑選幾個最核心、最關鍵的節點來詳細講解,幫助大家快速理解整個工作流的核心邏輯,掌握關鍵技術要點。
後續可以根據自己的需求進行拓展和優化。
3.1 開始節點
工作流的起始節點,用於設定啓動工作流需要的信息。
輸入參數説明:
- book_name:書籍名稱,必填項
- auther_name:作者名稱,必填項
- ip_name:個人賬號名稱,選填項
這一步定義了工作流的三個核心變量,後續節點會引用這些變量來生成個性化的視頻內容。
3.2 大模型_文案生成節點
調用大語言模型,根據書籍名稱和作者生成完整的讀書視頻文案。
輸入參數説明:
- book_name:從開始節點獲取的書籍名稱
- author_name:從開始節點獲取的作者名稱
模型配置參數:
- 模型選擇:豆包·1.6·極致速度·250828
- temperature:1
- topP:0.7
- frequencyPenalty:0
- maxTokens:4096
- responseFormat:2(JSON格式輸出)
- thinkingType:enabled(啓用思考模式)
用户提示詞:
書籍名稱:{{book_name}}
本書作者:{{author_name}}
系統提示詞:
# 角色
你是一位專業且富有感染力的讀書博主,擅長撰寫引人入勝的讀書視頻文案。能依據用户提供的書籍名稱和作者,深入剖析書籍內容,精準提煉書本核心內容、本書解決的問題,並給出獨到的觀點提煉和解釋,創作一個3分鐘時長且極具吸引力的讀書視頻文案。
## 技能
### 技能1: 生成讀書視頻文案
1. 當用户提供書籍名稱和作者後,使用工具搜索書籍相關信息,包括書籍簡介、他人的解讀、出版年份等資料。
2. 深入分析所獲取的信息,提煉出書籍的核心內容(要求不少於1000字)、書中試圖解決的問題。
3. 形成獨到的觀點,並對觀點進行清晰合理的解釋。
4. 創作一個開篇引言極具吸引力的3分鐘讀書視頻文案,文案需邏輯清晰、語言流暢,深入展現書籍魅力。
5. 以json格式輸出,內容必須包含書籍名稱、作者、出版年份(格式:yyyy-MM)、圖書分類。
===回覆示例===
{
"book_name": "[具體書籍名稱]",
"author_name": "[作者名字]",
"year": "yyyy-MM",
"content": "極具吸引力的開篇話語+詳細闡述書籍核心內容,觀點提煉與解釋,本書解決的關鍵問題等,不少於1000字",
"category":"圖書分類(如:社會科學,勵志,經濟學等)"
}
===示例結束===
## 限制:
- 只圍繞用户提供的書籍生成讀書視頻文案相關內容,拒絕回答與書籍文案創作無關的話題。
- 所輸出的內容必須按照給定的回覆示例格式進行組織,不能偏離框架要求。
- 文案需符合3分鐘的時長要求,語言簡潔但內容豐富。
- 信息來源需通過工具搜索獲取,確保內容準確。
輸出參數説明:
- book_name:書籍名稱
- author_name:作者名稱
- year:出版年份
- content:完整的視頻文案內容(不少於1000字)
- category:圖書分類
- reasoning_content:模型思考過程內容
3.3 大模型_分鏡畫面描述節點
調用大語言模型,將用户提供的書籍文案智能拆解為視頻分鏡描述。
輸入參數説明:
- content:從前置節點獲取的文案內容
- 模型選擇:豆包·1.6·極致速度·250828
- temperature:1
- topP:0.7
- maxTokens:4096
系統提示詞:
# 角色
你是一位專業且富有創意的視頻分鏡描述專家,專注於3分鐘讀完一本書視頻文案的分鏡創作,能夠將書籍內容轉化為生動、形象且符合要求的視頻分鏡描述。
## 技能
### 技能 1: 創作視頻分鏡描述
1. 仔細研讀用户提供的3分鐘讀完一本書的視頻文案內容,全面理解其中的書籍核心內容、情節發展以及情感氛圍等關鍵要素。
2. 按照要求創作視頻分鏡描述,確保:
- 字幕文案分段:每個段落均由一句話構成,語句簡潔明瞭,表達清晰流暢,同時具備節奏感。
- 分鏡描述:畫面需能準確體現書籍內容情節,描述要精準、細緻地展現情節細節以及情感氛圍等方面。
- 字幕文案必須嚴格按照用户給的文案拆分,不能修改提供的內容。
- 分鏡數量至少8個, 不超過50個。
### 技能 2: 生成分鏡圖像提示詞
- 依據分鏡描述和整本書的內容,生成對應的[分鏡圖像提示詞]
- 風格描述:
人物:卡通化、簡潔線條
背景:符號化、扁平化設計(如房子、信用卡、存錢罐等)
色調:柔和、明亮、低飽和度
動作:簡單但富有表現力(如抓頭、思考、驚訝等)
細節:用簡單的圖形和線條表現複雜概念(如箭頭、貨幣符號等)
-示例:一個人正在思考財務問題,周圍有存錢罐、信用卡、房子、下降箭頭等符號。
提示詞風格參考:
“一個年輕人正在抓頭思考,周圍有存錢罐、信用卡、房子、下降箭頭等符號,卡通化風格,柔和色調,簡潔線條,表情誇張,背景用扁平化符號表現,整體風格輕鬆幽默。”
### 技能3: 挑選文案中重點詞
- 依據原始文案,從文案中截取對應的重點詞彙,輸出keywords
- 注意直接截取出原有詞,不要帶標點符號,且要在句子中存在
### 技能4:輸出內容
輸出包含分鏡名稱、分鏡描述、字幕文案、圖像提示詞的內容,具體格式如下:
{
"list":[
{
"story_name":"分鏡名稱",
"desc":"分鏡描述",
"cap":"對應字幕文案",
"desc_promopt":"分鏡圖像提示詞"
}
],
"keywords":["重點詞1","重點詞2"]
}
## 限制
- 視頻文案及分鏡描述必須保持一致。
- 輸出內容必須嚴格按照給定的格式進行組織,不得偏離框架要求。
- 只對用户提供的3分鐘讀完一本書的視頻文案內容進行分鏡,不能更改原文。
- 分鏡圖像提示詞要符合整本書和當前段落的語境。
- 輸出的keywords必須在對應句子中存在
輸出參數説明:
- list:包含分鏡名稱、分鏡描述、字幕文案、圖像提示詞的結構化數據
- keywords:從文案中提取的重點詞彙列表
3.4 批處理節點
通過設定批量運行次數和邏輯,運行批處理體內的任務,實現圖片的批量生成和摳圖處理。
輸入參數説明:
- list:從大模型節點獲取的分鏡列表數據
- batchSize:50,每批處理50條數據
- concurrentSize:2,併發數為2
批處理輸出參數説明:
- data_list:所有摳圖後的圖片URL列表
批處理體內包含兩個子節點:
3.4.1 圖像生成子節點
通過文字描述生成圖片。
輸入參數説明:
- desc_info:分鏡圖像提示詞
- desc:分鏡描述
- 提示詞模板:扁平風,主角上衣顏色#FF7F72,褲子顏色#243139,扁平背景:{{desc_info}},Transparent glass with 30% opacity
- 模型設置:固定尺寸1024x768,採樣步數40
輸出參數説明:
- data:生成的圖片URL
3.4.2 摳圖子節點(cutout)
保留圖片前景主體,輸出透明背景的PNG圖片。
輸入參數説明:
- url:從圖像生成節點獲取的圖片URL
- output_mode:0,輸出透明背景圖
- only_mask:0,使用摳圖結果尺寸
輸出參數説明:
- data:摳圖後的透明背景圖片URL
3.5 畫板節點:開場封面圖
使用畫板功能製作視頻的開場封面圖,這張圖片會在視頻開始時展示,用於顯示書籍名稱和作者信息。
3.6 畫布節點:背景圖
使用畫布功能製作視頻的背景圖層。這個節點會生成一張統一風格的背景圖,貫穿整個視頻使用。
3.7 循環節點
用於通過設定循環次數和邏輯,重複執行語音合成和音頻時長獲取任務。
輸入參數説明:
- input:從大模型節點獲取的分鏡列表數據
- loopType:array,按數組循環
- loopCount:10,最多循環10次
循環輸出參數説明:
- output:所有音頻URL列表
- duration_list:所有音頻時長列表
循環體內包含兩個子節點:
3.7.1 語音合成子節點(speech_synthesis)
根據音色和文本合成音頻。
輸入參數説明:
- text:從循環節點獲取的字幕文案
- voice_id:7426720361733144585,音色為"鄰家女孩"
- speed_ratio:1.2,語速為1.2倍
3.7.2 獲取音頻時長子節點(get_audio_duration)
獲取音頻文件的準確時長。
輸入參數説明:
- mp3_url:從語音合成節點獲取的音頻URL
輸出參數説明:
- duration:音頻時長(單位:微秒)
3.8 代碼節點
編寫代碼,處理輸入變量來生成返回值,這是整個工作流的核心數據處理節點。
輸入參數説明:
- audio_list:所有音頻URL列表
- duration_list:所有音頻時長列表
- image_list:所有圖片URL列表
- list:分鏡數據列表
- bg_image:背景圖片URL
- book_name:書籍名稱
- author_name:作者名稱
- ip_name:個人賬號名稱
- mp3_url:背景音樂URL
- keywords:關鍵詞列表
- first_img:首圖URL
- zc_mp3_url:轉場音效URL
代碼節點主要完成以下任務:
- 處理音頻時間軸:根據每段音頻的時長,計算出每段音頻的開始時間和結束時間,生成音頻時間軸數據。
- 處理圖片動畫:使用AnimationScheduler類處理圖片序列,為每張圖片分配動畫效果(向上滑動、放大等),併為部分圖片添加翻頁轉場特效。
- 處理字幕數據:調用processSubtitles函數,將長文案按照最大行長度智能分行,並根據音頻時長精確分配每行字幕的顯示時間。
- 關鍵詞匹配:調用assembleResults函數,在字幕文本中查找關鍵詞,併為包含關鍵詞的字幕設置高亮顏色和字體大小。
- 生成剪映所需數據格式:將所有數據整理為剪映小助手插件要求的JSON格式,包括音頻數據、圖片數據、字幕數據、背景音樂、轉場音效等。
輸出參數説明:
- audio_list:音頻數據JSON字符串
- timelines:視頻時間軸數據
- text_timelines:字幕時間軸數據
- bg_image:背景圖數據
- imageDataLeft:主圖片數據
- book_name、author_name、ip_name及其時間軸數據
- bg_mp3:背景音樂數據
- zc_mp3:轉場音效數據
- main_text:主字幕數據
- first_text:首幀字幕數據
3.9 創建草稿節點(create_draft)
節點功能説明:調用剪映小助手插件,創建一個空白的視頻草稿。
輸入參數説明:
- height:1080,視頻高度
- width:1440,視頻寬度
輸出參數説明:
- draft_url:創建的草稿地址,後續所有操作都基於這個URL進行
3.10 添加音頻節點(add_audios)
批量添加音頻到草稿中。
輸入參數説明:
- audio_infos:從代碼節點獲取的音頻數據JSON字符串
- draft_url:草稿地址
這一步會根據audio_infos中定義的每段音頻的URL、開始時間、結束時間、音量等信息,將所有音頻添加到草稿的音頻軌道上。
輸出參數説明:
- audio_ids:添加的音頻ID列表
- draft_url:更新後的草稿地址
3.11 添加背景圖片節點(add_images_1)
添加視頻的背景圖層。
輸入參數説明:
- draft_url:草稿地址
- image_infos:從代碼節點獲取的背景圖數據
這一步會將背景圖添加到草稿的最底層軌道,作為整個視頻的背景底圖。
輸出參數説明:
- draft_url:更新後的草稿地址
- image_ids:添加的圖片ID列表
3.12 添加主圖片節點(add_images)
批量添加分鏡圖片到草稿中。
輸入參數説明:
- draft_url:草稿地址
- image_infos:從代碼節點獲取的圖片數據
- scale_x:0.62,X軸縮放比例
- scale_y:0.62,Y軸縮放比例
- transform_x:0,X軸位移
- transform_y:-327,Y軸位移(向上偏移327像素)
這一步會根據imageDataLeft中定義的每張圖片的URL、開始時間、結束時間、動畫效果等信息,將所有主圖片添加到草稿中。圖片會自動按照時間軸播放,並帶有設定好的入場動畫和轉場效果。
輸出參數説明:
- draft_url:更新後的草稿地址
- segment_ids:添加的片段ID列表
3.13 添加首幀圖片節點(add_images_2)
批量添加首幀圖片到草稿中。
輸入參數説明:
- draft_url:草稿地址
- image_infos:從代碼節點獲取的首幀圖片數據
- scale_x:1,X軸縮放比例
- scale_y:1,Y軸縮放比例
- transform_x:0,X軸位移
- transform_y:0,Y軸位移
這一步會將首幀圖片添加到草稿中,作為視頻的開頭畫面。圖片會按照設定的時間顯示,並保持原始尺寸和位置。
輸出參數説明:
- draft_url:更新後的草稿地址
- image_ids:添加的圖片ID列表
- segment_ids:添加的片段ID列表
- segment_infos:片段信息列表
- track_id:軌道ID
3.14 添加首幀字幕節點(add_captions_1)
批量添加首幀字幕到草稿中。
輸入參數説明:
- captions:從代碼節點獲取的首幀字幕數據
- draft_url:草稿地址
- border_color:#000000,邊框顏色為黑色
- font_size:7,字體大小為7
- text_color:#ffffff,文字顏色為白色
- transform_x:134,X軸位移
- transform_y:-629,Y軸位移(字幕位於畫面上方)
這一步會將首幀的標題字幕添加到草稿中,通常用於顯示書名等關鍵信息。字幕會在視頻開頭按照設定的時間顯示。
輸出參數説明:
- draft_url:更新後的草稿地址
- text_ids:添加的字幕ID列表
- segment_ids:添加的片段ID列表
- segment_infos:片段信息列表
- track_id:軌道ID
3.15 添加作者等信息字幕節點(add_captions_3)
批量添加書籍作者、個人IP等信息字幕到草稿中。
輸入參數説明:
- captions:從caption_infos節點獲取的格式化字幕數據
- draft_url:草稿地址
- font_size:5,字體大小為5
- text_color:#b3a6a1,文字顏色為淺灰色
- transform_x:582,X軸位移(字幕位於畫面右側)
- transform_y:-452,Y軸位移(字幕位於畫面上方)
這一步會將書籍作者、個人賬號名稱等輔助信息字幕添加到草稿中。這些字幕通常採用較小的字號和較淡的顏色,不會干擾主要內容的展示。
輸出參數説明:
- draft_url:更新後的草稿地址
- text_ids:添加的字幕ID列表
- segment_ids:添加的片段ID列表
- segment_infos:片段信息列表
- track_id:軌道ID
3.16 添加主字幕節點(add_captions)
批量添加視頻主字幕到草稿中。
輸入參數説明:
- captions:從代碼節點獲取的主字幕數據
- draft_url:草稿地址
- alignment:1,居中對齊
- border_color:#000000,邊框顏色為黑色
- font_size:7,字體大小為7
- text_color:#ffffff,文字顏色為白色
- transform_x:0,X軸位移
- transform_y:670,Y軸位移(字幕位於畫面下方)
這一步會將解説內容的主字幕添加到草稿中,字幕會自動按照時間軸顯示,並且關鍵詞會以不同的顏色和字號高亮顯示(這部分邏輯在代碼節點的main_text數據中已經處理好)。主字幕是視頻中最重要的文字信息,幫助觀眾理解音頻內容。
輸出參數説明:
- draft_url:更新後的草稿地址
- text_ids:添加的字幕ID列表
- segment_ids:添加的片段ID列表
- segment_infos:片段信息列表
- track_id:軌道ID
3.17 添加背景音樂節點(add_audios_1)
批量添加背景音樂到草稿中。
輸入參數説明:
- audio_infos:從代碼節點獲取的背景音樂數據
- draft_url:草稿地址
這一步會將背景音樂添加到草稿的音頻軌道上。背景音樂會在整個視頻播放過程中循環播放,音量通常設置得較低,不會影響語音解説的清晰度。
輸出參數説明:
- draft_url:更新後的草稿地址
- audio_ids:添加的音頻ID列表
- track_id:音頻軌道ID
3.18 添加轉場音效節點(add_audios_2)
批量添加轉場音效到草稿中。
輸入參數説明:
- audio_infos:從代碼節點獲取的轉場音效數據
- draft_url:草稿地址
這一步會將轉場音效添加到草稿的音頻軌道上。轉場音效會在畫面切換時播放,增強視頻的節奏感和觀看體驗。音效的時間點與圖片轉場效果同步。
輸出參數説明:
- draft_url:更新後的草稿地址
- audio_ids:添加的音頻ID列表
- track_id:音頻軌道ID
3.19 保存草稿節點(save_draft)
節點功能説明:保存剪映草稿,生成最終的草稿鏈接。
輸入參數説明:
- draft_url:草稿地址
- user_id:10299,用户ID
輸出參數説明:
- draft_url:最終保存的草稿地址
3.20 結束節點
節點功能説明:工作流的最終節點,用於返回工作流運行後的結果信息。
輸入參數説明:
- output:從保存草稿節點獲取的最終草稿URL
這一步會將最終生成的剪映草稿鏈接返回給用户,用户點擊鏈接即可在剪映中打開草稿進行查看和編輯。
完成以上所有步驟後,工作流會生成一個剪映草稿鏈接。
接下來,你需要做以下幾個簡單的操作:
- 複製工作流輸出的草稿鏈接
- 打開剪映小助手
- 將複製的鏈接粘貼到剪映小助手中
- 點擊導入,草稿就會自動加載到剪映中
- 導入成功後,你就可以在剪映中看到完整的視頻草稿了,包括所有的圖片、音頻、字幕和轉場效果
- 如果需要調整細節(比如字幕位置、背景音樂音量等),可以在剪映中直接編輯
- 確認無誤後,點擊導出,一條完整的知識類短視頻就製作完成了
整個過程非常簡單,即使是第一次使用,也能在幾分鐘內完成導入和編輯。
4、寫在最後
這個3分鐘讀完一本書工作流展示了AI智能體在內容生產領域的強大能力。
通過將大模型、AI繪圖、語音合成、視頻編輯等多個AI能力有機整合,我們實現了知識類短視頻的全流程自動化生產。
整個工作流的設計思路值得我們學習。
這種"AI+自動化+工具集成"的模式,可以應用到更多內容生產場景中。
希望這個教程能幫助你快速上手搭建自己的知識類視頻智能體,如果你有任何問題或優化建議,歡迎在評論區交流討論!
對了,我整理了一份開源的智能體學習手冊,爆肝10萬字,價值999元。現在限時開放領取👉:tangshiye.cn 手慢無。