今天咱們來聊個超酷的功能:如何讓你的 n8n 工作流“長眼睛”和“長耳朵”? 🧐

很多朋友在用 n8n 搭建 AI 應用時,發現不論怎麼折騰,好像只能發文字。想發張圖片讓 AI 分析?或者發段語音讓 AI 聽聽?對不起,不支持。🚫

別急!今天這篇教程就手把手教你,如何利用 全模態(Multimodal) 大模型,讓你的 n8n 支持文本、圖片、音頻、視頻的上傳與多輪對話!

舉個栗子 🌰:

保姆級教程:將N8N升級為“全模態”神器,看圖、聽音樣樣行!_API


我給 AI 發一張海報圖,問它:“圖裏寫了啥?”

它立馬告訴我:“N8N 2.0 發佈了”

是不是很贊?只要掌握了這個方法,音視頻分析也統統不在話下!

廢話不多説,咱們直接上乾貨!👇


視頻演示

www.bilibili.com/video/BV1yn…


1️⃣ 打通“任督二脈”——開啓文件上傳 📂

首先,我們需要一個入口。

在 n8n 中添加 Chat Trigger(聊天觸發器)節點。
⚠️ 注意: 默認情況下,這個聊天窗口只有“發送”按鈕,是不支持上傳附件的。

保姆級教程:將N8N升級為“全模態”神器,看圖、聽音樣樣行!_API_02

怎麼破?
在 Chat Trigger 的設置裏,找到 Allow File Uploads(允許上傳文件)選項,把它打開!✅

設置好後,你會發現你的聊天窗口多了一個回形針圖標 📎(或者上傳按鈕)。這就意味着,你的通道已經打通了,可以接受圖片、音頻和視頻啦!

保姆級教程:將N8N升級為“全模態”神器,看圖、聽音樣樣行!_Agent_03


2️⃣ 選擇“最強大腦”——配置 AI Agent 🧠

即使通道通了,如果你的大模型是個“臉盲”或者“聽不懂”,那也沒用。所以,我們需要一個支持全模態的大模型。

在 n8n 流程中:

  1. 下一步添加節點: 這裏一定要選 AI Agent
  • 敲黑板:千萬別選 Basic LLM Chain,那個通常只支持純文本,不支持多模態操作。🙅♂️
  1. 設置 Model: 在 AI Agent 裏,我們需要配置一個 Chat Model(聊天模型)。

3️⃣ 核心秘技——接入 Qwen-Omni (通義千問) 🔗

我們要選哪個模型呢?這就得用到阿里的百鍊平台了。

  • DeepSeek:雖然很火,但目前 API 主要側重文本和推理,全模態支持不是它的強項。
  • Qwen-Omni:這是阿里最新的全模態大模型,能看圖、聽音、看視頻,選它準沒錯!

關鍵操作來了(必看): 🛠️

因為 n8n 原生可能沒有直接的“百鍊”節點,或者為了通用性,我們這裏使用 OpenAI Chat Model 節點來“偽裝”接入。因為百鍊平台完美兼容 OpenAI 的協議!

操作步驟:

  1. 添加憑證 (Credentials):
  • 去阿里雲百鍊平台,註冊並登錄。
  • 在“API-KEY管理”裏創建一個新的 Key,複製下來。
  • 在 n8n 的 OpenAI 憑證裏,把這個 Key 填進去。
  1. 修改 Base URL:
  • 在百鍊的模型廣場找到 Qwen-Omni,點擊“API參考”。
  • 複製那個 Base URL 地址。
  • 粘貼到 n8n 憑證設置裏的 Base URL 欄目中。
  1. 連接測試: 點擊 Save/Test,看到綠色小對勾 ✅ 就説明連接成功!

4️⃣ 實戰演練——見證奇蹟的時刻 ✨

連接成功後,回到 n8n 的 OpenAI Model 節點:

  1. 在模型列表(或者手動輸入)裏選擇 qwen-omni-turbo (或者日期後綴的最新版,如 12 月份的版本)。
  2. 關閉雜項: 那些聯網搜索、文件搜索的高級功能這次用不上,統統關掉,我們只測多模態。

測試開始! 🚀

  1. 打開聊天窗口。
  2. 上傳一張包含文字的圖片(比如 n8n 2.0 的海報)。
  3. 輸入指令:“提取圖片中的文字”。
  4. 點擊發送!

結果展示:

保姆級教程:將N8N升級為“全模態”神器,看圖、聽音樣樣行!_上傳_04


大模型迅速識別並回復:“這張圖片顯示的是 n8n 2.0 發佈了。”

我核對了一下原圖,完全相符! 💯


📝 總結

想要實現 n8n 全模態,必須滿足兩個條件,缺一不可:

  1. 入口支持:Chat Trigger 開啓文件上傳。
  2. 模型支持:後端必須連接支持全模態的模型(如 Qwen-Omni)。

搞定這兩步,你的 n8n 就不再是隻會打字的機器人,而是能看能聽的超級助手了!視頻和音頻的原理是一樣的,大家課後可以自己去試一試。

好啦,今天的教程就到這裏。我是磊哥,咱們下期再見! 👋