前言

在本文中,我們將深入探討AI Agent的理論支撐以及其背後的第一性原理,回顧和分析第一性原理的發展軌跡,現階段AI Agent所具備的能力,並探討其在各個領域中的應用。接着,我們會展望AI Agent未來的發展方向,特別是在多Agent協作中的潛力和挑戰。最後,我們將探討Agent的未來技術發展及其廣泛應用前景,為讀者提供一個全面且深入的視角來理解和預測AI Agent的未來。

【收藏必備】AI Agent完全指南:從第一性原理到多Agent協作,程序員入門必學大模型基礎_#大模型學習

01

人工智能與第一性原理

大家好,今天我想和大家討論一下人工智能中的第一性原理,以及它在我們日常技術中的應用。

首先,什麼是第一性原理?簡單來説,第一性原理就是從最基本的事實或假設出發,通過邏輯推理得出結論。在人工智能領域,第一性原理非常重要,因為它幫助我們理解和模擬人類的認知和行為。

第一性原理的重要性

掌握第一性原理有多個原因。首先,它是我們後續開發和協作的基礎。無論是引擎的協作還是多種技術的協作,都是基於第一性原

圖像識別的進化

圖像識別技術的進化可以很好地體現第一性原理的重要性。圖像識別的重大突破之一來源於1981年諾貝爾醫學獎的研究。這個研究分析了人類視覺神經的傳導機制,發現我們的視覺皮層是分層級的。

當圖像從我們的眼睛進入大腦時,信息處理是分層級進行的:

  1. 第一級:模糊的形狀和顏色。
  2. 第二級:具體的特徵。
  3. 第三級:具體的識別。

有了這個理論依據後,我們對圖像識別的神經算法進行了改進。

從淺層到深度學習

在早期,我們的圖像識別算法通常只有三層結構:輸入層、中間的隱層和輸出層。然而這種結構的識別準確率有限。通過借鑑視覺皮層的分層機制,我們引入了多層結構的神經網絡,即深度學習。

深度學習神經網絡通過增加多層隱層,大大提高了圖像識別的準確率。這一進化充分展示了第一性原理在技術發展中的關鍵作用。

【收藏必備】AI Agent完全指南:從第一性原理到多Agent協作,程序員入門必學大模型基礎_#大模型學習_02

02

基於第一性原理的發展軌跡

在探討Agent的協作時,實際上是在討論一種人的活動的組織方式。為什麼這麼説呢?我們可以通過一個例子來更好地理解這一點。

第一階段:個人手藝人

最開始可能是個人手藝人,他們獨自完成所有工作。這種單打獨鬥的方式雖然有其獨特性,但效率較低,每個產品可能都不一樣。

第二階段:小作坊或工作室

接下來是小作坊或工作室的階段。這個階段中,有了一羣人共同協作,開始出現分工。分工是進入現代工業的起步標誌,每個人在各自的專業領域中完成特定任務。同時,小作坊會有專門的人進行管理。

第三階段:流水線

第三個階段是流水線的出現。流水線的概念是從小作坊轉變為工廠的標誌,要求大批量的生產。流水線是20世紀初工業革命後的重要發展,極大地提高了生產效率。

第四階段:小型公司的協作

第四個階段是小型公司的協作。這可以看作是現代工廠和企業製造部門的雛形。在這個階段,不僅生產質量和產量都得到了成倍的提升,企業的組織和管理也更加完善。

第五階段:現代企業的綜合協作

第五個階段是現代企業的綜合協作。如今,許多小型公司通過整合成為一個部門或事業羣。在這個階段,企業不僅專注於生產,還包括前期調研、市場營銷和零售佈局等多方面的工作。通過這些綜合性的協作,企業能夠更有效地推廣和銷售產品。

【收藏必備】AI Agent完全指南:從第一性原理到多Agent協作,程序員入門必學大模型基礎_#大模型學習_03

03

Agent 協作技術發展軌跡

第一階段:手藝人

手藝人代表人的腦力執行特點,其門檻較低,每個人都可以做這個事情,但要做到最好的人卻寥寥無幾。Agent技術代表的是算法、算力和模態理解。當前的大模型技術就是在這一階段表現出來的,當算法突破瓶頸後,將顯現出稀缺性,超過其他模型。Agent 技術一般用於聊天、總結和翻譯,可以直接輸出知識。

第二階段:工作室

工作室的特點是有一個靈魂人物(例如小老闆)負責產品立項和設計決策,並將具體任務分發給關鍵的手藝人。工作室產品通常是定製化的,結合用户內容進行定製。關鍵技術包括意圖模型和工具使用。業界例如豆包元寶、頻道問問等AI產品都在進行特定內容的上下文處理,進行總結、問答和聊天等娛樂化功能。

第三階段:流水線

流水線的特點是批量化執行和拉線管理。在工廠裏,每個流水線都有線管理人員監督工作進度,確保生產環節順利進行。對應的Agent 技術包括任務編排、管理和AI-Devops。舉例來説,任務分發後可通過多種方式執行並回收結果。產品示例包括豆包的Coze平台和Dify平台。

第四階段:小型組織

小型組織類似現代工廠的製造部門,關鍵技術是規劃決策算法和自動化技術。任務在這一階段可能是模糊的,需要規劃和決策算法來優化產品。自動化技術結合MCP提高效率。例如,規劃決策算法用於分析問題、數據和工具選擇,自動化技術使任務執行更快。

第五階段:現代企業組織

現代企業組織有多個部門協助,關鍵在於持續穩定的角色驅動。當前所有上下文基於用户輸入啓動,但組織需持續運轉,實時調整數據輸入和反饋。關鍵技術包括數據共享和自我決策驅動,通過接入更多數據實現自我迭代。所以現在的環境感知在Agent上的應用還比較少,Agent協作的未來形態應該是持續運營狀態,基於持續數據輸入可以對自身進行迭代。

例如,PM和DS同學作為兩個Agent每天交流信息,他們可能共同開了個會議,目標更新了。 當這個目標需要兩個角色共同完成時,Agent集羣自我編排兩個Agent整合成新的高維Agent來實現目標。(類似項目組織的概念)

企業組織通過OKR驅動目標劃分,依據部門定位編排目標。當外面的產品或技術出現變化時,企業會自己更新組織來適應。 對於Agent協作來説,到達企業級別的Agent會自行通過決策基於已有基礎創建新的Agent來適應變化,然後持續的外部數據輸入後能更新迭代進行編排。

總結 各階段的技術演進展示了從手藝人到現代企業組織的逐步發展,每個階段都有相應的技術和應用場景。應用的選擇根據使用場景和用户規模判斷,不一定每個應用都要走到最後階段。

【收藏必備】AI Agent完全指南:從第一性原理到多Agent協作,程序員入門必學大模型基礎_#AI大模型_04


04

Agent能力概述

Agent的能力主要可以分為以下幾個部分:

  • 算力;
  • 知識記憶;
  • 預測功能;
  • 動作執行。

知識記憶 (Memory and Knowledge)

Agent的大腦負責記憶和知識的獲取。知識記憶通常通過微調訓練或者特定方案(如RAG的方案)來實現。這些方法使Agent能夠在不同情況下調用相關知識。

預測功能

對於預測任務,Agent可以將圖像、多模態數據等轉換成文本形式,然後進行預測。這種轉換使得Agent在處理不同類型的數據時更加靈活和高效。

動作執行 (Action)

動作執行是通過工具能力來實現的,例如API調用、SQL調用以及機械手的操作等。這些調用都屬於Agent的動作執行部分。具體來説,工具能力主要分為以下幾種:

  • API調用
  • SQL調用
  • 機械手操作

工具能力

在工具能力方面,舉一個例子,主要是通過 ReAct 的方案來實現API調用和搜索。這些都屬於工具能力的一部分。

  • MCP (萬能插口)
  • MCP的概念可以理解為一個萬能的插口。目前,所有的工具調用都可能各自有各自的沙箱板,而MCP則作為一個通用接口,使得所有工具都能插上去,從而提高了兼容性和靈活性。
  • RAG (知識補充)
  • RAG的概念是一個知識補充機制,用於增強Agent的知識庫。

總結 當前的Agent通過整合計算能力、知識記憶、預測功能和動作執行等多個方面,能夠高效地與外部用户進行交互,並完成複雜的任務。這些能力的實現依賴於各種工具和接口的使用,例如API調用、SQL調用和機械手操作等。通過MCP和Read等機制,Agent能夠更加靈活地調用和補充知識,從而提升整體性能。

【收藏必備】AI Agent完全指南:從第一性原理到多Agent協作,程序員入門必學大模型基礎_#AI大模型_05

05

未來的思考

這些想法都是我個人的見解,沒有參考任何資料,可能不完全正確,大家可以一起討論。

當前的協作方式

1、層級結構:現代的協作方式通常基於層級結構。用户輸入信息後,系統(Agent)會規劃執行的工具或任務,然後由各個子系統(agents)繼續執行。這一過程是層級化的。

網狀結構的概念

2、網絡狀的社會組織:未來的發展可能更傾向於網狀結構,即各個節點(如個人、公司、社區等)可以互相通信。例如,當我提出一個問題時,系統會通過多節點傳導,最終得到知識反饋。

進化點

3、上游與下游關係的變化:

  • 傳統的系統(Agent)通常通過人為分配任務。
  • 未來的系統可能會實現更自主的上游與下游關係。例如,當我提出一個問題時,如果系統發生了變化,它會自動通知相關人員進行下一步操作。

4、信息共享網絡:

  • 為了實現上述網狀結構,信息共享是必不可少的。
  • 舉個例子:當我問AI PM(項目經理)某個問題,如軟件版本發佈情況、覆蓋率等,AI PM可以幫我查到部分信息,但需要進一步的信息時,系統會自動查詢其他相關節點(如AI DS)(數據科學)並整合反饋,而不需要我重複輸入問題。

5、原突變與自我進化:

  • 系統應具備自我進化和自我編排的能力。例如,當系統發現某個問題沒有得到有效回答時,它可以自動創建新的子系統(agents)來解決問題。
  • 舉個例子:如果我問“QQ在微博上的熱搜是什麼?”而系統無法回答,它可以自動生成用於查詢微博熱搜的代碼,並創建相應的agent。第二天當我再問同樣的問題時,系統已經具備瞭解答的能力。

結論

通過以上幾點,我們可以看到未來系統的發展方向可能更加自主、網絡化和智能化。信息共享和自我進化將是關鍵因素,使得系統能夠更高效地處理複雜問題。

【收藏必備】AI Agent完全指南:從第一性原理到多Agent協作,程序員入門必學大模型基礎_#大模型入門_06

06

未來技術的發展與應用

未來技術的發展與應用將會有幾個重要的方向,包括大模型的專業化、指令庫的應用、模型多模態能力的提升以及更少的人類指令輸入等方面。

  1. 大模型與基礎設施的專業化

隨着技術的發展,大模型和基礎設施會變得更加專業化。過去,軟件工程主要集中在代碼方面,但未來會更多地涉及到指令庫的概念。指令庫可以包含一些“魔法指令”,用户不需要自己去查找或編寫指令,只需調用指令庫中的現有指令即可。例如,用户想要創建一個特定的引擎,指令庫可以自動生成相應的指令並注入到系統中,從而簡化了操作過程。

  1. 模型的多模態能力

未來的模型將會整合更多的模態信息。例如,谷歌最新的視頻生成技術可以同時生成語音和視頻內容。未來可能會有更多的信息被生成,如視頻中的物體座標等。這種多模態的信息輸入將使模型更加智能和全面。

  1. 更少的人類指令輸入(Less Prompt)

隨着技術的進步,人類輸入的指令會越來越少。例如,代碼補全工具從最初的按回車補全下一行代碼,到按Tab鍵補全整個文檔的內容。這種趨勢表明,未來用户輸入的指令會更少,系統會根據少量的輸入自動生成完整的內容。

  • 基於代碼補全的概念
  • Cursor前的代碼補全概念:
  • 功能:按下回車鍵後,自動補全下一行代碼。
  • Curosr 概念:
  • 功能:按下 Tab 鍵後,不僅全文補全,自動預測下一個要補全的代碼位置,還會根據整個工程進行編程補全。
  • 優勢:減少用户輸入的內容。
  • 應用於客户端應用的智能推薦(思路)
  • 操作行為分析:
  • 通過 Less Prompt 的概念引導,我們可以減少用户的操作行為來執行指令。
  • 示例:簡化用户操作,可能只需一步點擊即可完成任務(類似補全操作路徑的概念)
  1. 商業應用中的數據共享

目前,AI在生成結果時,往往缺乏上下文數據的共享。例如,當用户提出多個問題時,AI需要記錄這些問題並基於這些記錄推薦相關問題和答案。未來,數據共享和整合將會更加重要,以便AI能夠更好地理解用户的需求並生成相應的結果。

  1. 更多數據(More Data)

未來的AI模型將會依賴更多的數據進行訓練。例如,醫療領域是一個可能爆發的應用場景。醫療行業每年投入大量資金,而富人對延長壽命的需求使得這一領域有很大的發展潛力。具體應用如胃腸道膠囊攝像頭,可以通過攝像頭拍攝上千張圖片,然後基於AI分析這些圖片,檢測消化道是否有息肉或其他問題。這樣可以大大減少人工分析的時間和成本,提高診斷效率。

More Data 概念

  • 定義:在模型中輸入更多的數據,使其能夠更好地學習和理解用户需求。
  • 實現:增加數據量以提高模型的性能和準確性。

通過以下策略,我們可以顯著提升用户體驗:

  1. 減少用户指令:利用智能補全功能和歷史數據推薦。
  2. 優化 AI 推薦:共享狀態數據,提高問題生成的準確性。
  3. 增加數據量:輸入更多數據以增強模型學習能力。
  4. 技術爆發的非線性應用

技術的爆發往往是突變性的、非線性的。例如,1981年視覺皮層分層基礎研究獲得諾貝爾醫學獎,但直到1990年圖像識別技術在才開始爆發,自然語言大模型的概念應用也是如此。

引用個老圖展示人工智能各領域的發展狀態

【收藏必備】AI Agent完全指南:從第一性原理到多Agent協作,程序員入門必學大模型基礎_#AI大模型_07

圖源網絡

07

總結

未來技術的發展將會集中在大模型的專業化、多模態能力的提升、更少的人類指令輸入、數據共享和更多的數據應用上。這些趨勢將會推動各個領域的技術進步,特別是在醫療等高投入的領域,可能會有更多的突破和應用。

另外,不同的Agent協作技術階段都有其存在的意義,並不是所有技術都必須演進到最後階段。 這才構成了我們現在的社會活動。