博客 / 詳情

返回

大模型基礎(一)核心概念規整

基礎概念梳理

名詞/概念詞 專業解釋 非專業舉例説明
參數​ 模型內部可調整的數值,通過在大量數據上訓練學習而得。它們是模型知識的載體,決定了模型如何處理輸入併產生輸出。 好比一個超級大腦的神經元連接強度和數量。參數越多,這個“大腦”的結構越複雜,能記住和理解的知識就越多(比如GPT-3有1750億個參數)。
Transformer 架構​ 一種基於“自注意力機制”的深度學習模型架構。它是當今絕大多數LLM和VLM的基石,能高效地處理序列數據(如文本),理解單詞之間的關係。 就像一個高效的閲讀小組。小組在閲讀一篇文章時,每個成員(注意力頭)都會專注於文章中不同詞語之間的聯繫(比如“它”指代的是什麼),並共同理解全文意思。
分詞​ 將原始文本分割成模型能夠理解的更小單元(如詞語、子詞或字符)的過程。這是文本輸入模型前的必要步驟。 就像我們學英語要把句子拆成單詞一樣。比如“I'm learning.” 會被分詞成 ["I", "'", "m", "learning", "."]這幾個單元給模型處理。
預訓練​ 模型訓練的第一階段,在海量無標註數據上通過自監督學習(如預測下一個詞)來學習語言的通用知識、語法和事實。這是一個“通識教育”的過程。 讓模型“博覽羣書”,像一個人讀完了整個互聯網,學會了語言的規律和世界的常識,但它還不知道具體要完成什麼任務。
微調​ 在預訓練模型的基礎上,使用特定任務的小規模、高質量數據對其進行額外訓練,使其適應特定領域或任務(如法律問答、客服對話)。 給那個“博覽羣書”的模型進行“職業培訓”。比如,用大量的醫患對話記錄去微調模型,它就能成為一個專業的醫療問答助手。
提示/提示詞​ 用户提供給模型的指令或問題,用於引導模型產生期望的輸出。提示詞的質量直接影響模型回答的效果。 就像你向一個知識淵博但需要明確指引的助手提問。模糊的提示:“説點關於狗的事”。清晰的提示:“請列舉三種最受歡迎的家庭犬種及其特點。”
提示工程​ 設計和優化提示詞的技術和藝術,旨在更有效、更可靠地激發模型的能力,得到更準確、相關的回答。 學習如何與這個大模型助手高效溝通的“話術”。比如,在提示詞中加入“一步一步地思考”可以引導模型展示其推理過程。
上下文窗口​ 模型在一次處理時所能考慮的提示詞和生成文本的總長度限制。它就像是模型的“短期工作記憶”。 就像你和人聊天時,對方能記住並參考的最近對話內容長度。如果對話太長,他可能會忘記最開始説了什麼。上下文窗口就是模型的“記憶跨度”。
思維鏈​ 一種提示技術,要求模型在給出最終答案前,先輸出其推理的中間步驟。這能顯著提高模型在複雜推理任務上的準確性。 像小學生解數學應用題,被要求“寫出計算過程”。模型一步步推理(“首先...,然後...,因此...”),最終得出答案,這樣更容易發現和糾正錯誤。
對齊​ 通過技術手段(如RLHF)使模型的行為與人類的價值觀、意圖和偏好保持一致,使其變得有用、誠實且無害。 不僅讓模型“聰明”,還要讓它“有教養、守規矩”。避免它生成有害、有偏見或胡説八道的內容,成為一個負責任的人工智能。
人類反饋強化學習​ 一種重要的對齊技術。利用人類對模型不同回答的偏好評分(哪個更好)來訓練模型,使其逐步學會選擇更符合人類偏好的回答。 “師傅帶徒弟”。人類師傅查看模型給出的幾個答案,指出哪個更好(打分),模型(徒弟)根據反饋不斷調整自己,越來越接近師傅的要求。
知識蒸餾​ 將大型、複雜模型(“教師模型”)的知識“蒸餾”或壓縮到小型、高效模型(“學生模型”)中的技術。目的是在保持性能的同時,減小模型體積、降低部署成本。 就像把一本百科全書(教師模型)的精華知識,總結成一本便攜的考前重點小冊子(學生模型)。小冊子更輕便、查閲更快,但核心知識都在。
幻覺​ 指模型生成的內容在事實上是不正確的或毫無根據的,但模型以非常自信的方式呈現出來。這是大模型目前面臨的主要挑戰之一。 模型在“一本正經地胡説八道”。比如你問它“是誰發現了相對論?”,它可能會回答“是愛因斯坦和牛頓共同發現的”,這聽起來合理但實際上是錯誤的。
多模態​ 模型能夠處理和生成多種類型的信息(模態),如文本、圖像、音頻、視頻等。VLM(視覺語言模型)就是文本和圖像多模態的典型代表。 一個“全能型藝術家”,既能根據文字描述作畫(文生圖),也能看一張圖然後寫出故事(圖生文),打破了文字和圖像的界限。
視覺語言模型​ 一種特殊的大模型,能夠同時理解視覺(圖像/視頻)和語言(文本)信息,並在兩者之間建立聯繫、進行推理和生成。 像一個具備視覺能力的智能助手。你給它一張照片,問“圖片裏這個人為什麼開心?”它能分析圖片內容(人物表情、環境)並給出合理回答。
 

 

核心組件與架構基礎

名詞/概念詞 專業解釋 非專業舉例説明
神經網絡​ 受大腦神經元網絡啓發的一種計算模型。由大量相互連接的“神經元”(節點)組成,通過調整連接強度(權重)來學習數據中的複雜模式。 像一個由許多簡單的開關(神經元)和電線(連接)組成的巨大電路。通過調整電流(數據)如何流過這個電路,讓整個網絡學會完成特定任務,比如識別貓的圖片。
嵌入​ 將離散的符號(如單詞、圖片碎片)轉換為高維空間中的連續數值向量。這個向量能夠捕獲符號的語義信息(如“國王”和“王后”的向量關係類似於“男人”和“女人”)。 給每個單詞分配一個“數字身份證”或“座標”。意思相近的詞(如“貓”和“狗”)在空間中的座標會很接近,而意思無關的詞(如“貓”和“汽車”)則相距甚遠。
自注意力機制​ Transformer架構的核心。允許序列中的每個位置在計算其表示時,權衡序列中所有其他位置的重要性。從而動態地捕捉序列內部的全局依賴關係。 讀一句話時,大腦會瞬間關注到與當前詞最相關的詞。比如讀“它”的時候,你會自動關注前面提到的核心名詞(如“蘋果”),從而理解“它”指代什麼。自注意力機制就是讓模型自動完成這個過程。
前饋神經網絡​ Transformer架構中的一個子模塊,每個位置(如每個詞)的信息會獨立地通過一個小型神經網絡,進行非線性變換,增加模型的表達能力。 在自注意力機制完成了“信息混合”之後,每個詞再“獨立思考”一下,深化自己對當前語境下的理解。
層歸一化​ 一種穩定訓練過程的技術,對每一層神經元的輸出進行標準化(調整均值和方差),防止梯度爆炸或消失,加速模型收斂。 就像在團隊協作中,定期對每個人的工作輸出進行“校準”,確保大家的貢獻在同一個量級上,避免個別人的輸出過大或過小影響整體進度。
位置編碼​ 因為Transformer本身不包含順序信息,需要額外注入每個詞在序列中的位置信息。通常通過一組特定的正弦餘弦函數或可學習的參數來實現。 給句子中的每個詞標上“1,2,3...”的序號。這樣模型就知道“狗追貓”和“貓追狗”是不同的,即使詞是一樣的。
解碼器 & 編碼器​ Transformer的兩種主要架構。編碼器(如BERT)擅長理解輸入,用於分類、提取等任務;解碼器(如GPT系列)擅長根據輸入生成序列,用於寫作、翻譯等。 編碼器像是一個“閲讀理解專家”,你給它一篇文章,它告訴你文章的中心思想。解碼器像是一個“寫作大師”,你給它一個開頭,它能把故事續寫下去。

 

數據與訓練流程

名詞/概念詞 專業解釋 非專業舉例説明
語言建模​ 預訓練的核心任務,即根據上文預測下一個詞(或遮蔽的詞)。這是一個自監督學習任務,無需人工標註。 “完形填空”或“單詞接龍”。給定“今天天氣很好,我們一起去__”,模型的任務是預測最可能的下一個詞,如“公園”。
損失函數​ 一個衡量模型預測輸出與真實值之間差距的函數。訓練的目標就是最小化這個損失值。 “考試的評分標準”。模型每次預測後,根據這個標準給自己打分,目標是讓分數越來越高(錯誤越來越少)。
梯度下降​ 優化模型參數的核心算法。通過計算損失函數相對於模型參數的梯度(導數),沿着梯度下降的方向更新參數,以最小化損失。 想象你在山上蒙着眼找下山的路。你用腳感受一下哪個方向最陡(梯度),然後往那個方向走一小步(學習率)。重複這個過程,最終就能走到山底(損失最小)。
反向傳播​ 高效計算整個神經網絡梯度的方法。它先進行前向傳播計算輸出和損失,然後將損失從輸出層向輸入層反向傳播,利用鏈式法則計算每個參數的梯度。 就像追查一個重大事故的責任鏈。最終損失(事故後果)發生後,從最後一步開始,一步步反向追溯,找出每個環節(每個參數)應該承擔多少責任(梯度)。
過擬合​ 模型在訓練數據上表現很好,但在未見過的測試數據上表現很差。意味着模型只是“死記硬背”了訓練集,而沒有學到泛化的規律。 一個學生只會背考題,考試如果遇到原題能考滿分,但題目稍作變化就不會了。這説明他沒有真正理解知識。
泛化​ 模型在未見過的數據上表現良好的能力,是模型追求的最終目標。 學生真正掌握了知識點和解題方法,無論考試題目如何變化,他都能舉一反三,考出好成績。
困惑度​ 評估語言模型好壞的常用指標。直觀理解是模型在預測下一個詞時的“平均分支數”或不確定性。困惑度越低,模型越好。 相當於模型的 “懵逼指數”。指數越低,説明模型對下一個該是什麼詞越確定、越不困惑。比如,對於“1+1=_”這個上文,好模型的困惑度會很低(因為它很確定是“2”)。
 

模型能力、評估與限制

名詞/概念詞 專業解釋 非專業舉例説明
涌現能力​ 當模型規模(參數、數據、算力)超過某個臨界點時,模型表現出的在小型模型中不存在的新能力(如推理、編程等)。這些能力並非被明確編程的。 就像無數個簡單的神經元連接在一起,突然產生了“意識”或“智慧”這種高級屬性。當模型的“腦容量”足夠大時,它就“自然而然”地會了一些意想不到的技能。
指令微調​ 在預訓練後,使用大量由指令和對應回答組成的數據對模型進行微調,使其能更好地理解和遵循人類的指令。這是讓模型變得“有用”的關鍵一步。 預訓練模型是一個“無所不知但很散漫的學者”,指令微調就是對它進行“職業化訓練”,讓它學會用“好的,先生/女士”這樣的方式回答問題,成為一個合格的“助手”。
思維鏈​ 上面表格有,但值得再提:一種通過提示詞激發模型複雜推理能力的技術。 “把思考過程大聲説出來”。
縮放定律​ 描述了模型性能與規模(模型參數、訓練數據量、計算量)之間的可預測的冪律關係。指導着業界如何有效投入資源以提升模型能力。 類似於經濟學中的 “投入-產出”關係模型。根據這個定律,我們可以大致預測,如果想把模型能力提升10倍,大概需要投入多少算力和數據。
幻覺​ 上面表格有,但這是核心限制:模型生成不準確或虛構內容。 “創造性地撒謊”。
偏見與公平性​ 由於訓練數據本身存在的社會偏見(如性別、種族歧視),模型也會學會並放大這些偏見,導致其輸出不公平。 “垃圾進,垃圾出”。如果模型用充滿偏見的社會新聞數據訓練,它就可能成為一個有偏見的模型。

關鍵技術方法與技巧

名詞/概念詞 專業解釋 非專業舉例説明
檢索增強生成​ 解決模型幻覺和知識陳舊問題的方法。在生成答案前,先從外部知識庫(如搜索引擎、數據庫)檢索相關信息,然後將檢索到的信息和問題一起作為提示詞給模型,讓模型根據可靠信息生成答案。 讓模型在回答問題前,先“聯網搜索”一下最新資料,而不是隻依賴它訓練時記住的、可能過時的知識。這就像開卷考試,允許查資料。
量化​ 一種模型壓縮技術,將模型參數的數值精度從高(如32位浮點數)降低到低(如8位整數),大幅減少模型體積和推理耗時,便於在邊緣設備部署。 把一張高清無損的專業單反照片(模型),轉換成一張高質量的手機JPG照片。體積小了很多,傳輸更快,雖然損失了一些細節,但主要信息都在,完全夠日常使用。
低秩適應​ 一種高效的微調技術。在微調時,不更新整個巨大的模型參數,只更新額外注入的一些小型矩陣(低秩適配器),從而用極小的計算成本讓模型適應新任務。 不想重裝整個電腦系統(全量微調),而是安裝一個小的插件或皮膚(LoRA模塊),就能讓系統擁有新的主題和功能。
思維樹/圖​ 一種高級提示技術,讓模型對一個問題進行多種可能的推理路徑探索,並評估這些路徑,最終選擇最優路徑得出答案,顯著提升複雜問題的解決能力。 像下棋時的“多步推演”,在腦海中思考“如果我走這裏,對方可能會走那裏,然後我可以...”,比較不同走法的後果,選擇最優解。
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.