大模型基礎（一）核心概念規整詳情 - AI vin_howe 博客 | YeLogs.com

博客 / 詳情

大模型基礎（一）核心概念規整

11:24 AM · Nov 13 ,2025

基礎概念梳理

名詞/概念詞	專業解釋	非專業舉例説明
參數	模型內部可調整的數值，通過在大量數據上訓練學習而得。它們是模型知識的載體，決定了模型如何處理輸入併產生輸出。	好比一個超級大腦的神經元連接強度和數量。參數越多，這個“大腦”的結構越複雜，能記住和理解的知識就越多（比如GPT-3有1750億個參數）。
Transformer 架構	一種基於“自注意力機制”的深度學習模型架構。它是當今絕大多數LLM和VLM的基石，能高效地處理序列數據（如文本），理解單詞之間的關係。	就像一個高效的閲讀小組。小組在閲讀一篇文章時，每個成員（注意力頭）都會專注於文章中不同詞語之間的聯繫（比如“它”指代的是什麼），並共同理解全文意思。
分詞	將原始文本分割成模型能夠理解的更小單元（如詞語、子詞或字符）的過程。這是文本輸入模型前的必要步驟。	就像我們學英語要把句子拆成單詞一樣。比如“I'm learning.” 會被分詞成 `["I", "'", "m", "learning", "."]`這幾個單元給模型處理。
預訓練	模型訓練的第一階段，在海量無標註數據上通過自監督學習（如預測下一個詞）來學習語言的通用知識、語法和事實。這是一個“通識教育”的過程。	讓模型“博覽羣書”，像一個人讀完了整個互聯網，學會了語言的規律和世界的常識，但它還不知道具體要完成什麼任務。
微調	在預訓練模型的基礎上，使用特定任務的小規模、高質量數據對其進行額外訓練，使其適應特定領域或任務（如法律問答、客服對話）。	給那個“博覽羣書”的模型進行“職業培訓”。比如，用大量的醫患對話記錄去微調模型，它就能成為一個專業的醫療問答助手。
提示/提示詞	用户提供給模型的指令或問題，用於引導模型產生期望的輸出。提示詞的質量直接影響模型回答的效果。	就像你向一個知識淵博但需要明確指引的助手提問。模糊的提示：“説點關於狗的事”。清晰的提示：“請列舉三種最受歡迎的家庭犬種及其特點。”
提示工程	設計和優化提示詞的技術和藝術，旨在更有效、更可靠地激發模型的能力，得到更準確、相關的回答。	學習如何與這個大模型助手高效溝通的“話術”。比如，在提示詞中加入“一步一步地思考”可以引導模型展示其推理過程。
上下文窗口	模型在一次處理時所能考慮的提示詞和生成文本的總長度限制。它就像是模型的“短期工作記憶”。	就像你和人聊天時，對方能記住並參考的最近對話內容長度。如果對話太長，他可能會忘記最開始説了什麼。上下文窗口就是模型的“記憶跨度”。
思維鏈	一種提示技術，要求模型在給出最終答案前，先輸出其推理的中間步驟。這能顯著提高模型在複雜推理任務上的準確性。	像小學生解數學應用題，被要求“寫出計算過程”。模型一步步推理（“首先...，然後...，因此...”），最終得出答案，這樣更容易發現和糾正錯誤。
對齊	通過技術手段（如RLHF）使模型的行為與人類的價值觀、意圖和偏好保持一致，使其變得有用、誠實且無害。	不僅讓模型“聰明”，還要讓它“有教養、守規矩”。避免它生成有害、有偏見或胡説八道的內容，成為一個負責任的人工智能。
人類反饋強化學習	一種重要的對齊技術。利用人類對模型不同回答的偏好評分（哪個更好）來訓練模型，使其逐步學會選擇更符合人類偏好的回答。	“師傅帶徒弟”。人類師傅查看模型給出的幾個答案，指出哪個更好（打分），模型（徒弟）根據反饋不斷調整自己，越來越接近師傅的要求。
知識蒸餾	將大型、複雜模型（“教師模型”）的知識“蒸餾”或壓縮到小型、高效模型（“學生模型”）中的技術。目的是在保持性能的同時，減小模型體積、降低部署成本。	就像把一本百科全書（教師模型）的精華知識，總結成一本便攜的考前重點小冊子（學生模型）。小冊子更輕便、查閲更快，但核心知識都在。
幻覺	指模型生成的內容在事實上是不正確的或毫無根據的，但模型以非常自信的方式呈現出來。這是大模型目前面臨的主要挑戰之一。	模型在“一本正經地胡説八道”。比如你問它“是誰發現了相對論？”，它可能會回答“是愛因斯坦和牛頓共同發現的”，這聽起來合理但實際上是錯誤的。
多模態	模型能夠處理和生成多種類型的信息（模態），如文本、圖像、音頻、視頻等。VLM（視覺語言模型）就是文本和圖像多模態的典型代表。	一個“全能型藝術家”，既能根據文字描述作畫（文生圖），也能看一張圖然後寫出故事（圖生文），打破了文字和圖像的界限。
視覺語言模型	一種特殊的大模型，能夠同時理解視覺（圖像/視頻）和語言（文本）信息，並在兩者之間建立聯繫、進行推理和生成。	像一個具備視覺能力的智能助手。你給它一張照片，問“圖片裏這個人為什麼開心？”它能分析圖片內容（人物表情、環境）並給出合理回答。

核心組件與架構基礎

名詞/概念詞	專業解釋	非專業舉例説明
神經網絡	受大腦神經元網絡啓發的一種計算模型。由大量相互連接的“神經元”（節點）組成，通過調整連接強度（權重）來學習數據中的複雜模式。	像一個由許多簡單的開關（神經元）和電線（連接）組成的巨大電路。通過調整電流（數據）如何流過這個電路，讓整個網絡學會完成特定任務，比如識別貓的圖片。
嵌入	將離散的符號（如單詞、圖片碎片）轉換為高維空間中的連續數值向量。這個向量能夠捕獲符號的語義信息（如“國王”和“王后”的向量關係類似於“男人”和“女人”）。	給每個單詞分配一個“數字身份證”或“座標”。意思相近的詞（如“貓”和“狗”）在空間中的座標會很接近，而意思無關的詞（如“貓”和“汽車”）則相距甚遠。
自注意力機制	Transformer架構的核心。允許序列中的每個位置在計算其表示時，權衡序列中所有其他位置的重要性。從而動態地捕捉序列內部的全局依賴關係。	讀一句話時，大腦會瞬間關注到與當前詞最相關的詞。比如讀“它”的時候，你會自動關注前面提到的核心名詞（如“蘋果”），從而理解“它”指代什麼。自注意力機制就是讓模型自動完成這個過程。
前饋神經網絡	Transformer架構中的一個子模塊，每個位置（如每個詞）的信息會獨立地通過一個小型神經網絡，進行非線性變換，增加模型的表達能力。	在自注意力機制完成了“信息混合”之後，每個詞再“獨立思考”一下，深化自己對當前語境下的理解。
層歸一化	一種穩定訓練過程的技術，對每一層神經元的輸出進行標準化（調整均值和方差），防止梯度爆炸或消失，加速模型收斂。	就像在團隊協作中，定期對每個人的工作輸出進行“校準”，確保大家的貢獻在同一個量級上，避免個別人的輸出過大或過小影響整體進度。
位置編碼	因為Transformer本身不包含順序信息，需要額外注入每個詞在序列中的位置信息。通常通過一組特定的正弦餘弦函數或可學習的參數來實現。	給句子中的每個詞標上“1，2，3...”的序號。這樣模型就知道“狗追貓”和“貓追狗”是不同的，即使詞是一樣的。
解碼器 & 編碼器	Transformer的兩種主要架構。編碼器（如BERT）擅長理解輸入，用於分類、提取等任務；解碼器（如GPT系列）擅長根據輸入生成序列，用於寫作、翻譯等。	編碼器像是一個“閲讀理解專家”，你給它一篇文章，它告訴你文章的中心思想。解碼器像是一個“寫作大師”，你給它一個開頭，它能把故事續寫下去。

數據與訓練流程

名詞/概念詞	專業解釋	非專業舉例説明
語言建模	預訓練的核心任務，即根據上文預測下一個詞（或遮蔽的詞）。這是一個自監督學習任務，無需人工標註。	“完形填空”或“單詞接龍”。給定“今天天氣很好，我們一起去__”，模型的任務是預測最可能的下一個詞，如“公園”。
損失函數	一個衡量模型預測輸出與真實值之間差距的函數。訓練的目標就是最小化這個損失值。	“考試的評分標準”。模型每次預測後，根據這個標準給自己打分，目標是讓分數越來越高（錯誤越來越少）。
梯度下降	優化模型參數的核心算法。通過計算損失函數相對於模型參數的梯度（導數），沿着梯度下降的方向更新參數，以最小化損失。	想象你在山上蒙着眼找下山的路。你用腳感受一下哪個方向最陡（梯度），然後往那個方向走一小步（學習率）。重複這個過程，最終就能走到山底（損失最小）。
反向傳播	高效計算整個神經網絡梯度的方法。它先進行前向傳播計算輸出和損失，然後將損失從輸出層向輸入層反向傳播，利用鏈式法則計算每個參數的梯度。	就像追查一個重大事故的責任鏈。最終損失（事故後果）發生後，從最後一步開始，一步步反向追溯，找出每個環節（每個參數）應該承擔多少責任（梯度）。
過擬合	模型在訓練數據上表現很好，但在未見過的測試數據上表現很差。意味着模型只是“死記硬背”了訓練集，而沒有學到泛化的規律。	一個學生只會背考題，考試如果遇到原題能考滿分，但題目稍作變化就不會了。這説明他沒有真正理解知識。
泛化	模型在未見過的數據上表現良好的能力，是模型追求的最終目標。	學生真正掌握了知識點和解題方法，無論考試題目如何變化，他都能舉一反三，考出好成績。
困惑度	評估語言模型好壞的常用指標。直觀理解是模型在預測下一個詞時的“平均分支數”或不確定性。困惑度越低，模型越好。	相當於模型的 “懵逼指數”。指數越低，説明模型對下一個該是什麼詞越確定、越不困惑。比如，對於“1+1=_”這個上文，好模型的困惑度會很低（因為它很確定是“2”）。

模型能力、評估與限制

名詞/概念詞	專業解釋	非專業舉例説明
涌現能力	當模型規模（參數、數據、算力）超過某個臨界點時，模型表現出的在小型模型中不存在的新能力（如推理、編程等）。這些能力並非被明確編程的。	就像無數個簡單的神經元連接在一起，突然產生了“意識”或“智慧”這種高級屬性。當模型的“腦容量”足夠大時，它就“自然而然”地會了一些意想不到的技能。
指令微調	在預訓練後，使用大量由指令和對應回答組成的數據對模型進行微調，使其能更好地理解和遵循人類的指令。這是讓模型變得“有用”的關鍵一步。	預訓練模型是一個“無所不知但很散漫的學者”，指令微調就是對它進行“職業化訓練”，讓它學會用“好的，先生/女士”這樣的方式回答問題，成為一個合格的“助手”。
思維鏈	上面表格有，但值得再提：一種通過提示詞激發模型複雜推理能力的技術。	“把思考過程大聲説出來”。
縮放定律	描述了模型性能與規模（模型參數、訓練數據量、計算量）之間的可預測的冪律關係。指導着業界如何有效投入資源以提升模型能力。	類似於經濟學中的 “投入-產出”關係模型。根據這個定律，我們可以大致預測，如果想把模型能力提升10倍，大概需要投入多少算力和數據。
幻覺	上面表格有，但這是核心限制：模型生成不準確或虛構內容。	“創造性地撒謊”。
偏見與公平性	由於訓練數據本身存在的社會偏見（如性別、種族歧視），模型也會學會並放大這些偏見，導致其輸出不公平。	“垃圾進，垃圾出”。如果模型用充滿偏見的社會新聞數據訓練，它就可能成為一個有偏見的模型。

關鍵技術方法與技巧

名詞/概念詞	專業解釋	非專業舉例説明
檢索增強生成	解決模型幻覺和知識陳舊問題的方法。在生成答案前，先從外部知識庫（如搜索引擎、數據庫）檢索相關信息，然後將檢索到的信息和問題一起作為提示詞給模型，讓模型根據可靠信息生成答案。	讓模型在回答問題前，先“聯網搜索”一下最新資料，而不是隻依賴它訓練時記住的、可能過時的知識。這就像開卷考試，允許查資料。
量化	一種模型壓縮技術，將模型參數的數值精度從高（如32位浮點數）降低到低（如8位整數），大幅減少模型體積和推理耗時，便於在邊緣設備部署。	把一張高清無損的專業單反照片（模型），轉換成一張高質量的手機JPG照片。體積小了很多，傳輸更快，雖然損失了一些細節，但主要信息都在，完全夠日常使用。
低秩適應	一種高效的微調技術。在微調時，不更新整個巨大的模型參數，只更新額外注入的一些小型矩陣（低秩適配器），從而用極小的計算成本讓模型適應新任務。	不想重裝整個電腦系統（全量微調），而是安裝一個小的插件或皮膚（LoRA模塊），就能讓系統擁有新的主題和功能。
思維樹/圖	一種高級提示技術，讓模型對一個問題進行多種可能的推理路徑探索，並評估這些路徑，最終選擇最優路徑得出答案，顯著提升複雜問題的解決能力。	像下棋時的“多步推演”，在腦海中思考“如果我走這裏，對方可能會走那裏，然後我可以...”，比較不同走法的後果，選擇最優解。

0 位用戶收藏了這個故事！