文章目錄

  • 一、前言
  • 二、DeepSeek-V3.1 模型文件結構

一、前言


在當前 AI 技術討論中頻繁提及“大語言模型(Large Language Model,LLM)開源”,但它到底 “開” 出來什麼?一個開源 LLM 究竟包含哪些核心組成部分?本文將介紹 DeepSeek-V3.1 模型記錄由哪些部分組成,有助於理解大語言模型開源的具體內容和運行流程。

下圖展示了知名大模型廠商DeepSeek公司在 Hugging Face 平台的主頁,Hugging Face 實為當前全球最大的開源機器學習模型社區。Hugging Face 對於 AI 模型領域而言,可類比為面向人工智能領域的 GitHub。

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_json

我們以 DeepSeek-V3.1 的模型倉庫作為觀察示例,網址為:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

Model Card 頁面展示了模型的基本信息,具體內容如下:

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_權重_02

注意,真正的核心內容在Files and versions 選項卡里:https://huggingface.co/deepseek-ai/DeepSeek-V3.1/tree/main


二、DeepSeek-V3.1 模型文件結構


.safetensors 格式的模型權重文件數量最多且體積最大,因其包含模型中所有層的參數。為便於並行加載,模型權重通常被切分為許多 .safetensors 檔案。在實際部署過程中,model.safetensors.index.json 索引文件負責記錄模型層與對應權重文件之間的映射關係,從而確定各權重在具體文件中的存儲位置。

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_權重_03

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_json_04

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_json_05

config.json 定義了模型的結構參數,相當於該大語言模型的 “身份證”,其內容包括 model_type、architectures、hidden_size、num_hidden_layers、vocab_size 等參數,以及 DeepSeek-V3.1 中所使用的混合專家(Mixture-of-Experts,MoE)配置。

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_語言模型_06

config.json 文件以 JSON 格式存儲模型參數,而這些參數由 configuration_deepseek.py 代碼負責解析並轉化為模型配置對象。因此,這兩個文件構成了配置文件解析與模型配置初始化的核心組件。

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_json_07

modeling_deepseek.py 則負責實現模型架構與具體計算邏輯。

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_json_08

此外,諸如 DeepSeek 這類大語言模型並不直接處理原始文本,而是依賴分詞器將輸入文本轉換為模型可處理的數字表示,其中 tokenizer.json 包含了分詞規則映射與詞彙表數據。例如,在詞表中查詢詞彙 “good”,可獲取其對應的 Token ID 為 25109。

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_語言模型_09

tokenizer_config.json 用於配置文本處理方式、特殊 token、model_max_length 和 chat_template 等參數。總體而言,分詞器的主要功能是將輸入文本轉換為模型可處理的 Token ID 序列;在解碼過程中,則將模型輸出的 Token ID 序列重新轉換為自然語言文本。

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_權重_10

generation_config.json 用於配置使用 transformers 庫加載並推理 DeepSeek-V3.1 模型時的生成策略相關參數,例如 do_sample、temperature 和 top_p 等。

Huggingface的介紹,使用(最強Huggingface入門手冊)_小怪獸喜歡小天使的技術博客_語言模型_11

其他:

  • assets/- 輔助資源目錄
  • .gitattributes- Git 屬性部署
  • LICENSE- 特定開源許可證,DeepSeek-V3.1 實際用的 MIT License
  • README.md- 模型説明文檔