文章目錄
- @[toc]
- 一、 能夠對圖片進行解釋的大語言模型有哪些?
- 1. 閉源/商業API(直接使用,無需部署)
- 2. 開源/可自部署(重點)
- 二、 開源的有哪些?
- 三、 哪些可以部署在自己的機器上?
- 四、 對機器的最低要求是什麼?
- 分級推薦配置:
- 特殊情況:純CPU推理
- 總結與建議
一、 能夠對圖片進行解釋的大語言模型有哪些?
這類模型可以分為兩大類:閉源/商業API和開源/可自部署。
1. 閉源/商業API(直接使用,無需部署)
這些模型通常性能強大,但需要聯網、按調用次數付費,且素材要求發送到廠商的服務器。
- GPT-4V(ision):OpenAI發佈,是這類能力的標杆,功能全面,理解能力很強。
- Gemini Pro Vision:Google DeepMind 發佈,性能與GPT-4V接近,是強有力的競爭者。
- Claude 3 Sonnet / Opus (Anthropic):新晉的強大模型,在多模態理解方面表現優異。
- Qwen-VL-Plus (通義千問):阿里雲的通義千問VL版本,在國內使用方便,能力不錯。
2. 開源/可自部署(重點)
這些模型你可以下載到自己的機器上運行,保證數據隱私,且無使用費用。
二、 開源的有哪些?
開源社區在這方面發展非常迅速,涌現了大量優秀的模型。以下是一些主流的開源選擇:
- LLaVA 系列
- 簡介:目前最流行、社區最活躍的開源多模態模型之一。它啓用CLIP作為視覺編碼器,將圖像特徵與LLaMA/Vicuna等大語言模型連接。
- 特點:易於訓練和微調,版本迭代快(如LLaVA-1.5, LLaVA-NeXT),性能在開源中屬於第一梯隊。
- 推薦:對於大多數個人開發者,LLaVA-1.5是入門和部署的首選。
- Qwen-VL 系列 (通義千問)
- 簡介:阿里雲開源的多模態大模型,有不同規模的版本(如Qwen-VL, Qwen-VL-Chat)。
- 特點:協助中英文,具備細粒度的視覺理解能力(如物體定位),機制全面。
- InstructBLIP
- 簡介:基於BLIP-2架構,經過指令微調大幅提升了模型的指令跟隨和對話能力。
- 特點:在複雜的視覺推理任務上表現良好,但可能比LLaVA稍慢。
- InternLM-XComposer2 (書生·浦語)
- 簡介:上海AI實驗室開源的強大模型,特別擅長“視覺-語言”的交叉創作。
- 特點:不僅理解能力強,還能根據圖片和指令進行創作,性能強勁。
- CogVLM
- 簡介:一個在視覺語言模型中深度整合視覺和語言信息的模型。
- 特點:在多項基準測試上表現優異,尤其是對視覺細節的忠實度較高。
通過三、 哪些能夠部署在自己的機器上?
上面第二點中提到的所有開源模型都行部署在你自己的機器上。
部署這些模型通常需要以下程序和框架:
- Ollama:強烈推薦給個人用户。它極大地簡化了本地大模型的部署和管理。你只需要一條命令(如
ollama run llava:7b)就能下載並運行模型,它還提供了友好的API。 - Transformers:Hugging Face 的庫,是深度學習領域的標準庫。你可以用Python代碼直接加載和運行這些模型,靈活性最高。
- vLLM:一個專門用於大模型推理的高性能庫,如果你追求極致的推理速度(Token吞吐量),可以使用它。
- LM Studio:一個帶有圖形界面的桌面應用,可能方便地搜索、下載並在本地運行各種大模型,對新手非常友好。
四、 對機器的最低要求是什麼?
要求主要取決於模型的參數量。參數量越大,理解能力通常越強,但對硬件要求也越高。
核心要求:GPU顯存
模型權重通常以16位浮點數(FP16)或8位整數(INT8)加載。一個簡單的估算公式:
- FP16模型所需顯存(GB) ≈ 參數量(B) × 2
- INT8量化模型所需顯存(GB) ≈ 參數量(B) × 1
分級推薦配置:
- 入門級/最低配置(能跑起來)
- 模型:7B(70億)參數模型的4位量化版本(如LLaVA-7B-q4)。
- 要求:
- GPU顯存:≥ 8 GB (如 RTX 3070, RTX 4060 Ti, RTX 4070)
- 系統內存:≥ 16 GB
- 説明體驗本地多模態模型的就是:這最低門檻。4位量化會損失少量精度,但能大幅降低顯存佔用。在8GB顯存上運行7B模型會比較緊張,但可行。
- 主流/流暢體驗配置
- 模型:7B~13B參數的FP16或8位量化版本(如LLaVA-13B, Qwen-VL-7B)。
- 要求:
- GPU顯存:≥ 16 GB ~ 24 GB (如 RTX 4080, RTX 4090, RTX 3090)
- 系統內存:≥ 32 GB
- 説明:這個配置可以比較流暢地運行大多數主流的開源多模態模型,響應速度較快,精度也更高。
- 高性能/研究級配置
- 模型:34B及以上參數的模型(如Qwen-VL-72B)。
- 要求:
- GPU顯存:≥ 80 GB (如雙卡RTX 4090, 或 A100/H100等專業卡)
- 系統內存:≥ 64 GB
- 説明:適合商業部署或高級研究,能運行最頂尖的開源模型。
特殊情況:純CPU推理
如果沒有足夠顯存的GPU,也能夠使用純CPU運行,但速度會非常慢,不適合交互式使用。
- 要求:需要大量的環境內存(RAM),例如運行7B模型可能需要16GB以上的空閒內存,並且推理速度可能以“字/秒”來計算。
總結與建議
- 對於初學者和個人開發者:
- 模型:從 LLaVA-7B的4位量化版開始。
- 部署工具:使用 Ollama 或 LM Studio,最簡單快捷。
- 硬件:確保你有一張至少8GB顯存的NVIDIA顯卡。這是獲得可用體驗的絕對前提。
- 部署命令示例(採用Ollama):
# 首先確保你的Ollama是最新版本
ollama pull llava:7b
ollama run llava:7b
運行後,允許直接上傳圖片並向它提問。