tag llm

標籤
貢獻50
186
12:33 PM · Oct 26 ,2025

@llm / 博客 RSS 訂閱

deephub - LMCache:基於KV緩存複用的LLM推理優化方案

LLM推理服務中,(Time-To-First-Token) 一直是個核心指標。用户發起請求到看見第一個token輸出,這段時間越短體驗越好,但實際部署中往往存在各種問題。 LMCache針對TTFT提出了一套KV緩存持久化與複用的方案。項目開源,目前已經和vLLM深度集成。 原理 大模型推理有個特點:每次處理輸入文本都要重新計算KV緩存。KV緩存可以理解為模型"閲讀"文本時產生的中間狀態

llm , 人工智能 , 深度學習 , kv存儲

收藏 評論

deephub - Gemini 2.5 Flash / Nano Banana 系統提示詞泄露:全文解讀+安全隱患分析

本文作者找到了一種方法可以深入 Nano Banana 的內部運作機制,具體手法沒法公開,但結果可以分享。 破解圖像生成器跟破解文本模型完全是兩回事。圖像模型的設計目標是輸出圖片而非文字,對提示詞注入的響應模式不同。有意思的是,在提取系統指令的過程中,模型自發生成了一些圖像: 破解成功時,Gemini 自動給這個對話分配的標題是"The King's — Command"(國王的命令)。似乎系統識

llm , google , 人工智能 , nano-banana-pro

收藏 評論

deephub - 1小時微調 Gemma 3 270M 端側模型與部署全流程

Gemma 3 270M是 Google 推出的一款雖小但能力驚人的開放模型。它屬於 Gemma 家族,本質上是將 Gemini 模型中使用的相同技術帶入了輕量級、可定製的形式中。 你可以在 不到一小時內完成微調,並將其大小壓縮到 300MB 以下,讓他直接在你的瀏覽器中運行。 在這篇文章中,我將展示我是如何使用 Gemma 創建我自己的 emoji 翻譯器的——這是一個將文本轉換為表情符號並在本

llm , pytorch , gemma , 深度學習 , Python

收藏 評論

蛋先生DX - RAG 切片利器 LumberChunker 是如何智能地把文檔切割成 LLM 愛吃的塊

丹尼爾:蛋兄,問個問題唄。RAG 裏的文檔應該怎麼切割比較好呢?按固定的字符數或詞數?按句?按段落?加個重疊窗口?感覺這些都太簡單粗暴,容易把相關的內容給拆散了 蛋先生:恩,你説得對。這些方法一刀切,確實沒辦法考慮上下文的語義關係。現在大模型越來越強大,完全可以藉助它們的能力,比如 LumberChunker 丹尼爾:LumberChunker? 蛋先生:這個名字起得非常有意思。"Lumber"

llm , ai開發 , 語義化 , 人工智能 , 文檔

收藏 評論

微笑的小刀 - 西瓜老師-2025年大模型 MCP 技術實戰課

當大語言模型(LLM)的能力已經強大到令人驚歎時,👇🏻ke🍊:xingkeit點top/15267/一個新的瓶頸悄然浮現:我們如何才能安全、可控、高效地將這股“洪荒之力”引入到複雜的企業應用和日常工具中?直接將 API 密鑰嵌入代碼?讓模型直接訪問我們的數據庫?這些想法在 2025 年的今天,聽起來既危險又原始。 正是在這樣的背景下,我參加了西瓜老師的 MCP(Model Context P

llm , mcp , 人工智能 , 大模型

收藏 評論

deephub - 斯坦福ACE框架:讓AI自己學會寫prompt,性能提升17%成本降87%

斯坦福和SambaNova AI最近聯合發了一篇論文,Agentic Context Engineering (ACE)。核心思路:不碰模型參數,專注優化輸入的上下文。讓模型自己生成prompt,反思效果,再迭代改進。 可以把這個過程想象成模型在維護一本"工作手冊",失敗的嘗試記錄成避坑指南,成功的案例沉澱為可複用的規則。 數據表現 論文給出的數字: AppWorld任務準確率比GPT-4驅動的a

llm , 神經網絡 , 人工智能 , 深度學習

收藏 評論

deephub - JAX核心設計解析:函數式編程讓代碼更可控

很多人剛接觸JAX都會有點懵——參數為啥要單獨傳?隨機數還要自己管key?這跟PyTorch的畫風完全不一樣啊。 其實根本原因就一個:JAX是函數式編程而不是面向對象那套,想明白這點很多設計就都説得通了。 先説個核心區別 PyTorch裏,模型是個對象,權重藏在裏面,訓練的時候自己更新自己。這是典型的面向對象思路,狀態封裝在對象內部。 JAX的思路完全反過來。模型定義是模型定義,參數是參數,兩邊分

llm , jax , 神經網絡 , 人工智能 , 深度學習

收藏 評論

阿里云云原生 - 2025 智能體工程現狀

作者:望宸 LangChain 近期發佈了《State of Agent Engineering》報告,內容比較翔實,全面分析了 AI 智能體在企業中的採用現狀、挑戰與趨勢。(或尚未應用的原因) 我們對報告進行了翻譯,並做了些描述和內容排序上的的優化,讓中文讀者更易於理解。同時,我們將今年 9 月底發佈的《AI 原生應用架構白皮書》中的部分調研數據,和《State of Agent Enginee

llm , 阿里雲 , 雲原生

收藏 評論

deephub - LlamaIndex檢索調優實戰:七個能落地的技術細節

RAG系統搭完其實才是工作的開始,實際跑起來你會發現,答案質量參差不齊,有時候精準得嚇人、有時候又會非常離譜。這個問題往往不模型本身,而是在檢索環節的那些"小細節"。 這篇文章整理了七個在LlamaIndex裏實測有效的檢索優化點,每個都帶代碼可以直接使用。 1、語義分塊 + 句子窗口 固定長度切分文檔是最省事的做法,但問題也很明顯:這樣經常把一句話從中間劈開,上下文斷裂,檢索器只能硬着頭

llm , 人工智能 , llama , 檢索系統 , Python

收藏 評論

deephub - 大規模向量檢索優化:Binary Quantization 讓 RAG 系統內存佔用降低 32 倍

當文檔庫規模擴張時向量數據庫肯定會跟着膨脹。百萬級甚至千萬級的 embedding 存儲,float32 格式下的內存開銷相當可觀。 好在有個經過生產環境驗證的方案,在保證檢索性能的前提下大幅削減內存佔用,它就是Binary Quantization(二值化量化) 本文會逐步展示如何搭建一個能在 30ms 內查詢 3600 萬+向量的 RAG 系統,用的就是二值化 embedding。 二

llm , 人工智能 , 檢索系統

收藏 評論

deephub - Anthropic 開源 Bloom:基於 LLM 的自動化行為評估框架

Anthropic 最近放出了一個叫 Bloom 的開源框架,專門用來測試大語言模型會不會出現某些特定行為。比如模型是不是會阿諛奉承用户、有沒有政治傾向、會不會為了自保撒謊或者試圖繞過監督機制這類問題。 這個框架跟常規的評估基準不太一樣。傳統基準都是固定的測試集而 Bloom 會根據你的配置“長”出不同的評估內容,這也是為什麼叫這麼個植物學的名字。 工作流程:四個階段搞定評估 Bloom 的整個流

llm , 人工智能 , 深度學習

收藏 評論

阿里雲大數據AI - 阿里雲 AI 搜索開放平台新功能發佈:大模型聯網能力上線

在數字化轉型的浪潮中,高效、智能的搜索技術正成為企業提升競爭力的關鍵。為了滿足用户對更智能、更精準搜索體驗的需求,阿里雲 AI 搜索開放平台此次新增了大模型聯網能力,通過集成大語言模型(LLM)和聯網搜索技術,為用户提供更智能、更全面的搜索體驗。以下是此次更新的核心功能詳情: 一、大模型聯網能力 提供聯網搜索 API,當私有知識庫無法滿足用户需求時,可拓展互聯網信息,結合大語言模型生成更豐富的

llm , 雲計算 , 搜索 , 阿里雲 , 人工智能

收藏 評論

deephub - SAPO去中心化訓練:多節點協作讓LLM訓練效率提升94%

Swarm sAmpling Policy Optimization,簡稱SAPO,這個名字聽起來有點學術,但它解決的問題很實際。大規模語言模型的後訓練一直是個讓人頭疼的事情——要麼資源不夠,要麼效率太低。SAPO提出了一種去中心化的異步RL方案,讓各個計算節點之間可以互相分享rollouts,避開了傳統並行化訓練的各種瓶頸。 論文的實驗結果。在成千上萬個社區節點的測試中,這套方法能帶來9

llm , 人工智能 , 分佈式系統 , 深度學習

收藏 評論

deephub - 向量搜索升級指南:FAISS 到 Qdrant 遷移方案與代碼實現

FAISS 在實驗階段確實好用,速度快、上手容易,notebook 裏跑起來很順手。但把它搬到生產環境還是有很多問題: 首先是元數據的問題,FAISS 索引只認向量,如果想按日期或其他條件篩選還需要自己另外搞一套查找系統。 其次它本質上是個庫而不是服務,讓如果想對外提供接口還得自己用 Flask 或 FastAPI 包一層。 最後最麻煩的是持久化,pod 一旦掛掉索引就沒了,除非提前手動存盤。 Q

llm , 向量 , 人工智能 , 檢索系統

收藏 評論

商湯萬象開發者 - LazyLLM教程 | 第15講:大視角問答:RAG如何支持跨文檔、跨維度總結

本章我們將為大家介紹如何利用RAG解決統計問題。 首先介紹傳統RAG在處理統計問題中的缺陷:無法直接處理結構化數據以及缺乏動態計算能力,然後我們介紹了RAG解決統計問題的基本思路,以及通過SQL Call和Function Call機制。 接下來分別介紹二者,首先介紹SQL的相關概念以及如何構建SQL數據庫,然後介紹Text2SQL技術和sql_tool工具的具體實現。 最後介紹Fun

llm , 教程 , 知識 , 人工智能 , SQL

收藏 評論

KAI智習 - "靈光"上線兩週創建330萬個"閃應用", 阿里開源圖像處理新王,亞馬遜Trainium3芯片登場,AI也會"壓力崩潰"

🌟 30 秒生成 AI 應用?"靈光"引爆全民創作熱潮 螞蟻集團通用 AI 助手"靈光"上線兩週,用户已創建 330 萬個"閃應用"! 無需編程基礎,僅用自然語言對話即可打造個性化工具——"靈光"以"30 秒生應用"功能掀起全民 AI 創作風暴。數據顯示,6 天下載量突破 200 萬,遠超 ChatGPT 首周表現。 這 330 萬個閃應用並非空洞玩具,而是深深嵌入日常生活的真實場景。根據

llm , 資訊 , 人工智能

收藏 評論

慧星雲 - 解鎖視頻生成新高度:騰訊混元視頻生成大模型對外開源

混元視頻生成大模型 在當今人工智能技術飛速發展的時代背景下,視頻生成領域正不斷迎來新的變革與突破。2024年12月3日,騰訊這一科技行業的領軍者做出了一項引人矚目的舉措——宣佈旗下的混元視頻生成大模型(HunYuan-Video)對外開源,此舉無疑在業界掀起了軒然大波。 HunYuan-Video HunYuan-Video 騰訊混元視頻生成模型HunYuan-Video(HY-V

llm , 騰訊 , 雲計算 , aigc , 人工智能

收藏 評論

hhyuuu - 自建知識庫+調用大模型api+接入微信體驗製作簡易微信機器人(智能客服)

1、前言 1.1、整體配置 本地windows個人計算機:用來跑向量模型和搭建運行docker容器 星火的spark max模型api接口(有高額免費的tokens使用) 1.2、介紹 不會在詳細講述docker-compose配置、ollama等使用,上一篇文章有具體説明。 基於github上的chatgpt-on-wechat項目實現。 本次演示最後結果只是能跑通,看到效果,

llm , oneapi , wechatapi , docker-compose , embedding

收藏 評論

fangpin - 從 0 搭建 LLM 不再難!這個 PyTorch 項目幫你吃透大模型底層邏輯

如果你曾想深入理解大語言模型(LLM)的 “五臟六腑”,卻被框架封裝的黑盒接口、複雜的源碼結構勸退;如果你希望親手實現 Transformer 的每一個組件,而非單純調用transformers庫 —— 那麼今天推薦的這個開源項目,絕對能成為你的 LLM 學習 “腳手架”。 它就是 GitHub 上的 llm-from-scratch(項目地址),一個基於 PyTorch、專為教育設

AIGC二三事 , llm , BPE , 人工智能 , transformer , 深度學習 , 大模型

收藏 評論

愛可生開源社區 - SCALE | SQLFlash 在 SQL 優化維度上的表現評估

SQLFlash 在 SQL 優化維度上的表現評估 一、摘要 本次 SCALE 評測針對專業級 AI 應用 SQLFlash 進行。測評數據集難度升級,旨在反映模型或專業應用在處理 接近生產級 問題 SQL 調優時的穩健性。 核心結論:面對全新挑戰,SQLFlash 的各項指標雖有波動,但仍展現出其作為專項調優工具的專業能力。特別是 語法及最佳實踐遵循 仍保持高分(87.6),確保了輸出 SQL

llm , 數據庫 , SQL

收藏 評論

FlowyAIPC - 速來體驗 | FlowyAIPC v4.0.1 正式發佈

更強筆記 · 更易截圖 · 更多智能體 · 更順會議記錄 【2025年12月8日】 FlowyAIPC v4.0.1 版本已經正式上線,本次更新圍繞“效率提升”與“智能體驗”進行全面優化,為你帶來更順滑的創作體驗與更高效的工作流。 01|筆記功能再進化:支持 PDF / Docx 導出 + 表格插入 本次升級,讓筆記功能正式邁向專業內容創作工具。 ✨ 支持 一鍵導出PDF、Docx 格式文件

機器學習 , llm , 知識 , 人工智能 , 程序員

收藏 評論

FlowyAIPC - FlowyAIPC 發佈全新 4.0:開啓端側 AI 的主動生產力時代

【2025年11月28日】 —— 端側 AI 生產力工具FlowyAIPC正式發佈全新4.0版本。本次更新圍繞 “主動生產力”“端側智能”“本地化大模型加速” 三個方向進行了深度演進,進一步推動 AI 從工具型能力向真正的智能操作系統層能力邁進。 FlowyAIPC 4.0 聚焦於讓一台普通電腦成為可主動協助用户處理任務的個人 AIPC(AI Personal Computer) ,支持本地大模

機器學習 , llm , 自然語言處理 , 人工智能 , llama

收藏 評論

Joas Pambou - Using Multimodal AI Models For Your Applications (Part 3)

In this third and final part of a three-part series, we’re taking a more streamlined approach to an application that supports vision-language (VLM) and text-to-speech (TTS). This time, we’ll use dif

llm , Techniques , Tools , AI

收藏 評論

hhyuuu - docker雲部署自建知識庫的ai微信機器人(易上手很詳細)

1、前言 1.1、介紹 本次演示採用的是2核2g Ubunto系統,無內置鏡像的華為雲服務器 推薦使用騰訊雲輕量雲服務器docker鏡像,可以省去前面第二節步驟,如果還是境外服務器更方便了 1.2、注意事項 需要有linux基礎,有用過docker的經驗,當然沒用過跟着做就行 本文檔每一步都有演示,請認真看完文字描述 2、搭建docker環境 2.1、docker和docker-com

llm , oneapi , docker-compose , chatgpt , Docker

收藏 評論