tag llm

標籤
貢獻50
187
12:33 PM · Oct 26 ,2025

@llm / 博客 RSS 訂閱

GPUStack - GPUStack v2:推理加速釋放算力潛能,開源重塑大模型推理下半場

2025 年是大模型推理技術發展的關鍵之年。自年初 DeepSeek R1 發佈引發全民關注以來,推理框架加速需求暴漲,推理優化的戰場驟然升温。以 vLLM、SGLang、MindIE 為代表的高性能推理引擎,以及 FlashInfer、FlashAttention、ATB 等底層加速庫不斷突破性能瓶頸,相比年初,部分前沿框架的推理性能提升已達 3 到 4 倍以上。 隨着 Agent 應用的爆發和

generative-ai , llm , 容器 , 人工智能 , 深度學習

收藏 評論

hhyuuu - 利用docker本地部署LLM+通過oneapi鏈接LLM和自建知識庫

1、前言 1.1、要求 本演示採用的windows進行部署,後續會介紹linux的演示,如果在linux系統下熟練了docker和docker-compose的使用,那麼自行舉一反三也很不難 要求1:如果使用的是雲端服務器,那麼至少CPU為4核8g才能勉強帶動,否則輕則問答時間長,重則docker崩潰,乃至遠程連接崩潰,一般個人計算機都能達到要求 要求2:對docker和docker-

llm , oneapi , docker-compose , embedding , 大模型

收藏 評論

Lab4AI - NeurIPS 2025!電子科大同濟等提出Table2LaTeX-RL:表格轉 LaTeX 精準度再突破

論文標題:Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models 作者團隊:電子科技大學、浙江實驗室科學數據樞紐研究中心、同濟大學 發佈時間:2025年9月22日 👉一鍵直達論文 👉Lab4AI大模型實驗室論文閲讀 ✅Lab

機器學習 , llm , 人工智能

收藏 評論

DigitalOcean - 開源視頻生成新標杆:美團LongCat Video全面解析與實戰指南

今年涌現了大量新的視頻模型,可以説 2025 年是視頻建模真正主導公眾對 AI 技術興趣的第一年。隨着 Sora 2 的普及,這一點變得越來越清晰。得益於 OpenAI 的一系列移動應用程序,獲取視頻生成工具的可能性與普及度達到了前所未有的高度。但閉源模型並非本文的重點,而這些模型的開源競爭實際上正變得比以往任何時候都更加令人印象深刻。 今年早些時候,HunyuanVideo 和 Wan2.1 以

llm , 教程 , 人工智能 , 開源

收藏 評論

商湯萬象開發者 - UniParse:讓多模態模型真正“讀懂”文檔的解析引擎

在多模態大模型迅速發展的今天,我們已經能讓模型"看圖説話",甚至"讀懂表格",但要讓模型真正理解複雜的文檔結構(例如在PDF中準確識別章節、表格、公式與圖像的邏輯關係)依然是一個未被徹底解決的問題。 UniParse正是為此而生:它是一款面向AI應用的通用文檔解析工具 ,旨在將文檔中的非結構化內容轉化為結構化語義信息,使多模態模型能夠高效、精準地理解和利用文檔內容。 本文將從技術視角介紹U

llm , 文檔分析 , 教程 , 內容管理 , 人工智能

收藏 評論

OpenBayes - OpenBayes 一週速覽丨MiniCPM-V4.0圖像理解能力突破;MathCaptcha10K助力訓練驗證碼識別模型

公共資源速遞 5 個公共數據集: HelpSteer3 人類偏好數據集 A-WetDri 惡劣天氣駕駛數據集 NonverbalTTS 非語言音頻生成數據集 STRIDE-QA-Mini 自動駕駛問答數據集 MathCaptcha10k 算數驗證碼圖像數據集 5 個公共教程: dots.ocr:多語言文檔解析模型 MiniCPM-V4.0:極致高效的端側大模型 llama.c

llm , 數學 , 自然語言處理 , 解碼 , 視頻處理

收藏 評論

deephub - LMCache:基於KV緩存複用的LLM推理優化方案

LLM推理服務中,(Time-To-First-Token) 一直是個核心指標。用户發起請求到看見第一個token輸出,這段時間越短體驗越好,但實際部署中往往存在各種問題。 LMCache針對TTFT提出了一套KV緩存持久化與複用的方案。項目開源,目前已經和vLLM深度集成。 原理 大模型推理有個特點:每次處理輸入文本都要重新計算KV緩存。KV緩存可以理解為模型"閲讀"文本時產生的中間狀態

llm , 人工智能 , 深度學習 , kv存儲

收藏 評論

Joas Pambou - Using Multimodal AI Models For Your Applications (Part 3)

In this third and final part of a three-part series, we’re taking a more streamlined approach to an application that supports vision-language (VLM) and text-to-speech (TTS). This time, we’ll use dif

llm , Techniques , Tools , AI

收藏 評論

商湯萬象開發者 - LazyLLM教程 | 第15講:大視角問答:RAG如何支持跨文檔、跨維度總結

本章我們將為大家介紹如何利用RAG解決統計問題。 首先介紹傳統RAG在處理統計問題中的缺陷:無法直接處理結構化數據以及缺乏動態計算能力,然後我們介紹了RAG解決統計問題的基本思路,以及通過SQL Call和Function Call機制。 接下來分別介紹二者,首先介紹SQL的相關概念以及如何構建SQL數據庫,然後介紹Text2SQL技術和sql_tool工具的具體實現。 最後介紹Fun

llm , 教程 , 知識 , 人工智能 , SQL

收藏 評論

KAI智習 - "靈光"上線兩週創建330萬個"閃應用", 阿里開源圖像處理新王,亞馬遜Trainium3芯片登場,AI也會"壓力崩潰"

🌟 30 秒生成 AI 應用?"靈光"引爆全民創作熱潮 螞蟻集團通用 AI 助手"靈光"上線兩週,用户已創建 330 萬個"閃應用"! 無需編程基礎,僅用自然語言對話即可打造個性化工具——"靈光"以"30 秒生應用"功能掀起全民 AI 創作風暴。數據顯示,6 天下載量突破 200 萬,遠超 ChatGPT 首周表現。 這 330 萬個閃應用並非空洞玩具,而是深深嵌入日常生活的真實場景。根據

llm , 資訊 , 人工智能

收藏 評論

慧星雲 - 解鎖視頻生成新高度:騰訊混元視頻生成大模型對外開源

混元視頻生成大模型 在當今人工智能技術飛速發展的時代背景下,視頻生成領域正不斷迎來新的變革與突破。2024年12月3日,騰訊這一科技行業的領軍者做出了一項引人矚目的舉措——宣佈旗下的混元視頻生成大模型(HunYuan-Video)對外開源,此舉無疑在業界掀起了軒然大波。 HunYuan-Video HunYuan-Video 騰訊混元視頻生成模型HunYuan-Video(HY-V

llm , 騰訊 , 雲計算 , aigc , 人工智能

收藏 評論

hhyuuu - 自建知識庫+調用大模型api+接入微信體驗製作簡易微信機器人(智能客服)

1、前言 1.1、整體配置 本地windows個人計算機:用來跑向量模型和搭建運行docker容器 星火的spark max模型api接口(有高額免費的tokens使用) 1.2、介紹 不會在詳細講述docker-compose配置、ollama等使用,上一篇文章有具體説明。 基於github上的chatgpt-on-wechat項目實現。 本次演示最後結果只是能跑通,看到效果,

llm , oneapi , wechatapi , docker-compose , embedding

收藏 評論

fangpin - 從 0 搭建 LLM 不再難!這個 PyTorch 項目幫你吃透大模型底層邏輯

如果你曾想深入理解大語言模型(LLM)的 “五臟六腑”,卻被框架封裝的黑盒接口、複雜的源碼結構勸退;如果你希望親手實現 Transformer 的每一個組件,而非單純調用transformers庫 —— 那麼今天推薦的這個開源項目,絕對能成為你的 LLM 學習 “腳手架”。 它就是 GitHub 上的 llm-from-scratch(項目地址),一個基於 PyTorch、專為教育設

AIGC二三事 , llm , BPE , 人工智能 , transformer , 深度學習 , 大模型

收藏 評論

愛可生開源社區 - SCALE | SQLFlash 在 SQL 優化維度上的表現評估

SQLFlash 在 SQL 優化維度上的表現評估 一、摘要 本次 SCALE 評測針對專業級 AI 應用 SQLFlash 進行。測評數據集難度升級,旨在反映模型或專業應用在處理 接近生產級 問題 SQL 調優時的穩健性。 核心結論:面對全新挑戰,SQLFlash 的各項指標雖有波動,但仍展現出其作為專項調優工具的專業能力。特別是 語法及最佳實踐遵循 仍保持高分(87.6),確保了輸出 SQL

llm , 數據庫 , SQL

收藏 評論

FlowyAIPC - 速來體驗 | FlowyAIPC v4.0.1 正式發佈

更強筆記 · 更易截圖 · 更多智能體 · 更順會議記錄 【2025年12月8日】 FlowyAIPC v4.0.1 版本已經正式上線,本次更新圍繞“效率提升”與“智能體驗”進行全面優化,為你帶來更順滑的創作體驗與更高效的工作流。 01|筆記功能再進化:支持 PDF / Docx 導出 + 表格插入 本次升級,讓筆記功能正式邁向專業內容創作工具。 ✨ 支持 一鍵導出PDF、Docx 格式文件

機器學習 , llm , 知識 , 人工智能 , 程序員

收藏 評論

FlowyAIPC - FlowyAIPC 發佈全新 4.0:開啓端側 AI 的主動生產力時代

【2025年11月28日】 —— 端側 AI 生產力工具FlowyAIPC正式發佈全新4.0版本。本次更新圍繞 “主動生產力”“端側智能”“本地化大模型加速” 三個方向進行了深度演進,進一步推動 AI 從工具型能力向真正的智能操作系統層能力邁進。 FlowyAIPC 4.0 聚焦於讓一台普通電腦成為可主動協助用户處理任務的個人 AIPC(AI Personal Computer) ,支持本地大模

機器學習 , llm , 自然語言處理 , 人工智能 , llama

收藏 評論

deephub - 向量搜索升級指南:FAISS 到 Qdrant 遷移方案與代碼實現

FAISS 在實驗階段確實好用,速度快、上手容易,notebook 裏跑起來很順手。但把它搬到生產環境還是有很多問題: 首先是元數據的問題,FAISS 索引只認向量,如果想按日期或其他條件篩選還需要自己另外搞一套查找系統。 其次它本質上是個庫而不是服務,讓如果想對外提供接口還得自己用 Flask 或 FastAPI 包一層。 最後最麻煩的是持久化,pod 一旦掛掉索引就沒了,除非提前手動存盤。 Q

llm , 向量 , 人工智能 , 檢索系統

收藏 評論

hhyuuu - docker雲部署自建知識庫的ai微信機器人(易上手很詳細)

1、前言 1.1、介紹 本次演示採用的是2核2g Ubunto系統,無內置鏡像的華為雲服務器 推薦使用騰訊雲輕量雲服務器docker鏡像,可以省去前面第二節步驟,如果還是境外服務器更方便了 1.2、注意事項 需要有linux基礎,有用過docker的經驗,當然沒用過跟着做就行 本文檔每一步都有演示,請認真看完文字描述 2、搭建docker環境 2.1、docker和docker-com

llm , oneapi , docker-compose , chatgpt , Docker

收藏 評論

Lab4AI - NeurIPS 2025|清華北大團隊開源VCA模塊,即插即用,讓視覺AI“抓重點”既快又準

論文標題:Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials 作者團隊:清華大學、北京大學 發佈時間:2025年11月4日 👉一鍵直達論文 [👉Lab4AI大模型實驗室論文閲讀]( https://www.lab4ai.cn/paper/detail/

機器學習 , llm , 算法 , 人工智能 , 深度學習

收藏 評論

Baihai_IDP - 為什麼語言模型偏愛使用破折號?反駁多種主流解釋,並提出猜想

編者按: 難道語言模型對破折號的偏愛,真的只是因為它們“喜歡”嗎? 我們今天為大家帶來的文章,作者的核心觀點是:當前主流大語言模型對破折號的偏愛,很可能源於其訓練數據中大量引入了 19 世紀末至 20 世紀初的紙質書籍 —— 這些文本本身就比當代英語更頻繁地使用破折號。 文章系統梳理並逐一反駁了多種主流解釋,然後通過分析標點使用的歷史趨勢、尼日利亞英語語料庫統計數據,以及 GPT-3.5

generative-ai , 觀點 , llm , 知識 , 人工智能

收藏 評論

雲端小夢 - 自學大語言模型的應用程序框架Langchain(初入門)

隨着大型語言模型技術的飛速發展,如何高效地構建基於這些強大模型的複雜、可交互的應用,成為了開發者的核心挑戰。LangChain應運而生,它不僅僅是一個簡單的 API 封裝,而是一個功能強大的開源框架,旨在簡化和加速 LLM 驅動的應用程序的開發。 思維導圖 一、LangChain 簡介 Lang

llm , API , 語言模型 , 後端開發 , langchain , 人工智能 , Python

收藏 評論

阿里雲大數據AI - 【新模型速遞】PAI-Model Gallery雲上一鍵部署MiniMax-M1模型

MiniMax-M1 模型是由 MiniMax 公司6月17日全新推出的大語言模型,使用hybrid Mixture-of-Experts (MoE) 架構,並使用了 lightning attention 機制。 MiniMax 公司稱其為世界上第一個開源的大規模混合架構的推理模型。 MiniMax-M1 模型原生支持 1 百萬個 token 的上下文長度, 並且 lightning atten

llm , 大數據處理 , 雲計算 , 人工智能 , 模型

收藏 評論

deephub - Pydantic-DeepAgents:基於 Pydantic-AI 的輕量級生產級 Agent 框架

DeepAgents的靈感源自 LangChain deepagents,但在設計上更做減法,它強調類型安全且內置了 Docker 沙箱 2025 年的Autonomous AI Agents早就不是實驗室裏的花架子了。在現實世界的自動化流程、代碼生成工具、數據管道以及各類智能助手中都能看到它們的身影。 現在的很多主流 Agent 框架越來越重。為了用上 Agent,你往往得引入一堆沉重的

llm , agent , 人工智能 , 深度學習

收藏 評論

GPUStack - GPUStack Windows(WSL2)部署指南

GPUStack v2 以高性能推理與生產級穩定性為核心演進方向,對整體架構進行了全面重構,實現了組件間的靈活解耦,並對多推理引擎和異構算力進行了深度優化,充分釋放推理引擎在吞吐、延遲與併發方面的性能潛力。 基於這一架構設計,GPUStack v2 聚焦 Linux 原生環境,以充分利用其在生態和 AI 基礎設施領域的成熟優勢。 對於 Windows 用户,推薦通過 WSL2(Windows Su

generative-ai , llm , 人工智能 , Docker

收藏 評論