收藏 / 列表

fangpin - 從0到1:揭秘LLM預訓練前的海量數據清洗全流程

讀完這篇文章,你將用監督微調(SFT)把一個 1.5B 規模的數學模型在 GSM8K 上的零樣本推理正確率從 1.56% → 62.9%,同時把輸出格式遵循率從 18.9% → 100%。我們將完整走通數據集下載、Prompt 架構、訓練配置和評估方法,所有代碼均來自本倉庫 alignment 文件夾,保證可復現與透明。 本文將深入剖析 llm-from-scratch

lua , 人工智能 , 深度學習 , Json , Python

IvorySQL - 災難恢復工具內核細節探究與分享

本文整理自 IvorySQL 2025 生態大會暨 PostgreSQL 高峯論壇的演講分享,演講嘉賓:張晨,公眾號《ZhangChen-PDU》主理人。 前言 在數據庫運維中,災難恢復始終是保障業務連續性和系統可靠性的核心環節。隨着數據庫規模和複雜性的增加,傳統工具在極端場景下的侷限性愈發明顯,因此需要更專業、高效的解決方案來應對數據損壞或不可啓動的情況。 PDU 的快速介紹 在數據庫運維場景中

數據庫 , postgresql , 開源

HuiZhu - 每週8小時耗在會議上,但73%的會議紀要根本沒人看

數據顯示,職場人平均每週花費8小時在各類會議上,但調研發現:73%的會議紀要在發出後根本沒人仔細讀,92%的行動項沒有被有效追蹤。 更尷尬的是,38%的職場人承認自己"從不寫會議紀要",原因不是懶,而是不知道該怎麼記錄才有用。 這就是會議紀要的真實現狀:會開了,時間花了,但價值沒沉澱下來。 會議紀要為什麼淪為"形式主義"? 真正的問題不是寫不寫,而是寫了沒人用。我見過太多這樣的紀要: 會議紀要 -

generative-ai , 教程 , chatgpt , 人工智能 , prompt

PoloAPI - 谷歌 AI 革命狂飆!Gemini 2.5 搜索引擎即將橫掃搜索市場,顛覆你的認知

隨着 5 月 20 日至 21 日谷歌 I/O 開發者大會的腳步臨近,一則重磅消息在科技業界引發強烈震動 —— 谷歌正緊鑼密鼓地籌備推出基於 Gemini 2.5 的下一代 AI 搜索引擎,這場變革將徹底顛覆沿用多年的傳統搜索框界面。目前,這一全新搜索模式已悄然進入灰度測試階段,標誌着谷歌決心將其最重要的流量入口全面切換至 AI 驅動的 Gemini 生態系統,此舉無疑將給 OpenAI、Perp

gemini-2.5-pro , google , 人工智能 , 後端 , 前端

一點人工一點智能 - 《計算機算術實踐:習題與編程》

書籍:Computer Arithmetic in Practice: Exercises and Programming 作者:Sławomir Gryś 出版:CRC Press​ 編輯:陳萍萍的公主@一點人工一點智能 下載:書籍下載-《計算機算術實踐:習題與編程》 01 書籍介紹 這是一本面向本科及研究生階段、簡明易懂的入門讀物,專為在大學課程中希望理解計算機

編程 , 算術 , 人工智能 , 計算機

Aloudata大應科技 - Aloudata Agent 重磅功能發佈:“用户編排思路、AI 精準執行、可沉澱複用”的模塊化分析報告

自今年年初產品雛形推出以來, Aloudata Agent 保持着快速迭代,功能演進路徑清晰而堅定: 三階能力躍遷:8 月,Aloudata Agent 公開體驗版正式上線,形成了「AI 問數+智能歸因+深度報告」端到端智能分析閉環,結合“場景助手”構建了一個真正面向業務、服務於決策的分析智能體。 洞察深化:9 月,Aloudata Agent 實現了基於指標語義層的智能歸因分析能力升級,歸

chat , agent , 數據可視化 , 數據分析

全棧技術開發者 - 怎樣通俗地理解線性相關與線性無關?判斷線性相關性的常用方法有哪些?為什麼線性無關向量是向量空間基構建的核心?

在現代科學與工程的研究中,向量空間理論是分析和建模的基礎工具。從量子力學中的態矢量到信號處理中的特徵提取,再到機器學習中的高維數據表示,向量的結構關係直接決定了系統的複雜性和可分析性。理解向量之間的線性相關性和線性獨立性,不僅是掌握線性代數的關鍵,更是把握信息獨立性和系統完整性的前提。 表面上,線性相關與線性無關似乎只是簡單的數學定義:一組向量能否通過其他向量的線性組合表示

機器學習 , yyds乾貨盤點 , 數據 , 向量空間 , 人工智能 , 數據分析 , 線性代數