博客 / 列表

百度Geek説 - 百度百舸萬卡集羣的訓練穩定性系統設計和實踐

01 AI 訓練穩定性的演進歷程 2012 年 ImageNet 競賽中 AlexNet 的橫空出世,開啓了現代 AI 發展的新紀元。彼時我們不會想到,十年後支撐 AI 訓練的 GPU 集羣會從研究室裏的幾台服務器,發展成需要專門供電系統的萬卡級計算矩陣。在這個算力爆發式增長的過程中,訓練系統的穩定性管理正經歷着從「簡單運維」到「精密工程」的深刻變革。 1.1 標早期的小模型時代:手動運維的黃金年

集羣 , 大模型

百度Geek説 - 基於Flink的配置化實時反作弊系統

導讀 本文詳細闡述了基於Flink構建的實時反作弊流式過濾系統,針對大流量場景下的複雜特徵計算、高頻策略熱更新、模擬過濾驗證及多場景數倉對接等核心挑戰,提出來多項解決方案,實現了秒級特徵計算的實時過濾功能,有效支撐高併發場景下的精準風控判定,並通過ClickHouse與圖靈雙鏈路數據輸出,滿足實時監控與離線分析的多樣化需求,為互聯網業務提供了高吞吐、低延遲、強穩定的實時反作弊解決方案。 01 簡介

大數據 , 配置 , flink

百度Geek説 - 圖引擎在智能體開發場景的應用實踐

導讀 隨着AGI理論的不斷突破,智能體已經成為LLM在企業落地的最重要的形式之一。一個完備的智能體必須能實現:感知、推理、計劃、執行等一套完整的功能,從工程的角度來看workflow特別適合這種複雜任務的分析、拆解、重組、執行, 再結合CoT技術, 實現LLM和業務功能完美契合的智能體應用。本文嘗試用成熟的圖引擎技術驅動workflow探索更多樣性的拓展agent能力的方法,以更好應對各類業務場景

workflow , agent , 人工智能 , 百度

百度Geek説 - 直播間互動框架性能優化與穩定性實踐

導讀 直播間互動體驗框架技術實踐,揭秘性能與穩定性優化之道,快來探索吧!在百度直播間歌會紅包等活動中,我們創新性地將紅包互動與高質內容深度融合,通過技術架構升級與系統性優化,打造了"音樂+紅包"(邊聽歌邊搶紅包)的沉浸式體驗。本次實踐顯著提升了直播間的併發承載能力、實時互動響應速度和用户參與滿意度,同時沉澱出可複用的技術方案,為後續大型直播活動奠定堅實基礎。 01百度直播間歌會紅包運營活動介紹 為

性能優化 , 直播 , 百度

百度Geek説 - 百度網盤防雪崩架構實踐

導讀 大模型在研發效能領域代碼生成方面發揮了越來越大的作用 而大模型的預訓練依賴大量的精標代碼,這些精標數據必須是比較好的工程實踐代碼 這些比較好的工程實踐代碼,需要大量的技術沉澱,包括工程架構,代碼架構等多緯度,涉及性能、可用性、擴展性、安全等方向 百度網盤有不少比較好的工程實踐,本文主要是介紹百度網盤工程架構中的防雪崩架構 拋磚引玉,與大家一起探討什麼才是優秀的工程實踐,為大模型的落地提供堅實

架構 , 百度

百度Geek説 - 如何在百度百舸部署滿血版DeepSeek-V3、DeepSeek-R1模型

百度百舸·AI異構計算平台已支持快速部署DeepSeek-V3、DeepSeek-R1及其蒸餾的Llama、Qwen等小規模dense模型。您可以登錄百度百舸平台快速部署DeepSeek系列模型體驗模型效果。 01 開通輕量計算實例 開通一台H20(ebc.lgn7t.c208m2048.8h20.4d)規格的計算實例並添加到百度百舸·AI異構計算平台。 02 部署vLLM 在百度百舸平台的左側

百度

百度Geek説 - 首日調用客户破1.5萬!DeepSeek-V3/R1上線背後的超低推理成本技術揭秘

2月3日,百度智能雲千帆大模型平台正式上線了DeepSeek-R1與DeepSeek-V3模型,模型上線首日,已有超1.5萬家客户通過千帆平台進行模型調用。百度智能雲針對此次模型上線提供了行業領先的超低推理價格,低至DeepSeek官方刊例價3-5折,當前還可享受限時免費服務。這一突破性進展的背後,是百度智能雲在推理引擎性能優化技術、推理服務工程架構創新以及推理服務全鏈路安全保障上的深度融合。本文

算法 , 百度

百度Geek説 - 喚醒 AI 算力,專有云 ABC Stack 面向企業級智算平台的 GPU 提效實踐

從「建好」到「用好」,企業級智算平台藉助專有云 ABC Stack 的 GPU 提效服務,應對大模型業務挑戰,喚醒 AI 算力,加速 AI 原生業務的落地。 01 難以一步到位的GPU效能 當企業的私有化智算平台項目上線一段時間後,用户普遍會反饋 GPU 效能相關的問題: 將全部資源分配給各個業務部門後,集羣全部 GPU 資源的平均利用率在 30% 左右。這個指標處於什麼水平,是否充分發揮 G

百度

百度Geek説 - 百度APP iOS端磁盤優化實踐(上)

01 概覽 在APP的開發中,磁盤管理已成為不可忽視的部分。隨着功能的複雜化和數據量的快速增長,如何高效管理磁盤空間直接關係到用户體驗和APP性能。本文將結合磁盤管理的實踐經驗,詳細介紹iOS沙盒環境下的文件存儲規範,探討業務緩存、用户資產及系統緩存的清理策略。同時,分享自動清理與手動清理相結合的機制,展示如何在不同觸發條件下合理執行磁盤清理。文章使用文心一言輔助編寫。 02 磁盤系統介紹 2.1

百度

百度Geek説 - 網頁結構建模在低質採集站上的識別應用

導讀 百度搜索是全球最大的中文搜索引擎,擁有着幾十億級的流量,作弊團伙通過各種各樣的手段妄想從巨大的流量中不勞而獲。搜索反作弊團隊維護百度搜索生態安全和質量,經過不斷探索並利用前沿技術過濾低質作弊網頁,保護真正付出勞動的站長的利益。本文介紹了基於MarkupLM的網頁建模方式,引入XPath embedding自動化提取作弊頁面結構特徵,並與文本結合來進行採集站點識別。 01 背景 1.1業務背景

百度 , 大模型

百度Geek説 - 海量存儲的批量計算框架

導讀 本文介紹了百度針對海量存儲數據計算需求研發的HTAP表格存儲系統及計算調度架構。項目背景源於原有存儲系統難以滿足日益增長的OLAP業務需求,因此構建了集OLTP與OLAP於一體的HTAP系統,通過存算分離、Serverless設計等創新點提升IO訪問能力和資源利用率。同時,自研的計算與調度系統實現了任務開發的SQL化和數據處理的FaaS化,簡化了業務使用成本,提高了開發效率。整體方案在存儲成

海量數據 , 百度

百度Geek説 - 百度垂搜一站式研發平台演進實踐

導讀 百度垂搜架構歷經多年發展,內部沉澱了多個開發者平台\工具,涉及覆蓋了搜索系統的多個階段模塊,如何高效地串聯繫統全流程,為業務提效提質,可靠的工程化基建和更上層的抽象設計是關鍵。本文闡述了百度垂搜一站式研發平台(經天)的思考和探索過程,以及如何通過FaaS機制和SaaS服務產品化來為業務提效提質。 01背景 百度垂搜架構團隊為數十個業務線的上百個搜索場景提供全鏈路的技術支持,經過多年的發展,內

saas , 搜索 , 架構 , 百度

百度Geek説 - 初探圖譜Embedding用於異常檢測(一)

導讀 本文探討了圖譜Embedding在業務安全與反作弊等關鍵業務場景中的應用,特別是在異常檢測方面。傳統的統計方法在面對複雜多變的攻擊場景時顯得力不從心,因此本文介紹了一種基於One-Hot編碼的圖譜Embedding算法GEE,通過標籤傳播實現結點特徵的表達。作者還通過兩篇論文的代碼驗證,發現稀疏矩陣改進版算法在測試數據集上性能不佳,並進一步優化了算法,使其在計算效率上有所提升。本文對於利用圖

embedding , 百度 , 安全 , 檢測

百度Geek説 - AIAPI - 轉向AI原生檢索

導讀 大型語言模型(LLMs)展示了非常強大能力,但在實際應用中仍舊有一些問題需要解決,比如幻覺現象、在垂類細分場景下的知識更新較慢,以及在回答中缺乏透明度(模型黑盒問題)等。檢索增強生成(RAG)是在使用LLM回答問題之前,從外部信息系統中檢索最新,最相關的信息,再借助LLM的生成能力,生成準確的結果。在多方論文和文獻中,RAG已被證明其有效性。 百度作為全球最大的中文搜索引擎,收錄了超過千億的

系統架構 , 檢索系統 , 數據結構化

百度Geek説 - AI Agent重塑微服務治理

導讀 隨着技術架構的發展,微服務系統的複雜性不斷增加,對運維提出了更高的要求。為了應對這一挑戰,一種AI驅動的微服務治理方案被提出。該方案採用多智能體架構,將運維專家經驗整合,並通過自然語言交互和智能推理,簡化了灰度發佈和配置限流熔斷等操作。利用大型語言模型(LLM)的推理能力,方案能夠進行深入的故障診斷和處理,實現運維經驗的自動化。每個智能體都能承擔特定角色,高效完成複雜任務,並通過持續的數據訓

服務治理 , 運維 , 人工智能 , 重構

百度Geek説 - 百度智能雲千帆大模型平台引領企業創新增長

首先,跟大家分享一張圖,這個是我們目前大模型應用落地的場景分佈。可以看到,大模型廣泛滲透到各行各業,場景越來越豐富。 24 年 9 月份,我們發佈了百度智能雲千帆大模型平台 3.0。包括:模型開發層、模型服務層、應用開發層。提供了最專業的應用開發工具、最豐富的大模型、最全面的工具鏈。 在企業大模型落地的過程中,要解決很多的問題。最常見的有如何選擇模型、如何構建 AI 原生應用、如何優化模型使用

百度 , 大模型

百度Geek説 - 輕鬆搞定平穩運行,數據庫平台 DBStack 幫助 DBA 運維不同基礎設施上的各類數據庫

為了滿足不同類型業務的需求,企業的 IT 系統中往往會同時部署多種類型的數據,並運行着數量龐大的數據庫實例。 同時,由於業務出海或者高可用的需要,這些數據庫將被同時部署於不同品牌的雲廠商,和不同類型的基礎設施。 如何能夠在多種類型基礎設施之上,仍然可以有效的管理不同品牌、類型各異、數量眾多的數據庫實例,保證他們能夠穩定運行,對於 DBA 將是一件非常具有挑戰的事情。 01 百度智能雲數據庫平台 D

dba , 數據庫 , 百度

百度Geek説 - 維度爆炸背景下uv計算在Feed業務的高效實踐

導讀 本文介紹了優化大數據計算中多維度用户數統計的方法,通過數據打標的方式避免數據膨脹,提高性能並減少計算成本。首先分析了大數據計算中遇到的多維度數據統計問題,然後提出了利用數據打標進行處理的解決方案,詳細闡述了優化方案的實施步驟和效果。通過對比實驗結果,驗證了優化方案在提升性能和降低成本方面的顯著效果。最後,總結了優化方案的優勢和適用場景。 01 背景 Feed是百度App的一個重要業務組成部分

大數據處理 , 數據 , uv

百度Geek説 - 用增結算數倉化改造:在/離線調度系統的構建與應用

導讀 移動運營推廣平台(OPS)承載着百度內部移動應用/移動搜索業務的用户增長預算的全流程結算線上化管控功能,為了解決用增業務發展規模擴大、原有技術架構老舊、無離線數倉系統等一系列的問題,針對全域結算數據啓動了整體的架構改造。為了解決業務中存在的問題,本文深入探討並提出了一類在線、離線結合的任務調度解決方案,完成了結算業務架構更新換代,更好地服務於業務發展。 01 背景簡述 1.1業務/技術背景

大數據 , 架構 , 百度 , 重構

百度Geek説 - 百度視覺搜索架構演進實踐

本文深入探討百度視覺搜索在快速發展的業務及技術背景下,如何通過持續的技術創新和架構升級強化自身的競爭力和適應性,支撐業務健康高效迭代。本文介紹了我們如何通過技術棧升級、架構能力提升以及穩定性建設,來實現全鏈路架構的演進。藉助Golang、百度自研GDP開發框架和ExGraph圖化引擎,我們對視覺搜索展現架構進行了全面重構,並重新定義了視覺搜索全系統通路上的模塊職責和分層邏輯,開展了一系列系統收斂內

架構 , 百度 , 重構

百度Geek説 - 百度搜索結果波動的極致治理

作者 | ZZ 導讀 本文講述百度搜索系統面臨搜索結果一致性的挑戰,如何準確衡量並消除不一致因素成為關鍵問題。本文介紹了百度搜索系統針對結果波動問題的創新解決方案,通過設計數據打平技術,將問題量化至服務與特徵層面,並利用fake流量與動態debug機制進行大量實驗與數據收集。同時,採用多實驗統籌與自動巡檢機制提高實驗效率與分析自動化,最終成功捕獲所有對結果波動有實質貢獻的特徵,為系統優化提供了精確

服務治理 , 分佈式系統 , 一致性

百度Geek説 - 多元 CPU 性能調優的技術挑戰、產品設計和業務實踐

本文整理自 2024 年 4 月 QCon 全球軟件開發大會(北京站) 性能優化專題的同名主題分享。 當前數據中心的服務器中部署着各類 CPU(Intel/AMD/Ampere 等),這些平台的差異,使得運行在上面的程序無法保證始終運行在最佳狀態,成為了提升業務效能的一大阻礙。 CPU 性能調優,這不僅要求工程師對各個平台有着深入的理解,同時需要掌握各類性能分析工具和方法,並依據得到的觀測數據,綜

百度 , cpu

百度Geek説 - 登錄系統演進、便捷登錄設計與實現

作者 | 百度APP技術中台吧 導讀 隨着互聯網、物聯網和移動終端等技術的迅猛發展,登錄認證面臨着新的挑戰和需求。雖然登錄認證在信息系統中是傳統且古老的組成部分,但未來的發展前景依然廣闊。不論是用户登錄、PC端、移動端還是智能設備的訪問,身份認證在保障業務操作安全、資金安全、系統間通信和與外部系統集成等多個方面起到至關重要的作用。隨着認證方式的不斷演進,從最初的cookie和session,

登錄 , 授權 , 中台概念

百度Geek説 - 移動端防截屏錄屏技術在百度賬户系統實踐

作者 | Seven 導讀 在移動端應用的開發過程中,保護用户隱私和應用內敏感信息安全是一個不可忽視的課題。隨着詐騙手段的升級,“共享屏幕”被詐騙分子頻頻使用,因為密碼被泄露而導致受害者財物受損的事情層出不窮。只要開啓了“共享屏幕”--本質上是一種錄屏,密碼、驗證碼等重要信息就會有被泄露的可能。防止截屏和錄屏成為了一個重要的安全措施,特別是對於金融、醫療、企業和高安全要求的應用。本文將介紹一

信息安全 , Android , ios