博客 / 列表

百度Geek説 - 百度慧播星數字人技術演進

導讀 從2023年成立到如今日均服務2萬+直播間,百度慧播星已演進為覆蓋腳本生成、實時問答、智能決策、音視頻克隆的全鏈路AI直播平台。本文深入解讀其技術架構:如何通過檢索增強和強化學習生成高轉化腳本;如何利用強化學習智能中控動態優化直播策略;以及如何將語音與形象克隆效率提升至“小時級”;如何構建“先驗-後驗”數據飛輪,讓模型自主進化;。羅永浩數字人直播GMV突破5500萬的案例,驗證了其“超越真人

電商 , 人工智能 , 直播

百度Geek説 - 項目級效能提升一站式交付最佳實踐

導讀 面對研發交付中Feature級項目複雜度攀升、信息分散及跨端協作低效等痛點,傳統的Story級管理模式已顯乏力。本文詳細闡述了一套“項目級效能提升一站式交付最佳實踐”,通過構建三大核心體系重塑研發流程:一是通過AI側邊欄與風險管控打造“AI項目管理”,實現信息聚合與決策提效;二是推動“一站式Feature交付”,利用AI自動生成測試方案與搭建環境,實現端到端閉環;三是建立涵蓋“重點戰役-Fe

測試

百度Geek説 - 百度大數據成本治理實踐

導讀 本文概述了在業務高速發展和降本增效的背景下百度MEG(移動生態事業羣組)大數據成本治理實踐方案,主要包含當前業務面臨的主要問題、計算數據成本治理優化方案、存儲數據成本治理優化方案、數據成本治理成果以及未來治理方向的一個思路探討,為業界提供可參考的治理經驗。 01 背景 隨着百度各業務及產品的快速發展,海量的離線數據成本在持續地增長。在此背景下,通過大數據治理技術來幫助業務降本增效,實現業務的

spark , hadoop

百度Geek説 - 從打點平台談打點治理

作者 |ttt 導讀 本文介紹了打點治理的概念和其對於數據質量保障的重要性,分享了日誌中台在打點治理方面的解決方案與實踐經驗。文章從用户痛點和打點治理的難點出發,介紹了日誌中台如何通過質量標準的制定、在線化流程的建設和相應的配套工具來解決這些問題。 全文4808字,預計閲讀時間6分鐘。 打點是指在網站或者APP中加入一些統計代碼,通過日誌記錄用户在APP內觸發的一系列行為,包括點擊、滑動

數據 , 日誌

百度Geek説 - 百度日誌中台前端重構實踐

日誌中台是百度內部針對打點數據的全生命週期管理平台,作為公司日誌數據的唯一入口,承擔以下核心職能:1.功能覆蓋:提供從數據採集、傳輸、存儲到查詢分析的一站式服務,支持產品運營分析、研發性能監控、運維管理等多元場景。2.業務賦能:通過標準化流程實現用户行為日誌的埋點申請、審批及退場管理,助力APP端、服務端等業務線挖掘數據價值。3.生態協同:與大數據平台、推薦中台、性能平台深度聯動,避免重複建設,提

日誌 , 前端

百度Geek説 - 解鎖!智能代碼助手 Baidu Comate 硬核能力

近日,在全球軟件開發大會上暨智能軟件開發生態展上,來自 Baidu Comate 的資深研發工程師分享了精彩的專題演講,小編整理了演講精華,和大家一起玩轉“大模型+軟件研發”。 今天帶來——吳瑋琦《智能代碼助手 Baidu Comate 的核心能力揭秘》,一起解鎖 Baidu Comate 硬核能力。 AI 如何助推軟件生產領域代際變革 在過去的幾十年裏,軟件發展經歷了幾個重要時代。借鑑行業和學

編碼 , 人工智能

百度Geek説 - 百度視頻搜索架構演進

導讀 隨着信息技術的迅猛發展,搜索引擎作為人們獲取信息的主要途徑,其背後的技術架構也在不斷演進。本文詳細闡述了近年來視頻搜索排序框架的重大變革,特別是在大模型技術需求驅動下,如何從傳統的多階段級聯框架逐步演變為更加高效、靈活的端到端排序框架。 01 背景 過去近十年,搜索引擎的主流框架為多階段級聯框架,分為召回,粗排,精排幾個階段。在每個階段中,系統會基於相關性、質量、時效性和點擊率等維度獨立建模

視頻 , 架構 , 百度

百度Geek説 - 千萬級高性能長連接Go服務架構實踐

作者 | glstr 導讀 移動互聯網時代,長連接服務成為了提升應用實時性和互動性的基礎服務。本文主要介紹了百度系內基於golang實現的統一長連接服務。主要從統一長連接功能實現和性能優化等角度,描述了統一長連接服務在設計、開發和維護過程中面臨的問題和挑戰,重點介紹瞭解決相關問題和挑戰的解決方案和實踐經驗。 全文7631字,預計閲讀時間20分鐘。 01 摘要 移動互聯網時代,用户對服務的

長連接 , 高併發 , 架構 , go

百度Geek説 - 大規模微服務系統中的雪崩故障防治

導讀 在大規模微服務架構中,雪崩故障是極具破壞力卻又難以預防的系統性威脅。本文基於百度搜索架構與運維團隊的實戰經驗,深入解析雪崩從“非穩態”到“自強化崩潰”的微觀演化機制,揭示重試風暴、容量退化等正反饋迴路的形成過程。文章提出系統化的治理思路,並詳細介紹百度落地的多項核心實踐,包括重試預算、隊列限流、全局TTL控制等自愈機制,以及秒級流量調度與降級預案。通過真實案例與生產數據,為行業提供了一套可借

微服務

百度Geek説 - BaikalDB 架構演進實錄:打造融合向量化與 MPP 的 HTAP 查詢引擎

導讀 BaikalDB作為服務百度商業產品的分佈式存儲系統,支撐了整個廣告庫海量物料的存儲和OLTP事務處理。隨着數據不斷增長,離線計算時效性和資源需求壓力突顯,基於同一份數據進行OLAP處理也更為經濟便捷,BaikalDB如何在OLTP系統內實現適合大數據分析場景的查詢引擎以應對挑戰? 01 BaikalDB應對OLAP場景的挑戰 BaikalDB是面向百度商業產品系統的需求而設計的分佈式存儲系

數據 , 架構 , 分佈式

百度Geek説 - BaikalDB MCP Server :鏈接數據庫和AI的直通橋

導讀 BaikalDB作為服務百度商業產品的分佈式存儲系統,支撐了整個廣告庫海量物料的存儲。在大語言模型LLM蓬勃發展的現在,想在大模型裏使用BaikalDB裏的數據進行分析,都需要複雜的定製開發。看BaikalDB如何藉助模型上下文協議(MCP),讓數據庫對話像聊天一樣簡單——無需編寫代碼,大語言模型即可完成複雜數據分析。 01 引言 在2025年以前,大語言模型(Large Language

llm , 人工智能 , 分佈式

百度Geek説 - 百度APP日誌處理框架升級之路

導讀 面對百度APP日均數千億PV、超百PB數據規模帶來的巨大挑戰,我們完成了數據倉庫的系統性升級。本文詳細闡述了通過"兩步走"策略解決資源壓力、處理延遲和架構瓶頸的全過程:第一階段聚焦日誌清洗環節的穩定性與成本優化,第二階段實現實時離線鏈路解耦、核心數據隔離及計算框架容錯能力提升。此次升級顯著提升了數據處理時效性、系統穩定性和成本效益,為業務發展提供了更堅實的數據支撐。 背景 百度APP及其產品

spark , 大數據

百度Geek説 - 一文解碼百度地圖AI導航“小度想想”

你有沒有過這樣的體驗?在高速上對着導航喊“小度小度”,它就神奇地迴應道“來了”;在地下車庫問“最近的充電樁”,屏幕立刻跳出相關的充電樁指引;甚至對車載語音助手説“有點冷”,空調的温度就會悄悄調高。這些看似“讀心術”的交互背後,藏着一個能聽懂人話、能感知環境、能精準應答的“數字領航員”。 當你説“查找故宮附近的粵菜館”時,系統不僅要從3億多條 POI 數據中精準定位,還要理解“附近”是500米還是3

人工智能 , 地圖 , 百度地圖

百度Geek説 - 播放器視頻後處理實踐(一)

1. 前言 在播放器架構不斷演進的今天,視頻後處理技術正在成為提升用户體驗的關鍵環節。相比傳統的解碼即播,現代播放器越來越多地引入後處理鏈路,通過增強畫質、渲染氛圍等手段,為用户提供更具沉浸感的視聽體驗。 本系列文章將系統介紹我們在播放器視頻後處理模塊中的技術方案與工程實現,涵蓋從效果設計、算法選型,到性能優化和跨平台兼容的全鏈路細節。第一期內容聚焦在兩類核心能力: 視頻增強:提升畫面清晰度、

視頻處理

百度Geek説 - 播放器音頻後處理實踐(一)

一. 前言 丨1. 行業背景 在現代播放器架構中,音頻後處理已不僅是錦上添花的功能,而是構建差異化聽覺體驗的關鍵組件。尤其在多樣化的播放場景(手機外放、耳機、電視音響等)下,通過定製化的音效增強手段,有效提升聽感表現已成為基礎能力之一。 丨2. 本文概覽 本系列文章將系統介紹我們在播放器音頻後處理模塊中的技術方案與工程實現,主要面向音視頻方向的開發者。我們主要基於 FFmpeg的音頻濾鏡框架,結合

音頻 , 播放器 , 音頻處理

百度Geek説 - 搜索數據建設系列之數據架構重構

導讀 主要概述百度搜索業務數據建設的創新實踐,重點圍繞寬表模型設計、計算引擎優化和新一代業務服務交付模式(圖靈3.0開發模式)三大方向,解決了傳統數倉在搜索場景下面臨的諸多挑戰,實現了搜索數據建設的高效、穩定、低成本;為百度搜索業務敏捷迭代奠定夯實基礎。 名詞解釋 TDS(Turing Data Studio): 是基於圖靈(百度內部數據分析平台)的數據建設解決方案,提供 數據開發、數倉管理、監控

spark , 數據庫

百度Geek説 - Iceberg在圖靈落地應用

導讀 百度MEG上一代大數據產品存在平台分散、易用性差等問題,導致開發效率低下、學習成本高,業務需求響應遲緩。為了解決這些問題,百度MEG內部開發了圖靈3.0生態系統,包括Turing Data Engine(TDE)計算存儲引擎、Turing Data Studio(TDS)數據開發治理平台和Turing Data Analysis(TDA)可視化BI產品。依託圖靈3.0生態,我們引入了數據湖表

spark , 數據倉庫 , flink , iceberg , 數據湖

百度Geek説 - 百度垂搜數據管理系統彈性調度優化實踐

百度垂直搜索系統將搜索核心能力賦能阿拉丁(百度搜索特型結果)、垂直領域搜索、應用內搜索等場景,支撐了數百個檢索場景、百億級內容數據的檢索。隨着接入業務數量和數據量不斷增長,系統在海量數據管理與調度上遭遇新的挑戰,通過垂搜數據管理系統彈性調度優化實踐來滿足業務增長需求。 01 背景 1.1簡介 百度垂搜架構的召回引擎經過歷史架構演進確定了異構部署的架構模型,相較於同構部署在容量自動調整、數據按需存儲

大數據 , 搜索 , 雲原生

百度Geek説 - 千億級打點PV的成本治理實踐

導讀 打點是指在網站或者APP中加入一些統計代碼,通過日誌記錄用户在 APP 內觸發的一系列行為,包括點擊、滑動等。打點上報後匯聚成用户行為日誌,用户行為日誌可用於報表統計、AB Testing、個性化推薦等,是分析用户、調整策略、迭代產品的重要依據。 日誌中台做為百度內一站式打點解決方案,覆蓋了廠內以百度APP為代表的大多產品,每天產生千億級的打點日誌PV。這些日誌經過格式化之後,滿足用户的各種

行為分析 , 百度

百度Geek説 - 名列前茅!百度文心大模型4.5及X1在中國信通院“方升”大模型基準測試中表現優異

中國人工智能產業發展聯盟(以下簡稱“AIIA”)緊密跟蹤大模型和智能體的技術發展與行業應用動態,構建併發布了“方升”(FactTesting)大模型基準測試體系,自2024年以來已對國內外開源與閉源大模型開展了6輪能力監測,累計測試了200餘個大模型,持續跟蹤其技術演進與表現,為行業技術選型與能力評估提供了重要依據。2025年,評測範圍進一步擴展至多模態理解、文生圖、文生視頻等領域,並率先開展智能

百度

百度Geek説 - 一篇論文,看見百度廣告推薦系統在大模型時代的革新

我們見證了 DeepSeek R1,用強大的推理能力再次點燃 AI 智力增長的火箭。 在上個星期,OpenAI 給 GPT-4o 的一波圖像生成更新又讓全網陷入了梗圖、甚至玩梗視頻製造的火熱氛圍中。 用 GPT-4o 渲染過的《星際穿越》電影片段。 AI 的「想象力」一次又一次震撼着我們,基於先進大模型的應用正在越來越多的領域引發革命,被改變的也包括科技領域本身。 比如,生成式 AI 正在改變人

百度

百度Geek説 - 秒噠首發即爆發!上線首日吸引2萬用户,打造3萬應用!

3月24日,國內首個對話式應用開發平台百度秒噠全量上線,上線24小時就迅速吸引超2萬用户體驗,創建應用數量突破3萬個,相當於每3秒就誕生1個應用! 秒噠以 "無代碼編程+多智能體協作+多工具調用" 的技術組合,顛覆傳統開發流程。用户通過自然語言描述需求即可自動生成完整功能代碼,實現“3分鐘生成+1小時迭代”的極致開發體驗,生成H5邀請函、網站、小遊戲等,用户登錄秒噠首頁即可體驗。 (體驗地址htt

百度

百度Geek説 - 圖靈數據洞察平台-TDF(Turing Data Finder)

導讀 在數字化時代,企業對用户數據的挖掘和分析能力直接影響業務增長和競爭力。圖靈數據洞察平台(TDF) 是一款面向企業的數據分析與用户增長平台,提供一站式的行為數據生產、用户行為分析、及廣告效果評估等功能。它能夠利用多維分析模型深入洞察用户行為,助力精細化運營。圖靈數據洞察平台還支持數據可視化和智能分析,幫助企業優化營銷策略,提高用户轉化和留存率。本文將詳細介紹圖靈數據洞察平台的核心功能、應用場景

行為分析 , 數據分析 , 百度

百度Geek説 - 兩連發!文心大模型4.5及X1,上線千帆!

3月16日,文心大模型4.5和文心大模型X1正式發佈! 目前,兩款模型已在文心一言官網上線,免費向用户開放。_(https://yiyan.baidu.com/)_同時,文心大模型4.5已上線百度智能雲千帆大模型平台,企業用户和開發者登錄即可調用API;文心大模型X1也即將在千帆上線。 01 文心大模型4.5原生多模態基礎大模型 文心大模型4.5是百度自主研發的新一代原生多模態基礎大模型,通過多個

百度 , 大模型