引言
在 AI 落地過程中,開發者和企業面臨的核心瓶頸是數據。能否獲取高質量數據、高效處理數據、有效使用數據成為企業智能化發展的關鍵基石。無數據,不智能。那麼在具體實踐上,企業如何實現數據與 AI 的雙向賦能?
11 月 9 日,由騰訊雲架構師技術同盟和騰訊雲 TVP 聯合主辦的「騰訊雲架構師技術沙龍——無數據不 AI」在成都成功舉辦。活動聚焦數據與 AI 技術融合的真實挑戰與前沿實踐,邀請多位來自一線的技術專家,共同探索數據驅動智能的發展路徑,為行業提供諸多可落地的實踐案例。會上,騰訊雲架構師成都同盟正式成立,為成都地區的架構師羣體搭建一個專業、開放的交流學習平台。
成都思華啓承企業管理諮詢 CEO、騰訊雲架構師成都同盟理事 將軍主持開場。他介紹道,騰訊雲架構師技術沙龍是騰訊雲面向廣大架構師與技術專家舉辦的技術交流活動,聚焦前沿話題,匯聚專家智囊,深度研討,攜手共創,用最專業的分享和思辨,助力廣大架構師共同成長。
騰訊雲架構師成都同盟正式成立
2024 年 12 月,騰訊雲發起併成立了騰訊雲架構師技術同盟,這是專為架構領域專家與從業精英營造的技術社交圈。騰訊雲架構師技術同盟主席 毛劍表示,目前,騰訊雲架構師技術同盟已先後在北京、上海、長沙、深圳、合肥建設地區同盟,成都是第六個地區同盟。作為西南地區的科技創新中心,成都技術氛圍濃厚。在此背景下,成都同盟期待匯聚更多本地架構師力量,共同打造專業、先進、開放的技術社交圈。
線下,成都同盟將開展各類交流活動,搭建溝通的橋樑,拉近架構師之間的距離;線上,騰訊雲開發者社區打造架構師專區“騰訊雲架構師同盟交流圈”,不僅有海量技術文章、視頻資源,還有行業專家在線答疑、架構專家空降直播間對話等豐富活動。不管架構師是追求技術精進,還是管理提升,同盟都提供了相應的學習內容,全方位助力架構師拓寬視野、持續成長,切實為架構師羣體提供有效幫助。
會上,騰訊雲架構師成都同盟理事會成員集體亮相。成都同盟理事會由 13 位資深架構專家和行業技術領袖組成。現場舉行了授勳儀式,毛劍與騰訊雲架構師技術同盟副秘書長 李佳憶為到場的成都同盟理事頒發聘書,以表彰他們對成都同盟的大力支持與無私貢獻。
DatenLord 創始人、騰訊雲架構師成都同盟理事長 王璞在致辭中表示,成都同盟依託騰訊的影響力,致力為本地架構師搭建前沿技術交流平台,切實助力其技術成長。未來,成都同盟將打造一條具有自身特色的發展之路,並將“認真工作,好好生活”的理念融入快節奏的 IT 行業中。
軟件 3.0 時代的數據工程
ThoughtWorks 中國區總經理、騰訊雲架構師成都同盟理事 肖然帶來《軟件 3.0 時代的數據工程》的主題分享。
肖然表示,“軟件 3.0”不同於傳統的演進模型,它並不是簡單地替代軟件 2.0、軟件 1.0,而是代表軟件行業的細分與成熟。軟件 1.0 時代以業務流程系統為核心,軟件 2.0 時代則依賴數據標註來訓練模型,軟件 3.0 時代基於大模型完成任務。隨着這一細分趨勢的發展,開發者和企業需同時應對以上三種不同類型的軟件範式,其對應的數據處理方式也各不相同。
隨着軟件 3.0 時代的到來,開發者面臨日益複雜的數據挑戰:在設計數據流程時,需將業務知識提煉為大模型可訪問的形式,還要通過注入業務知識和背景知識來提升準確度。要真正實現數據向信息和知識的轉化,肖然建議從產品視角來看待數據工程。數據產品應具備持續價值、可規模化複用的能力,並確保數據的準確性。然而在他看來,當前許多組織未建設真正意義上的數據產品。他強調,只有將數據產品化才能在組織內構建軟件3.0時代所需的信息和知識。
肖然認為,數據產品應具備三大特性:可用的(Usable)、有價值的(Valuable)、可組合的(Composable)。其中,Usable 是指數據產品對外明確承諾的信息,如時長、準確率、刷新頻率等指標;Valuable 是指提供用户所需的數據使用或分析工具,並在時效性、質量等維度滿足用户需求。肖然建議,企業在設計數據產品時應遵循“Think big,start small”的原則,儘早為客户提供可衡量的價值,然後持續提供更多價值,並以小步快跑的方式來實踐。
Agent 時代數據重新定義應用
騰訊雲數據庫產品總監、騰訊雲架構師成都同盟理事 鄒鵬分享題為《Agent 時代數據重新定義應用》的演講。
鄒鵬從“工程、流程、組織”三個維度,剖析研發團隊在開發 Agent 過程中遇到的挑戰,並分享了相關的思考與建議。
在工程方面,他指出如果研發團隊以傳統軟件流程的方式來開發 AI 應用,可能無法充分發揮 Agent 的智能潛力。真正的 Agent 應用應以模型驅動來決定智能上限,以工程來決定它的下限,因此 Agent 軟件開發的重心需從工程轉到模型。而模型的上限由預訓練決定,模型的下限則由後訓練來決定。數據將成為定義模型能力的關鍵,通過 SFT 注入行業專有知識,通過 RLHF 提升推理能力。另外,開發者在開發 Agent 時需關注“上下文工程”,要像計算機內存一樣,把上下文作為稀缺資源來看待。他建議可通過上下文壓縮、結構化筆記、子任務拆解的方式來突破上下文限制,並在效果、成本與時延之間尋求平衡。
在流程方面,過去,產品經理可清晰定義傳統軟件的功能模塊、操作流程和關鍵指標。但 Agent 應用通常以對話界面呈現,其背後的能力與評估標準該如何定義,已成為研發團隊的巨大挑戰。對此,鄒鵬帶領團隊基於 Benchmark 驅動產品迭代,通過設計用例來定義產品能力,並進行評估和訓練,最後上線驗證,以此形成完整的 Agent 產品迭代閉環。
在組織方面,Agent 應用也使得團隊角色分工正在發生變化。產品經理從原來的功能型產品經理轉變成策略型產品經理。如今,產品經理通過數據、用例來定義需求,這要求其具備數據分析能力,並使用數據來定義產品目標,同時產品經理需瞭解評測、訓練等技術,才能向團隊提出適合的需求。此外,工程師的重心從原來關注分佈式、性能轉為關注數據、模型智能化。如此一來,團隊研發的產品能力上限才能提高,如果團隊仍依賴大量代碼來編排產品能力,其產品的上限將受到制約。此外,如果沒有對 Agent 軟件進行評測,軟件無法上線。然而,Agent 軟件的評測要求較高,不同於傳統測試團隊對產品基礎功能的驗證,還需對其智能水平等進行綜合評估,通常需專門組建評測團隊。
鄒鵬表示,AI 已成為當前人才的放大器,一位 AI 專家可以藉助 AI 工具完成過去多人團隊完成的工作。因此,懂 AI,會用 AI,已不是加分項,而是必選項。他建議開發者積極從應用型人才轉換成研究型人才,才能在未來的研發團隊持續創造價值。
Elastic Agentic RAG 實戰:Data+AI 驅動的前沿技術演進與創新思路
Elastic 中國區首席解決方案架構師、騰訊雲架構成都同盟理事 李捷分享《 ElasticAgentic RAG 實戰:Data+AI 驅動的前沿技術演進與創新思路》的主題演講。
李捷指出,當前每個企業都在積極探索 Data+Al 的落地, 但真正讓用户和管理層都滿意的案例並不多。在過去,企業使用簡單 RAG 架構,只能進行一次性問答,無法充分發揮模型能力。而當前,行業正從傳統 RAG 演進到 Agentic RAG 架構,後者賦予 AI 決策、執行和規劃的能力,使得 Agentic Agent 具備主動環境感知、多步推理、動態任務規劃以及調用外部工具的能力。企業以“Data+AI”為手段,通過構建 Agentic RAG 應用,解決實際業務問題。
但企業在落地 Agentic RAG 架構時,可能會面臨四個難點:知識與數據的融合、面向大模型設計、超越簡單召回的數據推理能力、系統的可見性與安全性。隨後,李捷闡述對應的解決思路:
首先,全域數據融合。企業將知識、業務、運營、安全等數據集成到一個平台上,提供統一查詢入口和權限感知機制,避免數據孤島,從而實現 AI 應用與企業所有數據的統一對話。其次,深度查詢與分析能力。平台要實現計算融合,不僅要做知識召回,還要提供深度的“洞察”。計算平台需要進行統計分析與數據處理,進行數據挖掘,並提供富有表達力的查詢語言。第三,面向大模型設計。讓大模型成為平台的使用者和編排者,而不僅是最終內容的生成者。面向大模型設計的核心在於降低其在複雜任務的計算負荷,可將計算交由計算引擎來處理。Agentic RAG 平台提供可被大模型理解的工具集、易於調用的 API 和強大的管道語言,便於大模型高效使用。第四,企業級可靠性與安全性。由於 Agentic RAG 的鏈路較長且結構複雜,任何一個環節的“盲點”都可能引發系統性風險。為了給大模型提供全面的安全保障,需做好日誌、追蹤、監控等端到端可觀測性設計。李捷強調,企業在落地 Data+AI 時,數據、計算、大模型、安全這四項能力缺一不可。
在線學習在王者榮耀商業化推薦的應用
王者榮耀商業化推薦算法負責人 黃俊帶來《在線學習在王者榮耀商業化推薦的應用》的主題分享。
王者榮耀在商業化上不斷升級,通過 IP 聯動和精品打造等方式提升皮膚和道具資源品質,同時,遊戲中還增加抽獎、活動任務等創新玩法,但遊戲上線初期訪問量較大,且商品從曝光到用户獲取之間的延遲,都對推薦系統樣本構造產生挑戰。如何通過推薦算法,精準識別不同用户羣體需求?
針對以上情況,業界一般採用置頂等強策略來實現重點資源的強曝光。但這種做法有以下不足:一是浪費曝光,置頂的商品不一定是玩家所喜愛的內容;二是無法對多個置頂內容進行排序。
團隊希望通過更快的模型學習算法來替代強置頂策略,並在工程和算法上進行聯合迭代:最初,將按天訓練的模型升級為“實時特徵+離線模型”,通過構建實時特徵,可以實現用户行為和物品銷量等變化的秒級反饋,在此基礎上,還增加了交叉特徵,憑藉歷史數據學習類目偏好進行預判。由於特徵是多元、多時空的,為了給下游模型提供統一的服務,團隊構建統一的“特徵服務”來調用配置特徵。而在實際訓練過程中,模型訓練時使用的特徵可能是前一小時的特徵,但在進行預測時,用户特徵是實時的,因此團隊以實時樣本架構來解決線上線下不一致的問題。團隊在實時樣本上構建在線學習模塊,通過在線學習架構可消費實時樣本構建訓練模型,定期導出模型到線上,實現 20 分鐘的週期更新。
由於推薦系統模型的規模龐大,將其從訓練系統導出並傳輸到生產系統需耗費一定時間,並佔用大量帶寬。為了進一步壓縮模型更新時間,團隊採用增量更新的方式,將模型拆分為兩部分,Embedding 層通過 redis 提供服務,線上按需獲取 Embedding 參數,減少發佈系統分發的 IO 壓力,將模型更新時間從之前的 20 分鐘壓縮至 10 分鐘。然而在現實中,即使算法再快,在商品開售的第0分鐘會因沒有樣本而導致低估。為進一步提升效果,團隊引入“多臂老虎機算法”,在原購買率基礎上計算置信區間上界作為最終得分,並增加試探分數,對曝光少的Item額外加分。通過這種方式,實現 0 分鐘的模型更新。黃俊和團隊耗費兩年時間打造的新技術方案,可完全替代掉業界常用的強置頂規則,並對比離線模型有顯著效果提升。
圓桌對話:人機協同,數智共生:Data+AI 驅動的個人、組織、範式三重進化
活動最後,來到精彩的圓桌對話環節。在騰訊雲架構師技術同盟主席 毛劍的主持下,圍繞 “人機協同,數智共生:Data+AI 驅動的個人、組織、範式三重進化” 主題,DatenLord 創始人、騰訊雲架構師成都同盟理事長 王璞,Easystack 開源負責人、騰訊雲架構師成都同盟理事 李中華,Thoughtworks 中國區總經理、騰訊雲架構師成都同盟理事 肖然,中亦安圖科技品牌影響力專家、騰訊雲架構師成都同盟理事 尹海文,禪道軟件集團副總裁、騰訊雲架構師成都同盟理事 張石,多角度探討 AI 時代下開發者能力、組織形態、技術範式的協同進化,真誠分享自身經歷與深刻思考,為與會者帶來啓發。
問題一:“Data+AI”這套組合拳,其核心價值體現在哪些方面?
王璞以“Data+AI”的典型應用——ChatBI 為例,ChatBI 是面向企業高層的智能分析工具。傳統靜態 BI 報表內容固定,無法實現千人千面的效果。ChatBI 利用大模型來理解人的意圖,讓管理者以自然語言的方式提問,系統自動完成相關的數據分析並返回結果。
不過企業在落地 ChatBI 時,由於其底層依賴 Text2SQL 技術準確率僅為 70%,可能無法滿足企業高管對數據精準性的要求。對此,他建議縮小範圍,採用二八原則,即在 80% 常見問題做到 99% 的精準度,並需兼顧 ChatBI 的實時性與精度之間的平衡。
張石將數據和 AI 類比為人類大腦結構,AI 如同大腦的前額葉負責決策,而數據則為記憶系統。基礎大模型基於預設數據來訓練,並藉助記憶系統來理解問題,精準理解上下文,識別意圖,實現精準回答。他建議企業根據自身需求來構建記憶系統,只有建好記憶系統,才能在未來大模型能力提升時,也能增強自身 AI 能力。
毛劍總結道,從數據平台視角來看,數據平台的核心是找數、取數、用數,開發者可使用智能體來提升效率。在涉及具體計算時,預定義指標綁定的 SQL 可確保運算結果 100% 準確。但在進行開放式查詢時,開發者需仔細確認 SQL 是否符合邏輯,並通過充分驗證來確保結果準確無誤後,再將查詢數據返回給運營人員和決策者。
問題二:有觀點認為,未來的競爭是高質量數據加領域知識的競爭,而模型正趨於同質化。數據是否會成為企業的核心壁壘?企業該如何應對?
肖然表示,由於算法和基模的逐漸開源,數據將會成為企業競爭的關鍵要素。在模型預訓練階段,數據集至關重要;另一方面,要想落地企業級 AI 應用離不開數據。儘管特斯拉通過構建世界模型,可能在短期內形成“數據霸權”優勢。但從長期來看,私有數據形成壁壘是偽命題,隨着監管力度的增強,數據所有權會明確限制,例如歐洲已經出台了《GDPR》、《AI Act》法案,否定了數據霸權的可能性。因此,企業無法利用一部分私有數據來訓練模型,以長久獲得商業收益。
李中華也分別從長短期的角度來闡述自己的觀點。他認為,企業用好數據創造價值,可在短期內產生優勢,甚至形成壁壘。但在 AI 時代,數據處理及價值創造的方式將發生較大的改變,誰能夠做好這個轉變,掌握在 AI 時代挖掘數據價值,並將其沉澱成知識的能力,才能最終轉化為商業價值。從長期角度來看,如果希望將產業推向更高效更智能化的方向,那數據的流通將是不可或缺的一環。
王璞結合過去在谷歌的工作經歷展開分享。在過去,谷歌的廣告業務對數據使用有嚴格限制,在第三方平台展示廣告時,不允許使用任何可關聯到個人信息的數據。毋庸置疑,谷歌擁有較強的數據優勢。同樣,特斯拉在自動駕駛佈局較早,已積累豐富的數據,要追上它並不容易。但國內有一些聲音正在呼籲國內自動駕駛廠商實現數據共享,以加速發展步伐。國內開源開放氛圍濃厚,在全球開源模型榜單中,中國企業排名前幾位,國內數據流通與開放或許就在不遠的未來。
問題三:開發者使用 AI 工具提升效率的同時,如何避免因過度依賴而導致自身能力弱化?
張石分享他在禪道工作的心得體會:儘管當前“Vibe Coding”概念火熱,但在真正企業級開發場景裏,如果大面積使用 Vibe Coding 生成的代碼,可能會對系統產生不穩定的影響。他和團隊在設計 DataOps 流程時,會按照敏捷開發原則和 DataOps 方法論,做好代碼審查和單元測試,確保每次提交代碼經過嚴格的人工審核,從而保證系統的穩定性和可維護性。他認為,由於 AI 擅長生成簡單代碼,初級工程師將面臨一些衝擊;對於架構師而言,其黃金時代還可延續數年。
肖然以孩子學習編程的故事為例,他在教孩子寫排序算法時,會從底層原理講起,孩子理解起來不太容易。後面孩子去培訓機構,很快就學會了寫 sorting,但實際上,孩子並不理解算法,只是調用現成的排序函數完成任務。這引發了他的思考,如今AI正在改變編程學習的界限,人們需分清哪些知識該學,哪些不該學。他強調,通過紮實的基礎訓練來構建自身的理解能力和清晰表達意圖的能力,這是有效運用外部智能的前提,每個人的大腦如同一個神經網絡,需訓練自己的思維方式,在未經訓練前不能外包給 AI 代為思考。
尹海文日常工作以寫 SQL 為主,憑藉豐富的經驗積累,有時會幫助客户甄別 AI 搜索結果是否可靠,是否可應用在真實數據庫中。他強調,工程師必須有紮實的專業基礎,來判斷 AI 生成內容的正確性。
李中華也指出,AI 幫助工程師提效是必然趨勢。他以朋友創業為例,如今通過 AI 工具,兩人便能交付一個軟件項目,大大提高軟件開發效率。另外,工程師轉型也是必然趨勢。例如,運維人員可藉助 AI 排查問題,但必須具備基礎知識來判斷。
毛劍表示,一名優秀的工程師應善用 AI 提高工作效率,但不是將所有工作都交由 AI 完成。工程師可將 AI 視為一位數字員工,並對其生成結果進行審核。
台上專家真誠分享自身經歷,從不同角度來深入剖析問題,給出諸多務實的建議,台下與會者踴躍提問,本次沙龍在熱烈的互動氛圍中迎來尾聲。
結語
沙龍主持人將軍總結道,通過本次活動的交流與探討,各位專家梳理數據驅動智能發展的脈絡,分享數據與 AI 如何雙向賦能,並結合一系列落地實踐案例,為與會者帶來許多啓發與思考。本次活動作為騰訊雲架構師成都同盟的起點,將匯聚更多本地架構師力量,一起邁向技術新紀元。
騰訊雲架構師成都同盟的成立,不僅為架構師們提供了共同學習、共同成長的平台,也為未來技術創新開拓了廣闊空間。騰訊雲架構師成都同盟期待與架構師們攜手同行,一同探索架構發展新方向。