如果説AI的上半場是算力和大模型的競爭,拼的是算法創新和參數規模;那麼AI的下半場就是應用和業務價值的兑現,拼的是落地能力和產業深度。當前全球AI投資熱度高漲,而AI基礎設施層趨於飽和壟斷,資本重心正轉向“Data+AI”應用。“應用為王”是最終決定技術能否轉換為業務價值的關鍵,而應用要落地,數據基礎必須先行。
在過去數年間,“數據中台”作為企業數字化轉型的核心基礎設施,已成為眾多行業的基本盤。它通過統一數據標準、沉澱數據資產、賦能業務應用,有效解決了數據孤島和重複建設的難題。
而今,以大模型為代表的多模態AI技術突破,正從根本上挑戰這一“基本盤”。我們必須審視一個關鍵命題:AI的下半場,產業需要一個怎樣的數據中台?
新挑戰:AI的“認知”需求,超越了傳統中台的“能力邊界”
傳統數據中台的建立,是為了服務於分析決策——它幫助企業“看懂過去”。其核心是處理規則清晰、格式固定的結構化數據,如銷售明細、庫存記錄等。在這種確定性環境下,它足以支撐傳統分析發揮作用。
但AI的下半場,要求機器從“分析”走向“認知”。企業的業務語境變得高度複雜,AI必須能夠同時處理“看得見的畫面、聽得見的聲音、讀得懂的語言”,才能真正理解真實世界的業務邏輯。
這就帶來了一個根本性的矛盾:AI的能力邊界,取決於它所能“理解”的數據世界,而不僅僅是它能“獲取”的數據。傳統中台或許能“存儲”這些多模態數據,但它無法“理解”它們。它只是一個“存數據”的倉庫,而不是一個能融合多模態數據、理解語義關係、驅動智能決策的“認知底座”。
這種“認知”需求,也徹底重塑了數據關係的內涵。
過去,中台通過統一模型和數據口徑,解決的是“字段與字段”的映射問題。而現在,數據形態日漸複雜。IDC 預測,從 2024 年到 2029 年,在中國和全球範圍內,多模態數據規模都將處於高速增長階段。6 年內增長 3 倍以上,年均複合增長率將接近 30%。這就帶來了“語義與語義”的關聯難題——圖像的空間信息、文本的語義信息、傳感的時序特徵,必須在語義層面被融合理解。
因此,數據治理的重心也必須轉移:從過去關注格式、口徑的一致性,轉向關注語義、標籤和知識圖譜的統一。
當AI需要的是“知識關聯”而非“數據匯聚”時,那個為傳統報表而生的數據中台,顯然已無法承載AI應用的雄心。
新需求:多模態融合已成“產業剛需”
這一轉變並非空談,而是源自袋鼠雲各行業客户最迫切的實際需求。
隨着業務場景的深化,客户的數據來源日益多樣化,一個僅能處理結構化數據的平台已無法滿足所有業務場景。企業迫切需要一個“一站式”的數據底座,既能高效執行傳統的SQL/ETL任務,又能原生支持OCR、圖像識別、文本檢索乃至視頻監控分析。
這種多模態數據融合的需求已經廣泛出現在高端製造、科研、供應鏈等領域:
(1)在高端製造與工程領域:無論是某研究中心對檢驗數據的管理,還是某研究所為川藏鐵路檢測車業務構建的非結構化數據中台,亦或是某民機公司對試飛數據的採集存儲,其核心訴求都指向了統一管理。例如,汽車檢驗中心迫切需要將目前分散在內部共享網盤的文檔、視頻、圖片進行統一存儲、分類和權限管理,並通過OCR和模糊搜索打通數據,實現與LIMS、CRM等系統的關聯。
(2)在科研與AI前沿:如某高校,其AI平台就需要一個強大的多模態數據中台來提供支撐。
(3)在複雜供應鏈管理中:某公司需要採集天氣、產地輿情、港口吞吐、物流路線等多維信息,為AI模型平台提供服務。一個具體的場景是:通過分析衞星雲圖中的地理位置和顏色標記,來預判特定地區農作物的種植面積,進而推測產量。
這些真實的場景清晰地表明,市場正在呼喚一個能夠承載多模態數據、並將其轉化為“認知”的新型數據底座。
新使命:“讓AI可用”的多模態數據中台
面對AI的挑戰,數據中台的定位必須進化:
- 傳統中台的使命:讓數據可用,服務於分析決策。
- 新型中台的使命:讓AI可用,服務於智能應用。
“讓AI可用”意味着中台不再是簡單的ETL、倉庫和指標的堆砌,而必須成為一個以語義融合、知識建模、智能檢索為核心的“知識基礎設施”。
這個“多模態數據中台”,其核心價值在於重構了企業的數據底座,它必須具備三大關鍵能力:
(1)多模態融合治理:不僅能接入和存儲多源數據,更要能在統一的平台內,對結構化、半結構化(JSON、日誌)和非結構化(音視頻、文檔)數據進行統一的清洗、加工、轉換和元數據建模。
(2)跨模態知識構建:能夠構建超越數據形態的“知識網絡”。通過統一的標籤、語義理解和知識圖譜,將孤立的數據點關聯成可被AI理解和推理的“知識”。
(3)AI原生數據服務:升級過去以API、指標為主的服務模式。在原有指標、API等核心數據服務的基礎上,新增AI應用(如RAG)所需的向量檢索、語義查詢、統一搜索等能力,讓AI真正融入業務全流程。
實踐路徑:以袋鼠雲多模態數據中台為例,重構AI時代的數據底座
從“數據中台”邁向“多模態數據中台”,是一次架構的重構。以袋鼠雲多模態數據中台的實踐為例,這個新底座的構建路徑是清晰的:
(1)統一納管(融合):平台首先接入來自對象存儲、業務系統、IoT設備、MPP與Hadoop集羣的多源數據。通過統一採集機制,將結構化表、非結構化文檔、圖像、音視頻等集中到同一平台。
(2)智能治理(知識):在此基礎上,平台提供統一的數據治理體系。這不只是傳統的元數據管理和血緣追蹤,更重要的是實現了跨模態的統一建模、語義標籤和知識圖譜構建,形成標準化的“認知資產”。
(3)智能服務(應用):最終,通過統一的數據服務體系,為上層AI應用“喂料”。這包括輸出API、指標、標籤,更關鍵的是提供了跨模態統一搜索與語義查詢能力,為AI模型提供完整、可信的多模態語料基礎。
這一整體架構讓企業的數據從分散走向融合,從“數據資產”走向“知識體系”,為AI應用做好了全面的“Ready”。
AI的下半場,屬於那些真正理解數據、治理數據、激活數據的企業。在這一階段,數據中台不再是支撐分析的工具,而是AI時代的“基礎設施”。它讓AI擁有對世界的多模態認知,讓決策建立在語義理解與因果推理之上,讓智能不止於“計算”,而能真正“理解”。多模態數據中台的出現,標誌着企業從“數據驅動”走向“認知驅動”。這是一次技術演進,更是一場智能範式的重構。