一、背 景
你是否曾在社區搜索時遇到這樣的困擾:想找一雙“平價學生黨球鞋”,結果出現的多是限量聯名款?或者輸入“初冬輕薄通勤羽絨服”,卻看到厚重登山款?這類“搜不準”的情況,正是搜索相關性技術要解決的核心問題——讓搜索引擎更準確地理解用户意圖,返回真正匹配的結果。今天,我們就來揭秘得物如何用大模型技術讓搜索變得更“聰明”。
搜索相關性,即衡量搜索結果與用户查詢的匹配程度,通俗來説就是“搜得準不準”。作為搜索體驗的基石,良好的相關性能夠幫助用户更順暢地從種草走向決策,同時也對購買轉化率和用户留存具有重要影響。
二、傳統相關性迭代痛點
從算法層面看,搜索相關性模型需要計算用户查詢與內容(包括下掛商卡)之間的相關程度。系統需要理解幾十種用户意圖,如品牌、系列、送禮、鑑別等,識別幾十種商品屬性,如人羣、顏色、材質、款式,還要覆蓋平台上數千個商品類目,從跑步鞋、衝鋒衣到咖啡機、吹風機等等。
我們早期主要採用基於BERT的交互式模型,結合大量人工標註數據,來構建搜索相關性系統。然而,隨着業務發展,傳統方法在迭代過程中逐漸暴露出以下痛點:
- 資源消耗大,標註成本高昂:模型效果嚴重依賴海量人工標註數據,需千萬級的查詢-商品配對樣本。粗略估算,完成千萬級數據標註,約需幾十人全年無休投入,耗時費力且成本居高不下。
- 擴展性不足,迭代響應緩慢:高度依賴人工標註的模式,導致模型難以靈活適應業務標準的頻繁更新。每當新增商品類目或優化判斷標準,往往需要重新標註,迭代週期長、響應速度慢。
- 泛化能力有限,長尾場景表現不佳:模型對訓練集中的常見品類效果尚可,但面對新品類或小眾場景時表現明顯下降。例如,用户從習慣搜索“鞋服”轉向“旅行攻略”“美食景點”等場景時,搜索結果的相關性會大打折扣。
三、基於大模型的迭代流程
近年來,以GPT、Qwen為代表的大語言模型迅速發展,正在逐漸滲透和重塑搜索領域的各個環節。在搜索相關性任務上,大模型相比傳統方法體現出三方面優勢:
- 理解能力更強,效果天花板顯著提升:百億甚至千億級別的參數量,使大模型能夠捕捉更復雜的語言表達和微妙語境,且具備不錯的邏輯推理能力,這在多個權威評測中得到驗證,為相關性效果突破提供了新的可能性。
- 知識儲備豐富,泛化能力大幅增強:基於海量互聯網數據的預訓練,讓大模型內置了豐富的世界知識。面對未見過的新查詢或內容類型,區別於小模型的“死記硬背”,大模型可以靈活的“舉一反三”,提升系統在長尾場景下的魯棒性。
- 數據需求降低,迭代效率成倍提升:大模型本身就是一座“知識寶庫”,通過提示詞工程或少量樣本微調,即可達到理想的業務效果。這降低了對大規模人工標註的依賴,為算法快速迭代奠定了基礎。
基於這些特性,我們圍繞大模型優化了相關性迭代的整個流程。首先是知識蒸餾新路徑,傳統BERT模型訓練需要千萬級人工標註,成本高週期長。現在,我們僅用萬級數據訓練大模型,再通過數據蒸餾的方式將其能力遷移至線上小模型。這一轉變不僅提升了效果上限,也實現了算法的低成本快速迭代。
其次,我們將大模型深度融入“相關性問題發現 -> 解決”的閉環,覆蓋新詞診斷、badcase監控迴流、GSB評估等環節。以每日badcase迴流為例:對於低點查詢,我們調用大模型進行相關性判斷,經人工複核後進入線上bert模型訓練池,形成持續優化閉環。這一流程重構,更大範圍降低了對人工標註的依賴,提升了算法迭代效率。下圖展示了新詞生成 -> 相關性校驗 -> 自動化歸因 -> 人工標註 -> 樣本增強的具體流程。
四、大模型建模搜索相關性
項目初期,大模型技術在搜索領域的應用尚處探索階段,缺乏可借鑑的成熟方案。基於對算法原理與業務場景的理解,我們圍繞“如何讓大模型更接近人類的思考方式”這一目標,設計並實踐了兩項核心優化:
二階段流程:我們觀察到,人類判斷相關性時通常遵循“先理解意圖,再驗證匹配”的認知過程。基於這一洞察,我們將端到端的相關性判斷拆分為兩個階段。一階段側重理解用户查詢,從中抽取出品牌、系列、適用人羣等關鍵屬性。二階段則對內容進行屬性解析,並逐一判斷其與查詢意圖的一致性。最終綜合多屬性判斷結果,輸出相關性分檔及對應依據。這一結構化的判斷方式使模型大盤準確率從75%提升至80.95%,在理解能力上取得了可驗證的進展。
R1慢思考:隨着年初DeepSeek R1的發佈,我們將其“慢思考”機制引入相關性建模,使模型能夠生成思維鏈進行分步推理,例如:“用户搜索‘夏季運動鞋’→內容提及商品為跑步鞋→材質透氣→符合夏季需求→判定相關”。在數據冷啓階段,我們調用開源推理模型,生成原始思考鏈,通過結果一致性校驗&人工校驗,過濾出少量高質cot推理數據。訓練階段,我們通過混合少量cot推理數據和大量常規數據的方式微調模型,使模型能將少量cot推理路徑泛化到更多常規數據上。推理階段,這種混合訓練方式,也使模型能省略思維鏈的輸出,同時保持分檔準確性,從而在效果與效率之間取得平衡。該方法使大盤準確率從80.95%進一步提升至83.1%,中長尾場景準確率從76.98%大幅提升到81.45%,顯示出良好的泛化能力。
以下是兩個思維鏈示例:
基於大模型的技術演進並非一蹴而就,最初我們基於BERT訓練數據,構建的初版相關性大模型效果有限,甚至略遜於線上BERT小模型基線(準確率 75% vs 75.2%)。通過後續一系列優化,如精細調整數據配比、引入課程學習等策略,模型效果逐步提升,最終大盤準確率提升約10個百分點,達到86.67%,驗證了大模型在搜索相關性任務上的潛力。具體消融實驗如下:
五、效果
經過兩個季度的迭代優化,相關性大模型在效果上已穩定超過線上bert模型,在大盤測試集上,準確率提升11.47%,宏平均F1值提升16.21%。在樣本量較少的檔位上提升更為顯著,2分檔F1提升32.66%,1分檔F1提升21.59%。目前,模型在NDCG和0分F1兩個指標上仍有提升空間,這也將是下一階段的優化重點。在中長尾場景下,大模型展現出更好的泛化能力,測試集準確率提升6.78%,宏平均F1提升25.72%,其中0分檔F1提升達51.93%,表現全面優於線上基線模型。詳情指標如下表:
六、落地
通過大模型標註千萬級數據,並結合多版數據蒸餾策略進行A/B實驗,線上相關性badcase率實現顯著下降:大盤降低5.39個百分點,中長尾場景降低10.82個百分點,累計節約標註成本達百萬級別。
離線評估方面,經過蒸餾後的線上BERT模型在大盤準確率上提升9.58%,宏平均F1提升10.91%;中長尾場景下準確率略有波動(-0.61%),但宏平均F1仍提升15.85%,體現出良好的泛化穩定性。
線上bert指標對比
後續方向
- 當前大模型在分檔能力上優於BERT,但在NDCG排序指標上仍有差距。我們正在探索基於生成式Listwise強化學習方法,建模內容間的偏序關係,以提升同一查詢下的排序質量。
- 基於大模型的數據蒸餾策略已逐步接近瓶頸。我們正嘗試更高ROI的落地方案,包括logits蒸餾策略,並推進大模型直接承接部分線上流量的可行性驗證。
- 大模型本身的能力邊界仍隨開源基座模型和生成式搜推技術的發展而不斷拓展,我們將持續跟進,探索效果上限的進一步突破。
七、結語
搜索相關性的優化,是一場沒有終點的長跑。通過引入大模型技術,我們在理解用户意圖、提升匹配精度上取得了階段性進展,也為後續的迭代開闢了新的路徑。未來,我們將緊跟大模型技術發展趨勢,同時緊密結合業務場景,推動搜索體驗向更智能、更精準的方向穩步演進。
往期回顧
- RAG—Chunking策略實戰|得物技術
- 告別數據無序:得物數據研發與管理平台的破局之路
- 從一次啓動失敗深入剖析:Spring循環依賴的真相|得物技術
- Apex AI輔助編碼助手的設計和實踐|得物技術
- 從 JSON 字符串到 Java 對象:Fastjson 1.2.83 全程解析|得物技術
文 /若水、蘭溪
關注得物技術,每週更新技術乾貨
要是覺得文章對你有幫助的話,歡迎評論轉發點贊~
未經得物技術許可嚴禁轉載,否則依法追究法律責任。