一文解碼百度地圖AI導航“小度想想” 詳情 - 人工智能,地圖,百度地圖百度Geek説博客

你有沒有過這樣的體驗？在高速上對着導航喊“小度小度”，它就神奇地迴應道“來了”；在地下車庫問“最近的充電樁”，屏幕立刻跳出相關的充電樁指引；甚至對車載語音助手説“有點冷”，空調的温度就會悄悄調高。這些看似“讀心術”的交互背後，藏着一個能聽懂人話、能感知環境、能精準應答的“數字領航員”。

當你説“查找故宮附近的粵菜館”時，系統不僅要從3億多條 POI 數據中精準定位，還要理解“附近”是500米還是3公里；當你追問“有包廂嗎”，它甚至能調用餐廳實時預訂系統。這些看似簡單的對話，需要跨越語音識別、語義理解、內容獲取、答案生成等多重技術關卡。

百度地圖 AI 導航小度想想

如何將自然語言轉化為精準指令？

那些“秒回”的答案又是怎樣煉成的？

【AI 地圖 Tech 説】第三期將帶你拆解這座“數字領航員”的魔法工廠，看看從“聽清”到“聽懂”方面，究竟藏着多少黑科技。

上圖説明了從用户請求到最終執行的整個過程，可以看到其中經過了語音識別、意圖解析、技能承接等主要的環節！

01 語音指令的解碼之旅：從聲波到文本

當用户説出"導航到故宮博物院"時，系統首先啓動聲學模型將聲波轉化為文字。這個看似簡單的步驟，其實也不容易，藴含三層技術環節：

▎ 基礎識別

其實就是我們大家常説的語音識別技術，它利用深度學習模型將聲波信號轉化為二進制序列，結合聲學模型與發音詞典生成初步文本。語音識別技術近年來經歷了白盒化到黑盒化的演進，其性能、效果都有很大的提升，大家應該都已經比較熟悉。但相對於安靜室內環境，用户在户外使用小度想想的時候，還有一類常見的問題是拒識。根據統計，至少有15%左右的語音請求是由於誤喚醒/誤收音引入的（非用户主觀需求）。小度想想，需要考慮到行駛過程中的風噪、聊天、多媒體播放等複雜噪音場景，百度地圖引入了雙重拒識判斷模型（聲學拒識、語義拒識），提前對問題請求進行甄別和提前攔截，最大限度降低用户干擾，大幅提升用户體驗。

▎ 糾錯

通過語言模型（如BERT、N-Gram）對識別結果進行上下文糾錯，例如將“北經”修正為“北京”。這是小度想想相對於通用的語音助手的優勢所在，在糾錯的過程中，會使用包括地圖 POI 數據、路名數據等專業字典進行參考。百度地圖建設了超億條 POI 數據的本名、別名、關聯名的地理知識圖譜，將 POI 的各種表達方式建立標準化映射。在此過程中，還需要構建錯誤拼音-標準名稱的雙向索引表，支持"西單大悦成"→"西單大悦城"這樣的智能糾錯。

▎ 排序

在實際工程中，糾錯手段不可能只有一個，因此就需要在上述流程完成後，基於多個邏輯，會輸出多個可能的識別結果。這裏就會基於用户之前的對話習慣，以及一些其他基於先驗知識和統計學習的置信度評分算法，從多個候選文本中選取最優結果（比如“橫屏模式”，在排序中會優於“紅屏模式”）。

02 意圖解析的"翻譯官"：把自然語言轉化為機器指令

當從語音的音頻識別為自然語言之後，下一步就是將其轉化為機器指令。這裏包括幾個關鍵技術：

技術亮點一：『意圖模板匹配』

基於自然語言處理（NLP）技術，完成實體識別（如時間“明天”、地點“北京”）、意圖分類（如“天氣查詢”）、情感分析（如用户是否急躁）。過去的語義理解，更多使用模板類技術，如下圖所示，針對用户問詢的內容抽取出關鍵要素後，再看匹配了哪種需求表達方式，這稱之為一個“意圖模板”，基於大量預置的模板就可以實現大部分指令的識別。

技術亮點二：『生成式意圖理解』

模板化語義理解能解決很多問題，但是存在的關鍵短板在於泛化理解能力不足，同時高度依賴領域知識積累，需要提前做大量的模板標註，還要解決相近表達方式的模板衝突問題，當模板數量達到一定程度後維護成本就會增加。LLM 的出現，另闢蹊徑地解決了這個問題。其核心優點是端到端利用 LLM 的上下文理解能力，直接解析用户自然語言中的隱含需求，形成對“口語表達中藴含的本質意圖”的理解，這個過程中無需構造模板，而是提前將全量承接 API 的參數規範作為“知識”以Prompt的方式注入 LLM，使其自主選擇 API 並填充參數。舉例來説，我們可以給大模型這樣的 Prompt：

角色：你是一個語音助手語義解析器，目標是將用户指令轉換為API調用
參考資料：可用的API及參數如下：
{API參數規範庫}
用户指令：{user_query}
任務：請按以下步驟執行：
1. 選擇最匹配的API；
2. 從指令中提取參數值，若未明確提及則設為null；
3. 輸出JSON格式，包含api_name和parameters。
預期輸出：{"api_name":
"search_flight", "parameters": {"departure_city":
"北京", ...}}

大模型就能輸出針對 user_query 最合適的工具調用參數，跳過了映射的環節，減少了折損，同時因為 LLM 對世界的強刻畫能力，使泛化能力也大幅增強，這種模式已經在業內廣泛使用，成為提升語義理解能力的主流方法。當然，大模型的應用中，少不了有成本、響應時間上的難題，所以實際工程中還是會大小模型混用，或者用小模型做定向的精調，來實現成本、性能和效果的兼顧。

技術亮點三：『工具調用』

工具調用是小度想想的下半身，是能夠準確承接用户需求的關鍵支撐。其本質上可以理解為一系列 API 接口的調用。當調用序列複雜了之後，調用狀態的維護就會成為問題，小度想想針對多輪複雜工具調用，提出了基於技能的狀態機架構，任意複雜的操作，都可以基於這套架構來統一表達。

技術亮點四：『生成式 AI 時代的工具調用進階』

在大模型的時代，為了提升工程化的效果，在 API 接口的基礎上又誕生了兩個公認的技術範式：

MCP：聚焦模型與外部工具的連接，提供統一接口（如數據庫、API調用），類似“AI 的 USB 接口”，降低跨模型開發成本。只要所有工具都以 MCP 的協議接入，那麼大模型就可以知道這個工具能力的存在，從而能做到在合適的時候調用它。

歡迎使用百度地圖 MCP 服務

RAG：RAG 本質上是對問答能力的數據增強，如果小度想想僅僅基於老舊的 LLM 底座來回答問題，會有很嚴重的幻覺發生。為了解決這個問題，往往使用檢索增強生成（Retrieval Augmented Generation，簡稱 RAG），百度地圖將所有的地圖領域數據以結構化來存儲，然後在用户提問後，以向量相似性找到對應參考數據，並取出再用 LLM 做彙總，就相當於從“閉卷考試”變成了“開卷考試”，從而保證了答案的精準性。

03 持續提升生產力：從語音助手到智能體

隨着 LLM 的能力越來強，我們發現，它的強大理解能力，對於一個一般化的常識問題，能給出相當接近人類的回答。那麼是否它能模擬很多團隊協作的真人，甚至以硅基生命來承接現實世界的生產力？這就是智能體（Agent）要考慮的問題了。智能體是這兩年 AI 領域最火的詞之一，它是基於人工智能技術在某個領域體現高度智能，顯著提升人類工作效率的信息系統，相對於“語音助手”，更偏重於“通過觀察、思考、權衡利弊，動態自主調用基礎能力、高準確地解決複雜業務問題”的特性。

以自動駕駛場景為例，智能體可以實時感知車輛周圍的路況、其他車輛的行駛狀態、交通信號燈的變化等關鍵信息，為後續決策提供堅實的數據基礎。自主決策能力堪稱智能體的 “大腦”，它依據感知到的環境信息，結合內部預設的規則和先進算法，迅速、準確地做出決策。在面對複雜路況時，自動駕駛智能體能夠綜合分析各種因素，精準判斷是加速、減速還是轉彎，以確保車輛行駛的安全與高效。又如在智能物流配送中，智能體的核心目標是按時將貨物準確送達目的地，為此它會綜合考量實時路況、車輛載重等信息，動態規劃最優配送路線，克服重重困難以達成目標。

回到語音助手這個場景，結合地圖智能體的任務，首先要針對地圖場景深入精調大模型，百度地圖通過文心一言基座大模型進行二次預訓練、SFT、強化學習等手段，使地圖大模型能夠精確理解用户在地圖中的各種常見表達，理解準確率高達95%以上。

此外，針對複雜任務的執行，還要引入的兩個特性是記憶和反思：

記憶能力：當用户表達不完整的需求時，能夠基於之前的問答和用户行為，自動補全對話內容（如用户問“今天限行嗎？”默認補充用户所在城市），因此需要構建記憶能力，用於存儲歷史交互數據、用户偏好與領域知識（如常用地址、路線選擇習慣、節假日出行規律），為意圖理解與決策提供背景支持，減少重複詢問並提升個性化水平。這裏面的短期記憶一般是指從啓動會話至今的內容，往往持續數分鐘，而長期記憶則是用户相對穩定固化的特徵，就地圖智能體來説，用户的搜索、導航記錄等都是長期記憶的範疇。
反思能力：一個初始狀態的智能體，在應對用户複雜需求以及實時環境快速變化時，往往會出現理解偏差、輸出內容不完備與知識更新滯後等問題。引入反思（Reflection）能力，能顯著提升服務的精準性與智能化水平。基於上述記憶-反思流程圖，可以看到反思能力能不斷地自我判斷當前的答案是否滿意。當然，客觀來説，在大部分領域很難實現完美的反思能力，因為反思的本質是要在將答案呈現給人之前就能判斷其質量，這裏面存在大量主觀因素和模稜兩可的問題，在這個過程中，LLM 是第一大功臣，可以説針對語音對話類場景，沒有 LLM 純靠規則就不可能實現普遍有效的反思。除此之外，長短期記憶也起到了重要的作用，它能夠結合用户之前的習慣，猜測當前的結果是否符合用户預期，如果不符合，會主動打回進行重新理解和執行。

04 案例解析：天氣查詢的完整技術鏈路

以一個簡單的“明天北京會下雨嗎”為例，系統執行以下操作：

語音識別：ASR 引擎輸出“明天北京會下雨嗎”文本；
語義理解：通過註冊到小度想想的工具，結合這段文本，輸出應當調用天氣 API，獲取相關數據；
服務調用：調用天氣 API 獲取預測天氣數據；
答案生成：輸出“明天北京陰有雨，15-25℃”；
反思與重新生成: LLM 審視這個答案，認為還不夠詳細，反思後認為應該按時間段細化降水概率，因此重新請求天氣 API，獲取更詳細的降雨預測數據，並呈現給用户。

隨着多模態大模型以及自動駕駛技術的發展，未來的小度想想會有更多的可能性。從大的趨勢來説，語音語義一體化大模型正在逐漸成熟，2025年3月31日，百度在 AI DAY 上發佈了業界首個基於全新互相關注意力（Cross - Attention）的端到端語音語言大模型，該模型實現了超低時延與超低成本。另外，多模態的對話（比如視頻 AI 對話）和自動駕駛的結合也值得重視，比如通過車載攝像頭識別"前方學校區域"並自動減速；通過聲紋、視頻和車輛傳感器識別人、車的異常，主動採取應對措施；而在導航行中播報的時候，所有內容都是基於實時動態數據進行人格化生成，再也不像機器人那樣的生硬，而是像真人一樣地交流，讓我們的出行更舒適高效。

百度Geek説博客

百度Geek説博客

博客 / 詳情

一文解碼百度地圖AI導航“小度想想”