Agentic AI基礎設施實踐經驗系列（一）：Agent應用開發與落地實踐思考详情 - 人工智能亞馬遜雲開發者日志

在過去的短短几年內，基礎模型(FMs)已經從直接用於響應用户提示創建內容，發展到現在為AI Agent提供動力。AI Agent是一類新型軟件應用，它們使用基礎模型來推理、規劃、行動、學習和適應，以追求用户定義的任務目標，同時只需要有限的人工監督。AI Agent由基礎模型驅動，其不確定性和非預定義邏輯的運行機制，為開發者帶來了全新的應用開發和運維範式。基於在多個項目中積累的Agent應用構建經驗，我們為您整理了一系列Agentic AI基礎設施實踐經驗內容。這些內容詳細介紹了構建Agent應用所需的沙盒、記憶、評估、可觀測性和工具部署等多個維度的經驗，幫助您全面深入地掌握Agent構建的基本環節。

在系列（一）中，我們將共同探討Agent開發和運維Agent（AgentOps）的基本要素和實踐思考。

📢限時插播：無需管理基礎設施，利用亞馬遜技術與生態，快速集成與部署生成式AI模型能力。
✨ 精心設計，旨在引導您深入探索Amazon Bedrock的模型選擇與調用、模型自動化評估以及安全圍欄(Guardrail)等重要功能。
⏩快快點擊進入《多模一站通 —— Amazon Bedrock 上的基礎模型初體驗》實驗構建無限, 探索啓程！

1. 解構 Agent 開發

在深入探討AgentOps之前，我們需要先理解Agent開發的本質。與傳統應用開發不同，Agent開發是一個多維度、多層次的工程挑戰，它不僅涉及代碼邏輯的實現，更關乎如何構建一個具備推理、記憶和行動能力的智能體。

Agent 系統的架構可以抽象為四個核心模塊的協同工作：

（1）推理引擎，推理引擎是Agent的“大腦”，通常基於大語言模型實現。它負責理解用户意圖、制定執行計劃、任務執行。在開發層面，這意味着我們需要精心設計提示詞模板、優化推理鏈路、控制推理成本。推理引擎的質量直接決定了Agent的智能水平。

（2）記憶系統，記憶系統賦予Agent“學習”和“成長”的能力。可以簡單分為短期記憶和長期記憶兩個大類：短期記憶維護當前會話的上下文狀態，類似於人類的工作記憶；長期記憶存儲用户偏好、歷史交互、知識積累等信息，需要智能的信息抽取和壓縮機制。在開發實踐中，我們需要設計合理的存儲架構、實現高效的檢索算法、建立智能的信息更新策略。

（3）編排模塊，規劃與執行模塊負責協調其他三個組件的工作，管理Agent的整體執行流程。它承擔任務分解、執行計劃制定、工具調用編排等職責。在開發層面，這涉及到工作流設計、異常處理策略、併發控制、狀態管理等技術挑戰。不同的Agent框架對這一模塊有不同的實現方式，如Strands Agents的任務編排器、LangGraph的圖執行器等。

（4）工具接口，工具接口是Agent與外部世界交互的“手腳”。一個Agent可能需要調用數十種不同的API、數據庫、外部服務。開發挑戰在於：如何標準化不同工具的接入方式、如何實現工具的智能選擇和組合、如何處理工具調用的異常和重試、如何確保工具調用的安全性和權限控制。

為了保障 Agent 能順利從原型轉變到生產，我們還需要使用如下的支撐服務模塊：

質量評估，Agent的智能行為需要專門的評估機制，包括推理質量評估、任務完成率統計、用户滿意度收集等。例如可以基於LLM-as-a-Judge自動化評估結合人工審核，建立持續的質量保證體系。
身份認證與授權，Agent系統需要解決”誰可以訪問Agent”和”Agent可以訪問哪些資源”的雙重身份問題。這包括用户身份驗證、會話級身份隔離、細粒度權限控制、跨系統授權等。在多租户環境中，還需要確保不同用户的Agent會話在獨立的安全沙箱中運行。
安全與隱私保護，基於OWASP Agentic AI威脅模型，Agent系統面臨記憶投毒、工具濫用、權限濫用、身份欺騙等多種安全威脅。開發時需要實施分層防護策略，在用户輸入、模型推理、工具調用、輸出生成等各個環節建立獨立的安全過濾機制。
可觀測性，Agent的非確定性行為要求全新的監控方式。我們需要追蹤推理鏈路、監控工具調用合理性、分析記憶使用情況、檢測安全事件、收集用户體驗指標。這種”思維過程”的可視化對於調試和優化Agent行為至關重要。

將上述開發和生產需求抽象出來，形成Agentic AI基礎設施的單元，如圖所示：

圖1 – Agent系統架構與基礎設施單元

1.1 統一的運行時

在實際部署中，Agent應用運行時和Agent工具運行時是整個系統的核心。它們需要提供兼容各種開發框架的服務接口，並在Agent業務價值尚未明確的情況下，能夠動態調整資源以最大限度地節省成本。此外，我們需要考慮幾個關鍵因素：

（1）會話管理。Agent的會話隔離機制和鑑權方式實現身份管理和隔離確保了多用户環境下的安全性。每個用户的Agent會話都在獨立的安全沙箱中運行，避免了數據泄露和交叉污染的風險。

（2）生命週期管理。Agent的會話狀態會因模型調用、服務等待等因素充滿着不確定性，運行時能夠根據業務需求來調整狀態轉換的策略。對於有狀態的業務，需要將狀態信息持久化，確保在系統重啓或故障恢復時能夠正確恢復Agent的工作狀態。

（3）接口標準化。通過腳手架，運行時被變成對外的HTTP服務，根據Agent類型分配不同端口和路徑，支持健康檢查。這種標準化的接口設計讓Agent可以輕鬆地集成到現有的基礎設施中。

1.2 統一的工具接入和管理

工具網關（Gateway）是解決工具生態管理問題的關鍵組件。它不僅需要支持已有的標準化API、MCP協議或輕量級服務集成等接入功能，還需要提供工具發現、刪除、鑑權等相關能力，方便開發者更加便捷地管理和維護工具列表。

其中，工具的快速搜索功能至關重要。當Agent面對複雜的用户請求時，網關的檢索能力使其無需列出和讀取所有工具，而是能夠根據問題動態地發現和篩選出最合適的工具子集。這種搜索功能不僅減少了返回的工具數量，還提升了上下文相關性和處理速度，同時降低了成本。這對於控制Agent的運行成本尤為重要。

1.3 統一的記憶單元

記憶模塊是Agent智能化的核心要素。它能夠通過收集用户對話信息，深入瞭解用户的偏好、興趣、關注點以及歷史事件等內容。這些信息作為當前會話的上下文，不僅提升了Agent回答的準確性，還使其能夠更好地滿足用户的個性化需求。

記憶的存儲架構通常採用分層設計：短期記憶用於保存原始數據，以便在當前會話中查詢歷史消息；長期記憶則通過異步方式對對話歷史進行加工，抽取語義事實、用户偏好和內容摘要等信息。這種設計不僅保證了實時性能，還提供了長期的智能化能力。在實際生產環境中，我們還需特別關注記憶的安全性和隔離性。每個用户的記憶數據應存儲在獨立的命名空間中，以防止數據泄露。此外，建立完善的數據備份和恢復機制，確保重要的用户偏好和歷史信息不會丟失，也是至關重要的。

1.4 統一的通用基礎工具

在構建 Agent 應用時，瀏覽器和代碼解析器是兩項不可或缺的工具。簡單來説，瀏覽器工具讓 Agent 能“看網頁、操作網頁”，實現對非 API 系統的直接操作；而代碼解析器讓 Agent 能“運行代碼、算得更精”，勝任數據處理和複雜計算任務。

瀏覽器往往需要一個完全託管的瀏覽器沙箱環境（Sandbox），讓Agent能夠像人類那樣“瀏覽網頁”。點擊按鈕、填寫表單、解析動態內容、抓取圖像或執行頁面導航等，這些往往是在隔離、安全、可監控的沙盒中進行。企業藉此可繞過缺少 API 的系統，自動化處理諸如填報內部表單、跨系統數據抓取、網頁內容監測等任務，同時還具備回放能力。

代碼解析器則讓 Agent 獲得運行程序能力，它通過提供一個沙箱環境，可安全地讓 Agent 調試並執行基礎模型動態生成的代碼，並能處理大規模數據、生成可視化分析、執行復雜計算任務。在企業場景中，這意味着 Agent 不再侷限於文本推理，而可以親自“動手”執行多步數據流程、處理 CSV/JSON/Excel 數據、繪製圖表、執行機器學習分析等。

1.5 統一的認證與鑑權機制和安全防護

在構建Agent應用時，身份認證是整個安全體系的核心基石，直接影響系統在企業級場景下的穩定和安全運行。身份管理組件需要支持與多種身份提供商（IdP）集成，如GitHub、社交媒體賬户以及遵循標準認證協議的企業級身份管理系統（如Okta）。此外，開發者應能配置多維度的認證規則，包括入站和出站的雙向認證機制：入站認證確保只有合法授權的用户或系統能夠訪問Agent應用，而出站認證則保障Agent在調用外部工具或資源時能夠通過安全的認證回調完成授權。這種雙向認證機制不僅防止未授權訪問，還確保了Agent在跨系統交互時的合規性與安全性。

在Agent輸出內容的安全方面，仍需通過安全防護機制（如Guardrails）來確保大模型在引導Agent完成任務時，不受到嚴重的幻覺影響，也不提供非法或不合規的內容。這要求在模型本身的安全防控上，需要增加額外的規則和策略，以判斷Agent的思考和執行是否合法，是否符合業務規則要求。

1.6 統一的可觀測性

由於大語言模型會引入思考、執行和輸出的多種不確定性，Agent應用在開發、調試和落地環節中，需要一個多層次的監控體系。在基礎設施層，需要追蹤Agent運行環境的資源使用情況；在應用層，重點監控Agent的性能表現和調用鏈路；在業務層，則需關注用户體驗和任務完成情況。下一章節的AgentOps將重點展開這些方面的討論。

有了以上架構支撐，Agent開發者可以更快速地將CI/CD流水線與Agentic AI基礎設施單元集成，實現從應用邏輯開發到生產部署的快速上線和產品迭代。

圖2 – Agentic AI 應用的CI/CD流程

Agent應用需要基於多種核心功能模塊的協作，同時依賴多個支撐服務模塊來提供生產級保障。Agent的非確定性行為和上下文依賴性等特性，對傳統開發工具鏈帶來了新的挑戰。我們需要重新構建包括上下文工程、記憶管理、工具集成和行為調試在內的全新工具體系。這些範式轉變也為接下來探討的AgentOps體系奠定了基礎。

2、從DevOps到AgentOps：運維複雜性的新挑戰

2.1 生成式 AI 中有哪些 Ops

DevOps 實現了高效地管理確定性系統，相同的輸入通常會產生可預期的輸出。其監控重點、部署流程也相對標準化，我們可以通過明確的錯誤堆棧和日誌快速定位問題。在 MLOps 時代引入了不確定性，模型的性能會隨時間衰減，需要持續的數據反饋，也要管理數據集、模型權重、超參數等。AI Agent 應用不僅具有非確定性體現在它們展現出的“智能行為”：Agent 能自主決策、調用外部工具或 API 並持續演化，這對可復現性、成本、合規性提出了更高要求。

圖3 – 生成式 AI 中的 Ops 及其關係

在生成式AI時代，根據業務場景的不同特點，我們可以將運維劃分為兩大主要方向：（1）基礎模型開發場景，主要聚焦於模型本身的生命週期管理，這裏的核心是FMOps（Foundation Model Operations），其涵蓋了從模型訓練、優化到部署的全流程運維。LLMOps作為其中最重要的分支，專門處理大語言模型的特殊需求，如分佈式訓練、推理優化、模型版本管理等。（2）生成式AI應用開發場景，我們看到了幾個專業化的實踐領域正在快速迭代發展：PromptOps 專注於提示詞工程的運維化，包括提示詞模板的版本管理、A/B測試、效果評估和持續優化；RAGOps 處理檢索增強生成模塊，從向量數據庫管理到知識更新，再到檢索質量優化等。

AgentOps 是將 DevOps/MLOps 能力擴展到 Agent 系統的一套運維範式，旨在保證 Agent 在開發、測試/預發佈、生產等各階段都可靠、安全、高效。核心支柱包括：設計/原型驗證、與運行平台的集成以便於供應與擴縮、全面可觀測性、嚴格測試/驗證，以及持續的反饋迴路。

2.2 AgentOps 的技術需求

這裏我們聚焦 Agent 運維（AgentOps）層面的技術需求，把基礎設施單元放進全生命週期（開發 / 測試 / 生產）管理、部署與自動化的角度來具體化，包括 Agent 及周邊工具開發構建、測試、發佈、監控、安全、回滾等關鍵運維要點。

在 Agent 及 MCP 服務構建階段，我們需要考慮到：運行環境兼容性及靈活性，可以將 Agent、工具打包為鏡像或函數，以保證一致性與隔離性。運行時負責拉取鏡像、注入配置、加載模型與工具；會話隔離，在多租户環境中，我們需要確保每個會話都在獨立的安全環境中運行，防止數據泄露和交叉污染；標準化接口，將端口&路徑配置、健康檢查接口和API參數格式標準化，可以實現新Agent開發和已有Agent改造接入的一致性體驗，提高接入效率；部署自動化，通過IaC服務（如 CDK / Terraform / Helm），並結合 CI/CD 流水線自動化創建基礎網絡、運行時、密鑰等資源，確保開發/測試/生成環境能被可重複地供應；全週期的可觀測性，每個實例啓動時即注入日誌/Tracing 埋點，保證會話從一開始就可追蹤與回放。

標準化記憶生產流程：記憶系統在生產環境中面臨的核心挑戰是如何從非結構化的對話數據中穩定、準確地提取有價值的信息。在設計 AgentOps 平台時，需要考慮到標準化的記憶生產模板，為了避免每個業務團隊重複開發記憶抽取邏輯，需要建立標準化的記憶生產模板。這些模板基於 LLM 配合精心設計的提示詞，能夠自動識別和抽取特定類型的信息；提供自定義抽取能力，不同業務場景對記憶內容有顯著差異，需要允許不同的業務根據需求自定義記憶抽取及查詢邏輯。

關注版本化管理，代碼、模型及使用的提示詞、配置與工具映射、記憶抽取模塊應統一納入版本控制（Git），併為每個發佈打標籤；CI/CD 自動化，流水線負責構建鏡像、運行單元/集成/安全測試、部署到預發佈並執行煙霧測試；推向生產前支持金絲雀或藍綠髮布策略；提示詞與配置即代碼，提示詞也像代碼一樣支持 diff、回滾與審查，以便在發現邏輯/合規問題時能迅速恢復到已驗證版本；快速回滾能力，保持鏡像與模型的歷史版本，CI/CD 支持一鍵回滾並伴隨會話回放供事後分析。

建立多層次觀測，基礎設施層（如 CPU、內存、網絡等）；應用/運行時層（如請求/響應延遲、模型調用次數與成本）；業務層（如推理鏈路、任務完成率、異常率等）。也要支持細粒度軌跡與會話回放：記錄每一步輸入、中間狀態（上下文）、外部工具/API輸入輸出、模型響應與最終輸出，支持重放與根因分析；統一語義與 Trace 標註：採用統一的 Trace/Span 約定（將 agent-id、session-id、operation-type 等嵌入到 trace），便於跨 Agent 的關聯分析；實時告警與自動化響應：基於閾值/異常檢測觸發告警，並可以觸發自動限流、降級或重啓策略。

要保證最小權限與短期憑證，避免長期共享密鑰，CI/CD 作為憑證下發與審計點，運維側對憑證生命週期實施策略化管理；控制入站和出站訪問，以實現控制誰可以訪問Agent、Agent可以訪問哪些資源。對於外部訪問，可以通過網絡規則或代理限制，例如僅允許受控 API並記錄所有外呼以供審計。安全護欄（Guardrails）與輸出過濾，在模型與 Agent / 工具層加入護欄，避免記憶投毒、工具濫用、模型幻覺、敏感信息外泄或違法輸出等；流水線合規，在 CI/CD 中加入安全/合規掃描（提示詞注入檢測、依賴漏洞、配置泄露），並在發佈前強制通過治理檢查。管理密鑰，通過專用安全存儲服務來提供運行時憑證，並僅在運行時注入到容器中並限定生命週期。

部署階段考慮採用金絲雀、藍綠或 A/B 流量切換，先在小流量或影子流量中驗證新版本；並可以基於指標的切換/回退：用可觀測性指標與用户反饋驅動發佈決策，若指標惡化則自動回滾；提示詞可回退，提示詞變更要可審計，保持歷史版本便於快速恢復。

接下來，我們討論如何根據不同客户畫像構建 AgentOps 平台。

3、構建 AgentOps 平台

在明確 AgentOps 與傳統 DevOps/MLOps 的差異之後，企業在真正落地平台時往往面臨兩類典型需求：一是具備成熟研發與運維體系的中大型組織，希望在安全合規、可觀測性、版本治理等方面實現深度定製與長期演進；二是初創或業務團隊，更關注快速驗證價值與低成本上線。

針對這兩種訴求，我們提出兩條建設路徑：以平台工程為核心的可擴展平台，強調統一治理、強可控性和深度集成，適合已有平台團隊、需要長期演進和嚴格合規的企業；輕量託管 / Serverless 快速落地方案，聚焦敏捷交付和彈性擴容，適合資源有限的小團隊、PoC 項目或對基礎設施依賴較低的業務單元。兩種方案並無絕對優劣之分，而是面向不同組織規模、治理需求的差異化選擇。

3.1 以平台工程為核心的可擴展平台

平台工程(Platform Engineering)是一門設計和構建工具鏈和工作流程的學科，其核心理念是通過抽象複雜性、標準化流程、提供自助服務能力來提升開發者體驗和生產力。

圖 4 – 平台工程的構成

可以借鑑內部開發者平台（IDP）理念，將 AgentOps 能力集成到一個統一平台中，提升開發者體驗和運維效率。核心模塊包括：

開發者門户與治理：提供自助式門户，統一管理 Agent 及其組件。實現提示詞/模型/工具註冊與版本管理、權限控制和合規審查。對常用模板、最佳實踐進行封裝，幫助開發者快速上手。
CI/CD 與交付流水線：集成持續集成/持續交付工具（如 Jenkins、GitLab CI、GitHub Actions），支持 Agent 代碼和配置的自動化測試、打包、部署。流水線中包含註冊容器到倉庫、提示詞校驗、Agent 效果評估、單元測試、人工審核等步驟。
統一運行時環境：採用容器化技術（如 Docker、Kubernetes）提供可伸縮的執行環境。所有 Agent 以容器形式運行，實現資源隔離和彈性伸縮。
觀測與日誌系統：嵌入豐富的監控、日誌和鏈路追蹤能力。包括捕獲模型調用日誌、提示詞、工具調用、內存上下文和推理中間步驟等。使用 Prometheus/Grafana、ELK/Fluentd 或商業監控平台集中採集與分析，實時監控延遲、錯誤率、成本、用户滿意度等指標。
安全憑據與策略：提供集中化密鑰和憑據管理（如 Amazon Secrets Manager），對敏感數據和第三方 API 調用進行鑑權審計。配合統一的安全策略和合規掃描（如靜態代碼掃描、提示詞注入檢查）確保平台安全。模型安全護欄可以使用託管的服務，例如 Bedrock Guardrails 審核輸入、輸出，結合內部知識庫避免模型幻覺的影響。

3.2 輕量託管服務/Serverless 快速落地

此方案面向小團隊或 PoC，追求快速上線和低成本運營。思路是充分利用雲服務託管服務，減少基礎設施依賴。核心要點包括：

Serverless 運行環境：這裏的環境選擇較為多樣。選擇1）藉助專門針對 Agent 場景優化的雲託管服務（如 Amazon Bedrock AgentCore），將 Agent 打包為容器並通過託管服務快速構建；選擇2）將 Agent 邏輯封裝為雲函數（如 Amazon Lambda 服務）按事件觸發執行；選擇3）Amazon ECS Fargate 服務，同樣是將 Agent 打包為容器，藉助 ECS Fargate + ELB 對外提供服務。這幾種選擇都可以藉助託管服務內置的擴縮容能力，避免自建集羣，AgentCore 更適合 Agent 及 MCP 服務，後兩個更適合需要更高自定義的場景。
託管模型服務與工具：直接調用 LLM API（如 Amazon Bedrock），工具則同樣可以採用上述Serverless方式部署，其中，AgentCore 也專門提供 Gateway 模塊快速將內部或者三方 API 轉為 MCP 服務供 Agent 使用。
簡易 CI/CD：通過 GitHub Actions、GitLab CI、Amazon CodePipeline 等輕量流水線將代碼部署到 Lambda / ECS Fargate，可快速迭代 Agent 功能。
監控和日誌：使用雲服務提供的監控（如 CloudWatch）和日誌服務。配合第三方可觀察性工具（Datadog、Sentry 等）抓取錯誤和性能數據，不必自建 ELK/Grafana。
安全與憑據：利用雲平台的身份和訪問管理（IAM）控制函數和服務權限。憑證存儲可使用 Secrets Manager 等託管方案，即可實現企業級的安全保障。模型安全護欄的選型思路同上。

3.3 兩種方案的適用建議與對比

對於初創團隊、小團隊或 PoC，強調快速上線和成本控制，可在不投入大量基礎設施前提下驗證業務模型，可以優先採用託管服務或者 Serverless 的服務。對於已有成熟平台工程團隊、追求高可定製性、需嚴格合規治理的企業，可以基於 IDP 的理念構建，優勢在於高度可定製和治理能力強，適合大型企業或複雜業務場景，但前期投入和團隊要求較高。通過平台工程思路，團隊可以將 AgentOps 各類能力產品化，也建議結合業務GTM的時效性訴求選擇複用託管服務已有能力快速構建。

表1 – 兩種 AgentOps 方案對比

4、在亞馬遜雲上構建“生產就緒”的Agent應用

目前，構建能夠可靠執行復雜任務的Agent應用變得日益便捷，這主要歸功於多種開源Agent開發框架，如Strands Agents、CrewAI、LangGraph和LlamaIndex等。然而，基於這些框架開發的Agent距離“生產就緒”狀態仍存在顯著差距。正如前文所述，運行時環境、記憶模塊、瀏覽器、代碼解析器、安全防護機制、認證鑑權系統、工具管理平台、可觀測性以及AgentOps平台構建等，對Agent開發者而言不直接創造業務價值，卻是部署生產環境的“必需品”。因此，在競爭激烈的Agent市場中，越來越多開發者選擇雲端專業Agent基礎設施提供的託管功能，加速開發進程，將精力集中在提升Agent業務價值上，以更好地滿足用户需求。

亞馬遜雲科技在Agent開發領域提供了最全面而深入的產品支持，從包含各類底層算力的加速芯片、到託管的機器學習平台Amazon SageMaker，再到Agent基礎模型調用和平台服務Amazon Bedrock、Agent開發SDK Strands Agents，以及面向垂類應用場景的Agent軟件服務等，端到端地為各類開發者提供專業的服務。

圖5 – 亞馬遜雲科技Agent技術棧

其中，Amazon Bedrock AgentCore是一款業界領先的專為Agent應用打造的基礎設施服務。它依託亞馬遜雲科技多年沉澱的強大基礎能力，提供安全、彈性、高可用和免運維等一系列Agent必備組件，使開發者能便捷構建完整的”生產就緒”Agent應用。

圖6 – Amazon Bedrock AgentCore能力模塊及架構

Amazon Bedrock AgentCore包含了七大單元支撐Agent應用由開發轉生產：

AgentCore運行時：提供了低延遲的無服務器環境，用於部署Agent或MCP工具。該環境具備會話隔離功能，支持各類Agent框架，包括流行的開源框架（如Strands Agents、LangGraph、CrewAI等）。此外，它能夠集成各種工具和模型，並有效處理多模態工作負載及長時間運行的Agent應用。
AgentCore記憶：管理短期和長期記憶，為模型提供相關上下文，同時幫助Agent從過去的交互中學習歷史知識。
AgentCore瀏覽器：提供完全託管的Web瀏覽器工具，以擴展Agent基於Web的自動化工作流程。
AgentCore代碼解釋器：提供一個隔離環境來運行Agent生成的代碼，即需即用。
AgentCore身份管理：使Agent應用能夠安全訪問亞馬遜雲科技服務和第三方工具及服務，如GitHub、Salesforce和Slack，可以代表用户或在預授權用户同意的情況下自行操作。
AgentCore工具網關：將現有API和Amazon Lambda函數轉換為Agent隨時可用的工具，提供跨協議的統一訪問，包括MCP，以及工具快速檢索等功能。
AgentCore可觀測性：提供Agent執行過程的逐步可視化功能，包括元數據標記、自定義評分、軌跡檢查以及故障排除/調試過濾器等。

這七大單元共同構成了Agent應用生產的支撐體系，通過提供全面的企業級服務，使Agent開發者能夠利用任意框架和模型，快速、安全地部署和運營大規模Agent應用。關於每個模塊的更多細節，請參見本博客系列中的相應文章。

基於Bedrock AgentCore進行AgentOps實踐時，可以很方便地實現CI/CD、運行時治理、可觀測性、工具接入與記憶管理及隔離等模塊的協作。具體來説，可以將CodePipeline作為流水線骨架：Agent代碼提交後觸發鏡像構建，基於運行時的鏡像版本與AgentCore的版本策略自動生成可回溯的部署單元，避免“模型升級”或“鏡像漂移”帶來的環境不一致問題。部署的 Agent 實例可選擇接入 CloudWatch，或結合 LangSmith 等三方工具，讓每一次調用的延遲、錯誤率、上下文鏈路都能被實時捕捉與回放。這種全鏈路觀測能力為後續迭代提供了可靠的反饋迴路，使 Agent 性能優化不再僅僅依靠臨時的線下排查。

此外，記憶可以採用基於AgentCore記憶模塊命名空間（Namespace）的隔離策略，每個環境、租户或會話擁有獨立命名空間，既保證隱私合規，又方便按環境維度進行調試和回滾。所有記憶訪問行為均被打點寫入觀測平台，既可追責也可做趨勢分析。工具生態通過AgentCore Gateway統一管理，開發者只需註冊OpenAPI或第三方API（如Jira、Brave等），即可被Agent發現和調用，無需在代碼中硬編碼接口地址。Gateway同時支持權限分級與調用審計，使工具治理與安全防護自然融入平台主幹。

結語

隨着基礎模型能力的快速提升和Agent開發框架的日趨成熟，構建智能Agent的技術門檻正在快速降低。然而，真正的挑戰不在於Agent本身的開發，而在於如何讓這些智能體在生產環境中穩定、安全、可靠地運行。企業和開發者應該將寶貴的時間和精力投入到核心業務邏輯的創新上：理解用户需求、優化業務流程、提升服務體驗，而不是被基礎設施的複雜性所困擾。這也是Amazon Bedrock AgentCore 平台存在的價值所在：通過提供標準化的運行時環境、統一的工具管理、智能的記憶系統和全面的安全防護，讓Agent應用開發變得像傳統應用開發一樣簡單和可預期。在運維自動化上，結合自身當前的業務訴求、狀態選擇合適的 AgentOps 平台落地的路線，讓 Agent 獲得全生命週期的可靠、安全及高效保障。

關於Agentic AI基礎設施的更多實踐經驗參考，歡迎點擊：

Agentic AI基礎設施實踐經驗系列（一）：Agent應用開發與落地實踐思考

Agentic AI基礎設施實踐經驗系列（二）：專用沙盒環境的必要性與實踐方案

Agentic AI基礎設施實踐經驗系列（三）：Agent記憶模塊的最佳實踐

Agentic AI基礎設施實踐經驗系列（四）：MCP服務器從本地到雲端的部署演進

Agentic AI基礎設施實踐經驗系列（五）：Agent應用系統中的身份認證與授權管理

Agentic AI基礎設施實踐經驗系列（六）：Agent質量評估

Agentic AI基礎設施實踐經驗系列（七）：可觀測性在Agent應用的挑戰與實踐

Agentic AI基礎設施實踐經驗系列（八）：Agent應用的隱私和安全

*前述特定亞馬遜雲科技生成式人工智能相關的服務目前在亞馬遜雲科技海外區域可用。亞馬遜雲科技中國區域相關雲服務由西雲數據和光環新網運營，具體信息以中國區域官網為準。

本篇作者

本期最新實驗《多模一站通 —— Amazon Bedrock 上的基礎模型初體驗》
✨ 精心設計，旨在引導您深入探索Amazon Bedrock的模型選擇與調用、模型自動化評估以及安全圍欄(Guardrail)等重要功能。無需管理基礎設施，利用亞馬遜技術與生態，快速集成與部署生成式AI模型能力。
⏩️[點擊進入實驗] 即刻開啓 AI 開發之旅
構建無限, 探索啓程！

亞馬遜雲開發者日志

@aws_aidevcommunity

标签

人工智能 (486)

Python (289)

php (185)

API (69)

雲計算 (56)

VPS (29)

ide (27)

typecho (9)

dns (6)

cli (5)

amazon-lightsail (4)

sdk (4)

动态

Agentic AI基礎設施實踐經驗系列（一）：Agent應用開發與落地實踐思考 - 动态详情