博客 / 列表

阿里雲基礎軟件 - 揭開 Java 容器“消失的內存”之謎:雲監控 2.0 SysOM 診斷實踐

背景 在前一篇文章《一次內存診斷,讓資源利用率提升 40%:揭秘隱式內存治理》[1]中,我們系統性地剖析了雲原生環境中隱性內存開銷的診斷方法,通過 SysOM 系統診斷實現了對節點/Pod 級由文件緩存、共享內存等系統級內存資源異常消耗的精準定位。 然而,部分場景下內存異常仍可能源於應用進程本身的內存申請,但是對於應用內存泄漏問題,儘管是應用的開發者,也需要投入大量的精力去利用對應語言的內存分析工

操作系統 , JAVA

阿里雲基礎軟件 - Alibaba Dragonwell 21 AI 增強版:引爆 Java 在 AI 時代的性能潛能

2025 年,Java 迎來了它的 30 歲生日。在這 30 年間,Java 一步步成為了企業級應用中最穩固的基石;而在如今這個 AI 的時代,Java 也開始承擔越來越多 AI 相關的重型負載,例如基於 Elasticsearch 的 RAG 引擎、基於 Spark 的大規模數據分析與特徵工程等。 然而,面對大規模、計算密集的 AI 應用場景,傳統 JVM 往往顯得力不從心:Java 層面的向量

JAVA

阿里雲基礎軟件 - Java內存排查太難?阿里雲操作系統控制枱上線「內存診斷」新利器

背景 隨着汽車行業加速智能化轉型,從傳統線下 IDC 集羣向雲端遷移並進行容器化改造,經常會遇到關於 Pod 內存異常、Pod發生 OOMKilled 的問題, 這些問題主要的矛盾點在於: 1、Pod(容器)內存佔用比 JVM 內存監控(堆內和堆外內存)佔用大很多。 2、總是有一部分消失的內存無法找出具體是哪部分佔用。 3、同一業務同一 JDK 版本,切換 OS 或容器化改造之後,才出現了 1、2

操作系統

阿里雲基礎軟件 - OOM 殺進程 or 應用卡頓?該如何抉擇

背景 近期,大量用户反饋系統在運行過程中出現 CPU 利用率與系統負載(load)突發性飆升,甚至引發系統短時卡頓(持續數秒至數十秒)的問題;對於業務來説,輕則導致幾百毫秒的抖動,重則連機器都無法ssh上去。經分析發現,此類異常現象普遍存在一個顯著特徵:均發生在系統內存佔用率接近閾值(90%-95%)時。用户就發出了靈魂拷問: “水位這麼高了,為什麼內核不觸發 OOM 殺掉一些進程來釋放內存

操作系統 , 運維

阿里雲基礎軟件 - 這幾類運維難題,看阿里雲操作系統控制枱如何一站式破解

在雲計算環境中,Kubernetes(K8s)集羣與容器化部署已成為行業標準化實踐,但同時也對運維體系及可觀測性提出了顯著挑戰:一方面,主流監控工具(如 Node Exporter、cAdvisor 和 Datadog)雖能提供系統級與容器級的基礎指標,卻難以覆蓋操作系統深層次問題(如調度延遲、內存回收延遲、TCP 重傳率等),而引入增強型指標又面臨操作系統知識門檻高、分析複雜度大的難題;另一方面

運維自動化 , 操作系統

阿里雲基礎軟件 - 深度探討基礎軟件驅動下的智駕進化之道 |《AI 進化論》第四期

在 AI 與本土化雙重浪潮之下,服務器操作系統正迎來歷史性變革。由阿里雲聯合 InfoQ 打造的直播 IP 欄目《AI 進化論:智算時代操作系統的破局之路》,以雲、AI、安全等技術與服務器操作系統如何融合演進為主線,聚焦服務器操作系統在智算時代的進化之路,特邀學術權威、行業專家、客户代表圍繞原生智能、原生安全、軟硬協同等熱點議題展開深度對話。截至目前,已直播三期,線上觀看人次達 20 萬+。 《A

操作系統 , 人工智能