阿里雲基礎軟件 -
Java內存排查太難?阿里雲操作系統控制枱上線「內存診斷」新利器
背景
隨着汽車行業加速智能化轉型,從傳統線下 IDC 集羣向雲端遷移並進行容器化改造,經常會遇到關於 Pod 內存異常、Pod發生 OOMKilled 的問題, 這些問題主要的矛盾點在於:
1、Pod(容器)內存佔用比 JVM 內存監控(堆內和堆外內存)佔用大很多。
2、總是有一部分消失的內存無法找出具體是哪部分佔用。
3、同一業務同一 JDK 版本,切換 OS 或容器化改造之後,才出現了 1、2
操作系統
阿里雲基礎軟件 -
OOM 殺進程 or 應用卡頓?該如何抉擇
背景
近期,大量用户反饋系統在運行過程中出現 CPU 利用率與系統負載(load)突發性飆升,甚至引發系統短時卡頓(持續數秒至數十秒)的問題;對於業務來説,輕則導致幾百毫秒的抖動,重則連機器都無法ssh上去。經分析發現,此類異常現象普遍存在一個顯著特徵:均發生在系統內存佔用率接近閾值(90%-95%)時。用户就發出了靈魂拷問:
“水位這麼高了,為什麼內核不觸發 OOM 殺掉一些進程來釋放內存
操作系統
,
運維
阿里雲基礎軟件 -
這幾類運維難題,看阿里雲操作系統控制枱如何一站式破解
在雲計算環境中,Kubernetes(K8s)集羣與容器化部署已成為行業標準化實踐,但同時也對運維體系及可觀測性提出了顯著挑戰:一方面,主流監控工具(如 Node Exporter、cAdvisor 和 Datadog)雖能提供系統級與容器級的基礎指標,卻難以覆蓋操作系統深層次問題(如調度延遲、內存回收延遲、TCP 重傳率等),而引入增強型指標又面臨操作系統知識門檻高、分析複雜度大的難題;另一方面
運維自動化
,
操作系統
阿里雲基礎軟件 -
深度探討基礎軟件驅動下的智駕進化之道 |《AI 進化論》第四期
在 AI 與本土化雙重浪潮之下,服務器操作系統正迎來歷史性變革。由阿里雲聯合 InfoQ 打造的直播 IP 欄目《AI 進化論:智算時代操作系統的破局之路》,以雲、AI、安全等技術與服務器操作系統如何融合演進為主線,聚焦服務器操作系統在智算時代的進化之路,特邀學術權威、行業專家、客户代表圍繞原生智能、原生安全、軟硬協同等熱點議題展開深度對話。截至目前,已直播三期,線上觀看人次達 20 萬+。
《A
操作系統
,
人工智能