收藏 / 列表

小陳運維 - Grafana Prometheus Altermanager 監控系統

Grafana Prometheus Altermanager 監控系統 基本概念 Prometheus 是一套開源的系統監控、報警、時間序列數據庫的組合,最初有 SoundCloud 開發的,後來隨着越來越多公司使用,於是便獨立成開源項目。Alertmanager 主要用於接收 Prometheus 發送的告警信息,它支持豐富的告警通知渠道,例如郵件、微信、釘釘、Slack 等常用溝通工具,而且

監控 , linux運維 , Centos , Linux , 監控工具

萌萌朵朵開 - Kubernetes CronJob:定時任務在集羣中的調度與管理

之前需要定期執行的任務:比如每天凌晨清理日誌、每週日凌晨備份數據庫、每小時同步一次數據。剛開始用Linux的crontab在集羣節點上跑,但節點故障後任務就中斷了,還不好統一管理。後來發現Kubernetes的CronJob完美解決了這些問題——它能在集羣中調度定時任務,自動容錯,還能通過資源配置控制任務資源佔用,比單機crontab靠譜多了。 一、CronJob與Job的

Pod , kubernetes , 定時任務 , 雲計算 , 調度規則

dashery - 大模型核心參數詳解:從基礎配置到高級調優指南

引言:參數調優的重要性 在大語言模型的應用中,僅僅提供一個好的提示詞往往不足以獲得理想的輸出結果。模型參數的合理配置同樣至關重要,它如同給模型調配合適的“工作性格”,直接影響生成文本的質量、風格和適用場景。本文將系統介紹大模型的各類關鍵參數,幫助你從被動使用者轉變為精準調控專家。 一、模型基礎結構參數 在深入瞭解生成參數前,我們需要先理解模型的基礎結構參數,這些參數決定了模型的“先天能力”。 1.

AI

KubeSphere - 在 KubeSphere 上構建你的自託管 AI 助手|Open WebUI 擴展上線

在雲原生與智能化融合的進程中,越來越多的企業和開發者希望具備一套 自主可控、可離線運行的 AI 平台,能夠本地運行大語言模型(LLM),並與企業內部系統安全集成。 現在,Open WebUI 擴展 已正式登陸 KubeSphere AI Labs。通過該擴展,用户可在 KubeSphere 環境中一鍵部署並運行 可完全自託管的智能對話與交互平台,打造安全可控的 AI 使用體驗。無論是本地 Olla

後端

zxxpeace - 由於線程數引發TKE 集羣節點故障的思考

事故的大概流程如下: 線程數耗盡 → Docker 卡死 → CSI 重連 → 系統掛掉。這個時候就需要我們異常去重啓cvm 操作系統。 [root@k8s-master01 log]# [root@k8s-master01 log]# grep Resource daemon.log Nov 18 13:56:05 localhost systemd[

kubernetes , 雲計算 , 重啓 , Docker